Запуск больших языковых моделей (LLM) локально на вашем графическом процессоре требует большого объема видеопамяти (VRAM), что в наши дни может экспоненциально увеличить стоимость системы. На фоне продолжающегося бума ИИ наибольшую ценность представляют старые, часто забытые, но все еще производительные чипы, что и обнаружил ютубер Hardware Haven. Он взял серверный графический процессор Nvidia V100 с интерфейсом SMX, что сродни использованию процессора с сокетом, и переделал его под стандартную шину PCIe, которая подключается к потребительской материнской плате. В итоге он показал весьма неплохие результаты для своего класса (и стоимости), даже по сравнению с современными SKU.
Эта конструкция начинается с ИИ-графического процессора Nvidia Tesla V100, использующего сокет SMX2 и предназначенного для развертывания в стоечных системах. Интерфейс SMX представляет собой мезонинный разъем, который крепит графические процессоры плашмя к специальной базовой плате, подобно сокету ЦП, после чего графический процессор прикручивается к этой плате. Хосту удалось приобрести этот графический процессор всего за 100 долларов, а сопутствующий адаптер SMX-to-PCIe x16 также стоил около 100 долларов, что довело общую стоимость установки до 200 долларов. V100 поставляется с 16 или 32 ГБ памяти HBM2 (мы работаем с 16 ГБ, обеспечивающими пропускную способность 900 ГБ/с) и основан на архитектуре Turing.
Карта-адаптер PCIe не имела собственного охлаждения, а поскольку V100 — это, по сути, просто радиатор на печатной плате, ютубер спроектировал и напечатал на 3D-принтере для него кожух. Он прикрепил с торца 80-миллиметровый вентилятор Noctua для забора свежего воздуха к радиатору. Адаптер также имеет 2 разъема питания PCIe 8-pin для, собственно, питания, а также 3 разъема PWM 4-pin. В нем отсутствует вторичный сокет SMX для NVLink; однако такие сокеты стоят значительно дороже.
Как только графический процессор был готов и установлен в стандартную систему Ryzen, пришло время проверить, насколько «искусственным интеллектом» обладает карта 2017 года. Имейте в виду, что у V100 нет видеовыхода, поэтому для фактического использования компьютера вам потребуется интегрированная графика в вашем ЦП. В Ollama, при использовании gpt-oss-20b, V100 смог выдать 130 токенов в секунду, в то время как Radeon RX 7800 XT в повседневной системе ютубера достигла лишь около 90 токенов в секунду.
Обе карты имеют 16 ГБ видеопамяти, а RX 7800 XT даже новее и, предположительно, имеет более эффективный кремний, но, с другой стороны, Nvidia является золотым стандартом по поддержке программного обеспечения в этих бенчмарках. Поэтому хост переключился на RTX 3060 12 GB (лучший графический процессор Nvidia, который у него был под рукой), чтобы сравнить его с V100, который также построен на более новой архитектуре Ampere.
При запуске Google gemma4:e4b, V100 достиг максимума в 108 токенов в секунду, в то время как 3060 12 GB справилась лишь с примерно 76 токенами в секунду, но делала это, потребляя меньше энергии — 293 Вт у V100 против 235 Вт у RTX 3060. Если мы рассчитаем токены на ватт, то получим около 0,37 для V100, что немного эффективнее, чем 0,33 токена в секунду на ватт у 3060.
Ограничение мощности V100 до 100 Вт (по умолчанию он потребляет 300 Вт) снизило энергопотребление до 170 Вт в том же тесте, при этом он продолжал выдавать 95 токенов/с. Чтобы сравнение было справедливым, ютубер также ограничил 3060 до 100 Вт; в итоге она потребила 171 Вт и выдала всего 68 токенов в секунду. Таким образом, с учетом новых результатов, V100 достигает показателя эффективности 0,55 токенов/с на ватт, в то время как 3060 12 GB застряла на уровне 0,39 токенов/с на ватт.
Несмотря на то, что V100 оказался намного более эффективным в целом, несмотря на то, что он на несколько поколений старше, его энергопотребление в режиме простоя — это настоящая проблема. Он потребляет 45 Вт просто в состоянии покоя по сравнению с 35 Вт у RTX 3060. Наконец, ютубер также протестировал Frigate NVR, который показал очень хорошие результаты на V100, лучше, чем на RTX 3060, но потреблял больше энергии, как и ожидалось.
Предыдущая установка хоста для Frigate представляла собой мини-ПК на базе Intel N100, который с трудом обнаруживал его собаку на mobilenetv2, но V100 смог идентифицировать ее мгновенно. Однако мониторинг всего двух камер заставил V100 потреблять более 100 Вт; RTX 3060 была схожа в этом отношении, в то время как старый N100 потреблял всего 26 Вт при работе с шестью различными камерами. На этом тестирование завершилось.
Этот эксперимент с V100 оказался в целом успешным, но вирусный характер оригинального видео и тот факт, что мы пишем эту статью, означают, что цены на эти «зверьки» скоро вырастут. Так что, если вы заинтересованы, поспешите приобрести один, пока не стало слишком поздно; ютубер нашел его всего за 100 долларов на eBay, а PCIe-адаптеры для ранних сокетов SMX также стоят недорого. Вариант V100 с 32 ГБ памяти, однако, стоит 500 долларов.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Hassam Nasir




