По мере того как закон Мура замедляется до предела, а количество энергии, необходимое для обеспечения прироста производительности нового поколения, растет, некоторые разработчики чипов ищут спасения в альтернативных архитектурах.
Neurophos входит в число тех, кто пытается опровергнуть закон Мура и реализовать давно обещанный, но в значительной степени неиспользованный потенциал аналоговых вычислений.
Стартап по разработке ИИ-чипов из Остина, штат Техас, заявляет, что создает оптический процессор (OPU), который теоретически способен обеспечить 470 петафлопс вычислений в формате FP4 / INT4 — примерно в 10 раз больше, чем у недавно представленных графических процессоров Rubin от Nvidia, — при использовании примерно той же мощности.
Генеральный директор Neurophos Патрик Боуэн рассказал El Reg, что это стало возможным отчасти благодаря метаматериальным оптическим модуляторам размером в микрон, по сути, фотонным транзисторам, которые компания разрабатывала последние несколько лет.
«Эквивалент оптического транзистора, который сегодня производят на фабриках кремниевой фотоники, огромен. Его длина составляет около 2 мм. Просто невозможно разместить их достаточное количество на чипе, чтобы достичь плотности вычислений, хоть отдаленно сопоставимой с сегодняшним цифровым CMOS», — пояснил он.
По словам Боуэна, оптические транзисторы Neurophos примерно в 10 000 раз меньше. «В мае мы получили первые образцы на кремнии, демонстрирующие, что мы можем делать это со стандартным CMOS-процессом, а это означает совместимость с существующими технологиями литейного производства».
Используя эти транзисторы, Neurophos утверждает, что разработала оптический эквивалент тензорного ядра. «На кристалле находится одно фотонное тензорное ядро размером 1000 на 1000 [вычислительных элементов]», — сказал он.
Это значительно больше, чем обычно встречается в большинстве ИИ-ускорителей и графических процессоров, где используются движки матричных умножений размером не более 256×256 вычислительных элементов.
Однако, в отличие от десятков или даже сотен таких тензорных ядер, как у графических процессоров Nvidia, Neurophos требуется всего одно. Боуэн сообщил нам, что тензорное ядро их ускорителя первого поколения займет около 25 мм2.
Остальная часть кристалла размером с ретикл — это «излишества, необходимые для поддержки этого безумного тензорного ядра», — добавил Боуэн.
В частности, Neurophos требуется огромное количество векторных процессоров и SRAM, чтобы тензорное ядро не испытывало дефицита данных. Это связано с тем, что само тензорное ядро — и да, повторимся, на всем кристалле размером с ретикл будет только одно — работает на частоте около 56 гигагерц.
Но поскольку матрично-матричное умножение выполняется оптически, Боуэн отмечает, что единственная мощность, потребляемая тензорным ядром, — это та, что необходима для оптоэлектрического преобразования из цифрового формата в аналоговый и обратно.
В Neurophos заявляют, что их первый OPU под кодовым названием Tulkas T100 будет иметь конструкцию с двумя ретиклом и оснащен 768 ГБ HBM, способный обеспечить 470 петаОПС при потреблении от 1 до 2 киловатт мощности под нагрузкой.
Какой бы впечатляющей ни казалась эта информация, важно помнить, что на данном этапе эти цифры больше похожи на ориентиры. Чип все еще находится в активной разработке, а полномасштабное производство ожидается не ранее середины 2028 года. Даже тогда Боуэн не ожидает массовых поставок. «Мы говорим о тысячах чипов. Не о десятках тысяч».
Хотя Neurophos считает, что их оптические тензорные ядра могут решать широкий спектр рабочих нагрузок инференса ИИ, компания ожидает, что их первый чип будет использоваться в первую очередь в качестве процессора предварительного заполнения (prefill).
Как мы ранее обсуждали, инференс LLM можно разделить на два этапа: ресурсоемкую стадию предварительного заполнения, на которой обрабатываются входные токены, и стадию, ограниченную пропускной способностью памяти, на которой генерируются выходные токены.
За последний год мы видели, как разработчики чипов, такие как Nvidia, разделяют предварительное заполнение и декодирование на отдельные пулы графических процессоров. Для своего последнего поколения графических процессоров Nvidia разработала специализированный ускоритель предварительного заполнения, который она называет Rubin CPX.
Боуэн видит для Tulkas T100 аналогичную роль, что и у Rubin CPX. «Текущее видение, которое может измениться, заключается в том, что мы будем использовать одну нашу стойку, состоящую из 256 наших чипов, и она будет сопряжена со стойкой вроде NVL576», — сказал он.
В долгосрочной перспективе Боуэн намерен заняться и этапом декодирования, но отмечает, что необходимо будет разработать ряд технологий, включая ко-пакетированную оптику, прежде чем стартап будет готов заняться генерацией токенов.
Хотя Tulkas T100 не поступит в продажу как минимум до 2028 года, Боуэн сообщил, что компания активно работает над чипом для проверки концепции (PoC), чтобы подтвердить заявленные плотности вычислений и энергопотребления.
На этой неделе Neurophos завершила раунд финансирования Серии А на сумму 110 миллионов долларов под руководством Gates Frontier при участии венчурного фонда Microsoft и других инвесторов, что, по словам Боуэна, пойдет на финансирование разработки этого PoC. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann




