Колледж Шэньчжэнь Хэтао в сотрудничестве с Харбинским политехническим университетом (Шэньчжэнь), Шэньчжэньским научно-исследовательским институтом больших данных и Huawei добился знакового прорыва в отечественных вычислениях на базе ИИ. Консорциум успешно завершил полнопараметрическое посттренирование модели DeepSeek-V4-Pro с 1,6 триллиона параметров с использованием отечественного кластера ИИ-вычислений Ascend 910C — это первый случай, когда чипы китайского производства обеспечили работу модели такого масштаба на всем конвейере обучения.
На фоне ужесточения экспортного контроля США в отношении передовых полупроводников это достижение имеет глубокое стратегическое значение. До недавнего времени отечественные ускорители ИИ считались пригодными в основном для задач инференса — запуска предварительно обученных моделей. Успех Ascend 910C в полнопараметрическом посттренировании демонстрирует, что чипы китайского производства теперь могут поддерживать обучение крупномасштабных моделей мирового уровня, преодолевая порог, который, по мнению отраслевых наблюдателей, является самым сложным в отечественных ИИ-вычислениях.
Почему полнопараметрическое посттренирование настолько технически требовательно.
DeepSeek-V4-Pro использует архитектуру Mixture-of-Experts (MoE). Во время инференса для каждого токена активируется лишь подмножество экспертных модулей, что позволяет контролировать объем вычислений. Однако обучение требует, чтобы все эксперты обучались одновременно, что влечет за собой массивное взаимодействие «все со всеми» между чипами. Объем обмена данными при обучении MoE в десятки раз превышает таковой у стандартных плотных моделей, что создает экстремальную нагрузку на пропускную способность межсоединений и синхронизацию.
Для преодоления этих препятствий команда добилась трех инженерных прорывов.
Во-первых, задача с памятью: распределение и шардирование 1,6 триллиона параметров между сотнями чипов Ascend 910C с точно оркестрованным временем обмена данными для предотвращения взаимоблокировок и переполнения памяти. Во-вторых, балансировка нагрузки: пользовательский алгоритм планирования, оптимизированный для архитектуры MoE, который устраняет узкие места в межкарточных коммуникациях. В-третьих, отказоустойчивость без простоя: система отработала более 1500 последовательных шагов обучения без каких-либо перерывов и ошибок, благодаря полномасштабному мониторингу и автоматической системе восстановления.
Результаты говорят сами за себя. Утилизация вычислений превысила 30 процентов, а эффективность ключевых обучающих операторов улучшилась на 14 процентов. В области обучения моделей с триллионом параметров 30-процентная утилизация считается высоким промышленным уровнем — даже с использованием передовых зарубежных чипов большинство команд достигают примерно 40 процентов. Разрыв быстро сокращается.
Помимо технических метрик, проект способствовал подготовке кадров для реального сектора. Сорок два студента Колледжа Хэтао приняли участие во всем процессе обучения, получив практический опыт создания и эксплуатации конвейера крупномасштабной модели промышленного уровня — заложив основу для следующего поколения инженеров ИИ в Китае.
Отечественные вычисления на базе ИИ перешли Рубикон. Полнопараметрическое обучение триллиона параметров — это уже не вопрос «если», а вопрос «как быстро».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




