Обладатель стипендии Университета Цинхуа Гу Юйжань присоединяется к DeepSeek перед запуском V4

Deepseek ии цинхуа Llm гу юйсянь найм pandaily.com

Аспирант Цинхуа Гу Юйсянь, лауреат спецстипендии с почти 5000 цитирований, присоединяется к DeepSeek на фоне подготовки к запуску официальной версии V4 в середине июля.

Компания DeepSeek активно нанимает специалистов в области исследований алгоритмов, инженерии, разработки продуктов, операций и инженерии данных, готовясь к запуску официальной версии DeepSeek V4 в середине июля. Среди авторов статьи о DeepSeek V4 появилось примечательное имя: Гу Юйсянь, аспирант Университета Цинхуа и обладатель Специальной выпускной стипендии Цинхуа 2025 года, согласно сообщению Machine Intelligence.

Гу Юйсянь официально присоединился к DeepSeek, пополнив кадровый состав компании одним из самых многообещающих молодых исследователей в области ИИ из Цинхуа. Ранее он получал стипендии Apple PhD Scholarship 2025 года и Ant Group In-Tech Scholarship. Гу является выпускником аспирантуры факультета компьютерных наук Университета Цинхуа, где он также получил степень бакалавра. Его исследования проходят под руководством профессора Хуан Миньли в группе разговорного ИИ (Conversational AI).

Исследования Гу сосредоточены на повышении эффективности на всем жизненном цикле больших языковых моделей, включая предварительное обучение, адаптацию для конкретных задач и инференс. Его работа охватывает три основных направления: выбор данных для предварительного обучения, где он разрабатывает теории и алгоритмы для оптимизации отбора данных с целью обучения более способных и эффективных моделей; сжатие моделей посредством дистилляции знаний, где он разрабатывает методы переноса знаний из больших моделей в меньшие, более пригодные для развертывания; и эффективное проектирование архитектуры моделей, где он исследует новые архитектуры, снижающие вычислительные затраты при одновременном повышении производительности.

В его профиле Google Scholar указано почти 5000 цитирований. Две его статьи набрали более 1000 цитирований каждая: «Pre-trained Models: Past, Present and Future» и «MiniLLM: Knowledge Distillation of Large Language Models». Он выступал первым автором в ряде статей, принятых на ведущих конференциях по ИИ, таких как NeurIPS, ICLR, ACL и других.

Примечательно, что Гу был ключевым разработчиком Jet-Nemotron — серии языковых моделей с гибридной архитектурой, которая достигает передовой точности моделей с полным вниманием при превосходной эффективности. Версия Jet-Nemotron с 2 миллиардами параметров превзошла Qwen3, Qwen2.5, Gemma3 и Llama3.2 по бенчмаркам MMLU и MMLU-Pro, обеспечивая при этом ускорение генерации до 53,6 раз на GPU H100 при длине контекста 256K, превосходя даже более крупные модели с полным вниманием типа MoE, включая DeepSeek-V3-Small и Moonlight.

Как отметил сам Гу: «Когда аппаратные ресурсы ограничены, алгоритмические инновации становятся ключом к преодолению вычислительных узких мест». Его философия исследований совпадает с фокусом DeepSeek на разработке ИИ, ориентированной на эффективность, что делает его стратегическим приобретением для команды в преддверии запуска V4.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: