Глубокое обучение — это движущая сила индустрии искусственного интеллекта, позволяющая ИИ обучаться самостоятельно, благодаря GPU, разработанным для работы с алгоритмами машинного обучения в больших масштабах. Однако изобретение глубокого обучения базировалось на оборудовании, которое изначально не предназначалось для этого типа вычислений. Генеральный директор Nvidia Дженсен Хуанг рассказал в подкасте Joe Rogan, что исследователи, впервые разработавшие глубокое обучение, сделали это всего на паре видеокарт GTX 580 объемом 3 ГБ в режиме SLI еще в 2012 году.
Исследователи из Университета Торонто создали глубокое обучение для улучшения распознавания изображений в области компьютерного зрения. В 2011 году Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон изучали лучшие способы создания инструментов для распознавания изображений. В то время не существовало нейронных сетей; вместо этого разработчики использовали вручную разработанные алгоритмы для обнаружения краев, углов и текстур для распознавания изображений.
Эти три исследователя создали AlexNet — архитектуру, состоящую из восьми слоев, включающих около 60 миллионов параметров. Особенностью этой архитектуры была ее способность к самостоятельному обучению, благодаря сочетанию сверточных и глубоких нейронных слоев. Эта архитектура оказалась настолько эффективной, что при первом появлении превзошла ведущий алгоритм распознавания изображений (на тот момент) более чем на 70%, мгновенно привлекая внимание всей отрасли.
Дженсен Хуанг рассказал, что разработчики AlexNet построили свой алгоритм распознавания изображений на паре GTX 580 в режиме SLI. Кроме того, сеть была оптимизирована для работы на обеих GPU, и они обменивались данными только по мере необходимости, что значительно сокращало время обучения. Это делает GTX 580 первой в мире видеокартой, на которой работала AI-сеть для глубокого обучения/машинного обучения.
Ирония судьбы, но этот важный этап произошел в то время, когда Nvidia практически не инвестировала в AI. Большая часть ее графических исследований и разработок были направлены на 3D-графику и игры, а также на CUDA. GTX 580 была разработана специально для игр и не имела расширенной поддержки ускорения глубоких нейронных сетей. Оказалось, что присущая GPU параллельность была именно тем, что требовалось нейронным сетям для быстрой работы.
Дженсен Хуанг также отметил, что именно AlexNet, в сочетании с использованием на GTX 580, позволили Nvidia начать разработку AI-аппаратного обеспечения. Хуанг заявил, что как только компания осознала, что глубокое обучение можно использовать для решения мировых проблем, она инвестировала все свои деньги, разработки и исследования в технологии глубокого обучения в 2012 году. Это дало начало оригинальному Nvidia DGX в 2016 году, который был отправлен Илону Маску, представляющему архитектуру Volta с ядрами Tensor Core первого поколения и DLSS. Если бы не пара GTX 580, работающих с AlexNet, Nvidia, возможно, не стала бы AI-гигантом, которым она является сегодня.
Автор – Aaron Klotz




