DeepSeek R1 бросает вызов чатам GPT и Llama. Как экспортные ограничения США спровоцировали рождение в Китае соперника западным ИИ-гигантам

Кто стоит за китайским стартапом DeepSeek и почему разработчики предоставили свободный доступ к своей передовой ИИ-модели DeepSeek R1? Издание WIRED пообщалось с экспертами по искусственному интеллекту в Китае и изучило интервью с основателем DeepSeek Лян Вэньфеном, чтобы понять историю стремительного успеха стартапа,сообщает forbes.ua.

Дакка Бангладеш Ноя 2024 Логотип Deepseek Отображается Смартфоне — стоковое фото

Фото: depositphotos.com

DeepSeek – относительно неизвестный стартап из Китая, занимающийся разработкой искусственного интеллекта, 20 января представил ИИ-модель с открытым кодом DeepSeek R1. Его появление уже обрушило мировые фондовые рынки, поставив под сомнение технологическое доминирование США, писал Bloomberg. Кремниевая долина стоит на ушах, ведь результат работы DeepSeek свидетельствует о том, что можно разрабатывать мощные ИИ-модели, которые стоят дешевле.

Своими возможностями DeepSeek R1 превосходит имеющиеся ведущие ИИ-модели, например OpenAI o1, по нескольким математическим показателям и показателям рассуждений, пишет WIRED. Фактически по многим показателям: возможности, стоимость, открытость. Это вызов западным ИИ-компаниям. DeepSeek R1 уже поднялся на вершину чартов загрузок Apple Store.

Успех DeepSeek – непредсказуемый результат технологической холодной войны между США и Китаем, отмечает WIRED.

Экспортный контроль со стороны США заставил китайские фирмы отказаться от традиционного подхода к разработке ИИ-моделей, базирующегося на масштабировании аппаратных ресурсов. Большинство китайских компаний сосредоточились на уже присутствовавших на рынке ИИ-моделях, а не на создании собственных. DeepSeek использовал конкурентный способ – оптимизировать базовую структуру ИИ-моделей и использовать ограниченные ресурсы, пишет WIRED.

«DeepSeek отличается фокусом на программной оптимизации и использовании открытого кода», – анализирует подход стартапа Марина Чжан, доцент Технологического университета Сиднея. Такой подход, по ее мнению, способствует инновациям и позволяет стартапу выделиться среди конкурентов, зависящих от закрытых систем и мощного аппаратного обеспечения.

Звездный хедж-фонд в Китае

DeepSeek – нестандартный игрок китайской индустрии искусственного интеллекта, отмечает WIRED. Компания начинала свой путь как Fire-Flyer, исследовательское подразделение по глубокому обучению в одном из самых успешных хедж-фондов Китая – High-Flyer. Основанный в 2015 году, High-Flyer стал первым в стране хедж-фондом, привлекшим более 100 млрд юаней ($15 млрд). Хотя с 2021 года этот показатель упал до $8 млрд, фонд остается важным игроком в финансовой сфере.

В 2023 году основатель DeepSeek Лян Вэньфен, магистр по компьютерным наукам, решил использовать ресурсы High-Flyer для создания новой компании, которая разрабатывала бы передовые модели искусственного интеллекта с амбициями достичь искусственного общего интеллекта. Решение было продиктовано научным интересом, а не коммерческой выгодой, ведь инвестиции в базовые исследования обладают низкой рентабельностью, объяснял Лян.

В отличие от ведущих китайских ИИ-компаний DeepSeek не получает финансирование от технологических гигантов, таких как Baidu, Alibaba или ByteDance, отмечает WIRED.

Молодая и идейная команда гениев

Формируя команду для DeepSeek, Вэньфен сделал ставку на молодых ученых, а не опытных инженеров. В нее вошли аспиранты ведущих китайских университетов, таких как Пекинский и Цинхуа. Многие публиковались в ведущих журналах и имели награды международных научных конференций, писало китайское технологическое издание QBitAI. Но им не хватало опыта работы в отрасли. Большинство из них закончили обучение в течение последних одного-двух лет.

Такой подход Вэньфеня создал в стартапе культуру сотрудничества, где исследователи имели доступ к значительным вычислительным ресурсам для экспериментов с нестандартными проектами. Это кардинально отличается от подхода крупных китайских компаний, где команды часто борются за ресурсы.

Молодые исследователи более склонны к высокорискованным и малоприбыльным научным проектам, ведь на ранних этапах карьеры они способны полностью сосредоточиться на миссии без прагматических соображений, отмечал Вэньфень.

Эта новая генерация китайских исследователей испытывает сильное чувство патриотизма, отметили WIRED эксперты по ИИ-рынку. Их мотивация преодолевать технологические ограничения, относящиеся к американским санкциям, отражает как личные амбиции, так и стремление укрепить позиции Китая как лидера глобальных инноваций.

Инновации, рожденные в кризисе

В октябре 2022 года правительство США ввело экспортные ограничения, усложнившие доступ китайских ИИ-компаний к передовым американским чипам, таким как Nvidia H100. Для DeepSeek это стало вызовом: у компании был запас из 10 000 таких чипов, но этого было недостаточно для конкуренции с OpenAI или Meta. Ключевой проблемой для DeepSeek является не финансирование, а экспортные ограничения, заявлял в 2024 году Лян Вэньфен.

В ответ DeepSeek разработала более эффективные методы обучения ИИ-моделям. Среди применяемых подходов – оптимизация архитектуры моделей, уменьшение объема данных для экономии памяти, усовершенствование коммуникации между чипами и использование метода Mix-of-Experts, пишет WIRED. Благодаря этим подходам последняя ИИ-модель DeepSeek оказалась настолько эффективной, что для обучения понадобилась лишь десятая часть вычислительной мощности, необходимой для Llama 3.1 от Meta, согласно данным Epoch AI.

DeepSeek добилась успеха в разработке Multi-head Latent Attention (MLA) и Mixture-of-Experts – технологий, снижающих потребность в вычислительных ресурсах и делающих модели более экономичными.

Готовность DeepSeek делиться своими инновациями в открытом доступе вызвала положительную реакцию в глобальном сообществе исследователей ИИ. Открытость привлекает пользователей и разработчиков, помогая моделям быстрее совершенствоваться. Такой подход демонстрирует, что продвинутые модели можно создавать с меньшими финансовыми ресурсами, оптимизируя существующие методы, пояснили ИИ-эксперты издания WIRED.

Эти достижения ставят под вопрос эффективность экспортных ограничений США, ведь они могут недооценивать, сколько вычислительной мощности имеет Китай и как эффективно он ее использует.

Автор Татьяна Павлушенко

Источник forbes.ua

Меню

Новости

Популярные новости