В 2024 г. на рынок вышли ряд больших языковых моделей (LLM), которые стали новыми флагманами в мире генеративного искусственного интеллекта (ИИ). Поддержка мультимодальности стала доступна для майской ChatGPT-4o, в сентябрьскую ChatGPT-o1 были добавлены механизмы «мышления» за счет специальной обработки запросов — теперь модель проходит дополнительные «рассуждения», прежде чем генерировать ответ на пользовательский запрос. Большим событием стал выход в открытый доступ 25 сентября модели Llama 3.2 на 11–90 млрд параметров, которая, по оценкам на некоторых бенчмарках, обходит ChatGPT в задачах работы с текстом и изображениями. Значительные улучшения также были введены в вышедшем 20 июня Claude 3.5 Sonnet — модель также обходила ChatGPT в задачах, связанных с логическим обоснованием выбора, написанием кода, пониманием юмора. С моделью Gemini 2.0 выступила 11 декабря Google; компания обещает выпустить ее в открытый доступ в следующем году и уже вводит ее в свои продукты. Улучшения в свои модели продолжают добавлять Яндекс и Сбер,сообщает expert.ru.
Фото: Freepik
Самые значимые достижения
Для эволюции больших языковых моделей год — весьма значительный промежуток времени, многие из них существенно продвинулись в своем развитии, считает заведующий лабораторией искусственного интеллекта, нейротехнологий и бизнес-аналитики РЭУ имени Г.В. Плеханова Тимур Садыков. К числу наиболее ярких достижений следует отнести качественный прогресс в борьбе с эффектом «катастрофического забывания», достигнутый за этот период. Еще относительно недавно многие языковые модели страдали своеобразным «беспамятством» и чрезвычайно легко теряли нить разговора в ходе сколько-нибудь продолжительной беседы на нетривиальные темы. Теперь же LLM накапливают и используют полученную в ходе общения с пользователем информацию гораздо эффективнее.
Одним из важнейших достижений является мультимодальность — модели теперь могут работать не только с текстом, но и с изображениями, аудио и видео, что значительно расширяет их возможности в анализе данных и генерации контента, отмечает директор по инновациям финтех-разработчика и интегратора Fork-Tech Владислав Лаптев. Кроме того, модели стали более адаптируемыми благодаря специализированному обучению на отраслевых данных, что позволяет повышать точность ответов для узких областей, например в медицине или юриспруденции. Оптимизация архитектуры и использование методов обучения с подкреплением (RLHF) позволяют моделям лучше учитывать предпочтения пользователей и генерировать более персонализированные и релевантные ответы. Внедрение технологии Retrieval-Augmented Generation (RAG) позволяет моделям обращаться к внешним источникам информации (например, к поисковикам) в реальном времени, что повышает актуальность и точность их ответов.
«Однако, несмотря на эти значительные инновации, важно понимать, что LLM не могут самостоятельно решать задачи, которые требуют сложной автоматизации или строгого следования бизнес-процессам. Это подчеркивает необходимость создания грамотных решений для интеграции таких технологий в существующие бизнес-структуры, — отмечает Лаптев. — В 2024 году около 35% компаний уже обращались за услугами по обеспечению безопасности при внедрении ИИ, что подчеркивает необходимость квалифицированных специалистов для успешной имплементации этих технологий в контуры бизнеса».
Основное, что произошло в этом году, — это выход рассуждающих моделей типа GPT-o1, в которых придумали, как внедрить в ответы модели характерную для людей «возможность подумать», перед тем как выдать окончательный ответ пользователю, уверен доцент департамента программной инженерии факультета компьютерных наук НИУ ВШЭ Дмитрий Сошников. Это отчасти добавляет моделям возможности «мыслить логически», хотя по-прежнему характер рассуждений моделей остается вероятностным, оценочным.
Лучшие модели и их будущее
Среди всех решений на рынке лучшей моделью можно назвать GPT-4 — она выделяется своим качеством, стабильностью и универсальностью, считает продакт-менеджер компании Hybrid AI Илья Лысенко: для бизнеса это ключевые параметры, так как модель легко масштабируется и может решать широкий спектр задач — от генерации текста до поддержки аналитических процессов. В будущем LLM будут развиваться в двух ключевых направлениях. Первое — это уменьшение ошибок и случайных «галлюцинаций» в ответах. Чтобы добиться этого, модели начнут чаще обращаться к внешним источникам информации, таким как базы данных или поисковые системы, чтобы проверять свои ответы. Второе направление — это снижение затрат на обучение и использование моделей. Для этого применяются технологии сжатия, такие как квантование, которое уменьшает размер модели, и sparsity, упрощающий обработку данных, продолжает Лысенко. Эти подходы делают вычисления более эффективными, что особенно важно, когда модель используется в масштабах бизнеса, где требуется высокая производительность и экономия ресурсов.
В 2024 г. особенно выделяется семейство моделей Qwen 2.5 от Alibaba, считает специалист по анализу данных Axenix Дмитрий Ярцев. Qwen 2.5 распространяется с открытым исходным кодом — для бизнеса это крайне важно, так как строгие требования к безопасности часто не позволяют использовать облачные сервисы, такие как ChatGPT, из-за запрета на передачу данных за пределы защищенного периметра, поясняет он. В некоторых случаях доступ в интернет может быть вовсе отключен, в таких условиях модели Open Source становятся ключевым драйвером внедрения LLM. Главное преимущество Qwen — функциональность, ориентированная на потребности бизнеса. Критично, чтобы LLM умела работать с данными: писать код, вызывать инструменты, использовать RAG и логически рассуждать.
«По моему субъективному мнению, лучшей большой языковой моделью 2024 года следует считать GigaChat, интегрирующий очень широкий спектр качественно разных функций, высокую скорость и точность работы», — считает Садыков.
В 2024 г. ключевыми разработками стали Llama 3.1 и GPT-4o, уверен Владислав Лаптев. Llama 3.1 предлагает открытый исходный код, что позволяет компаниям и исследователям адаптировать модель под специфические задачи и интегрировать ее в различные приложения. «Согласно данным, Llama 3.1 превосходит GPT-4 Turbo по нескольким бенчмаркам, включая задачи программирования и решения математических задач, — рассуждает Лаптев. — С другой стороны, GPT-4o от OpenAI демонстрирует выдающиеся результаты в обработке мультимодальных данных, обеспечивая более естественные и человечные взаимодействия. Однако стоит отметить, что GPT-4o является закрытой моделью, что ограничивает возможности ее кастомизации и интеграции в специфические бизнес-процессы».
Автор Антон Козлов
Источник expert.ru