Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил инновационную модель обучения казахскому языку на основе искусственного интеллекта — «Tilqazyna».

Модель способна выполнять широкий спектр задач, включая генерацию текста, создание перифраз, работу с контекстом, сокращение текстов, исправление грамматических и пунктуационных ошибок, расшифровку значений фразеологизмов, а также перевод терминов.

Эта уникальная отраслевая LLM (Large Language Model) уже доступна пользователям через платформу Hugging Face. Ее применение позволит создавать современные IT-продукты на казахском языке и способствует реализации инициативы Президента Касым-Жомарта Токаева о развитии искусственного интеллекта и цифровых технологий в Казахстане.

Особенности разработки:

  • 684 876 лексических единиц использовано для проверки слов.
  • 20 212 вариантов проверено для улучшения работы с устойчивыми выражениями.
  • 5 558 текстов проанализировано для исправления пунктуации.
  • 3 000 правильных и ошибочных текстов подготовлено для коррекции структуры.
  • 6 000 пар полных и сокращенных предложений составляют базу для функции сокращения текста.
  • 14 790 синонимических рядов собрано для функции перифраза.
  • Общий объем обработанного корпуса казахского языка составил 35 ГБ.

Будущее проекта

В этом году модель получит возможность голосового общения и удобный пользовательский интерфейс. Также планируется обучение казахскому языку на уровнях A1, A2 и B1, а к 2026 году — на уровнях B2 и C1.

Конечная цель — создание голосового помощника, который будет индивидуально адаптировать программу обучения в зависимости от уровня знания языка пользователя. Помощник станет доступным в виде мобильного приложения для iOS и Android.

Источник bluescreen.kz