Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил инновационную модель обучения казахскому языку на основе искусственного интеллекта — «Tilqazyna».
Модель способна выполнять широкий спектр задач, включая генерацию текста, создание перифраз, работу с контекстом, сокращение текстов, исправление грамматических и пунктуационных ошибок, расшифровку значений фразеологизмов, а также перевод терминов.
Эта уникальная отраслевая LLM (Large Language Model) уже доступна пользователям через платформу Hugging Face. Ее применение позволит создавать современные IT-продукты на казахском языке и способствует реализации инициативы Президента Касым-Жомарта Токаева о развитии искусственного интеллекта и цифровых технологий в Казахстане.
Особенности разработки:
- 684 876 лексических единиц использовано для проверки слов.
- 20 212 вариантов проверено для улучшения работы с устойчивыми выражениями.
- 5 558 текстов проанализировано для исправления пунктуации.
- 3 000 правильных и ошибочных текстов подготовлено для коррекции структуры.
- 6 000 пар полных и сокращенных предложений составляют базу для функции сокращения текста.
- 14 790 синонимических рядов собрано для функции перифраза.
- Общий объем обработанного корпуса казахского языка составил 35 ГБ.
Будущее проекта
В этом году модель получит возможность голосового общения и удобный пользовательский интерфейс. Также планируется обучение казахскому языку на уровнях A1, A2 и B1, а к 2026 году — на уровнях B2 и C1.
Конечная цель — создание голосового помощника, который будет индивидуально адаптировать программу обучения в зависимости от уровня знания языка пользователя. Помощник станет доступным в виде мобильного приложения для iOS и Android.
Источник bluescreen.kz