Google добавляет 110 новых языков в Google Translate, что является самым большим расширением за всю историю, сообщает psm7.com.

Google добавит 110 новых языков в Переводчик.

Фото: pngwing.com, freepik.com, commons.wikimedia.org

В 2022 году компания добавила 24 новых языка с помощью машинного перевода Zero-Shot, когда модель машинного обучения учится переводить на другой язык, даже не видя примера. Впоследствии компания объявила об инициативе добавить 1000 самых распространенных языков в мире.

Языковая поддержка для более чем полмиллиарда человек

От кантонского до Q'eqchi, эти новые языки представляют более 614 млн. носителей, открывая доступ к переводам для около 8% населения планеты. Некоторые из них являются основными мировыми языками с более чем 100 миллионами носителей. Другими говорят небольшие общины коренных народов, а некоторые почти не имеют носителей, но активно возрождаются. Около четверти новых языков происходят из Африки, являющейся наибольшим расширением африканских языков на сегодняшний день, в частности фон, киконго, луо, га, сваты, венда и волоф.

Как Google выбирает языки

При добавлении новых языков в Переводчик нужно учитывать многие факторы. Языки очень разнообразны: региональные разновидности, диалекты, разные стандарты правописания.

На самом деле многие языки не имеют единой стандартной формы, поэтому невозможно выбрать «правильный» вариант. Подход компании состоит в том, чтобы предоставить приоритет наиболее распространенным разновидностям каждого языка. К примеру, ромский — это язык, имеющий много диалектов по всей Европе. Модели создают текст, наиболее близкий к южному варианту языка, наиболее часто используемый в интернете. Но в нем также смешанные элементы из других.

«PaLM 2 стал ключевым элементом пазла, который помог Translate эффективнее изучать языки, тесно связанные между собой, в частности языки, близкие к хинди, такие как авадхи и марвади, а также французские креольские языки, такие как сейшельский креольский и маврикийский креольский язык. . С развитием технологий и продолжающимся сотрудничеством с экспертами-лингвистами и носителями языков мы будем поддерживать еще больше языковых разновидностей и правописных конвенций со временем», — написали в Google.

Автор Ольга Деркач

Источник psm7.com