Основой любого электронного переводчика становятся начальные данные, качество и объем которых влияют на результат перевода, однако каждый день появляется множество новых терминов, которых может не быть в исходных данных, в результате чего возникают неточности в переводе, разъяснил РИА Новости основатель компании машинного перевода Lingvanex Алексей Рудак.
Ранее пользователи интернета заметили, что, например, английскую фразу "Biden changed for bad" платформа Google переводит как "Байден изменился к лучшему", а аналогичное предложение с именем президента России "Putin changed for bad" как "Путин изменился в худшую сторону". Также в декабре пользователи Google обращали внимание на то, что если в переводчике ввести на английском языке фразу "Thank you, Mr President" ("Спасибо, мистер президент"), то сервис переводил это как "Спасибо, Владимир Владимирович". Позднее все эти неточности исправили.
"Основа всего — это данные, на которых происходит обучение алгоритма перевода. Качество и объем таких данных напрямую влияет на результат перевода. Чем больше разнообразных текстов увидит алгоритм, тем больше ситуаций, на которых он может обучиться и, соответственно, больше тематик и слов он переведет правильно", — рассказал эксперт.
Рудак пояснил, что каждый день появляются новые термины, имена собственные, речевые обороты, которых может не быть в исходных данных для обучения. Чтобы переводить новые понятия, алгоритм должен постоянно дообучаться, выискивая новую информацию, которая появляется в интернете. Затем эта информация фильтруется и добавляется к тем данным, которые были вначале, на основе чего происходит обучение электронного переводчика заново.
"Чем больше ошибок в данных, тем больше ошибок в переводе. Из-за того, что в интернете каждый может написать что угодно, от ошибок и дезинформации никто не застрахован. А проверять все данные на корректность специалистом очень долго и дорого. Поэтому для фильтрации используется компьютерные программы", — указал эксперт.
Кроме того, если пользователь заметил ошибку перевода, он может прислать разработчикам правильный вариант перевода слова или фразы. "И если много людей на одно и то же слово или фразу пришлют одинаковый вариант, то алгоритм перевода перестроится таким образом, чтобы переводит эту фразу по-другому уже для всех остальных пользователей. С одной стороны, это помогает находить ошибки, но с другой позволяет пользователям манипулировать результатами перевода", — резюмировал Рудак.
Источник 1prime.ru