Сутки напролет: Как казахский язык появился в Google Translate
Иллюстративное фото: TASS
Google Translate уже давно поддерживал эсперанто и некоторые вымирающие языки, а вот казахского языка в нем не было долгое время.
Как пояснил Барак Туровски, так случилось из-за недостатка данных. К примеру, эсперанто владеет довольно значительное количество людей, но соотношение количества говорящих и объема обучающих данных разрыв был намного меньше, чем у казахского языка.
«Разрыв должен быть не очень большим; если носителей языка много, а данных — мало, то качество перевода никогда не достигнет приемлемого уровня», — пояснил Туровски.
Поэтому, как отметил Туровски, фидбек и участие людей очень важны. В 2014 году компания запустила Google Translate Community — инструмент для краудсорсинга, по просьбе казахстанцев.
«Мы работали над новыми языками, и казахский был одним из кандидатов.Это довольно распространенный язык — на нем говорят до 25 миллионов человек, но данных для обучения по нему почти нет. Поэтому добиться хорошего качества перевода с такого языка очень трудно. А люди очень просили сделать поддержку.
В итоге мы сказали — данных не хватает (речь идет об отсутствии массива переводов с казахского на английский и обратно), если сделаете базу — подключим поддержку», — вспоминает Туровски.
В итоге был запущен примитивный механизм — собрали 300 добровольцев: кто-то переводит, кто-то читает и оценивает перевод.
Задача была — собрать два миллиона фраз, с этим уже можно работать. И вот буквально через неделю фраз набралось уже несколько тысяч.
Оказалось, управление центральных коммуникаций президента Казахстана устроило пресс-конференцию и попросило всю страну помогать. Заявление, кстати, было на русском. И вот сотни, тысячи человек сидели и переводили в режиме 24 на 7«, — рассказывает главный менеджер проекта.
Сейчас переводчик ждут масштабные изменения. В его основу будут положены нейросети.
«Речь идет о технологии, которая имитирует механизмы работы мозга. Главное здесь, что машина теперь может учитывать контекст — то есть переводятся не слова и фразы, а законченные предложения.
Предыдущее поколение машин не могло обработать фразы, в которых было больше пяти слов. Теперь система смотрит на предложение целиком и старается найти нужные варианты для перевода. В результате получается гораздо более живой перевод«, — рассказал Туровски.
newstaraz.kz