Новости на Newstaraz.

Сутки напролет: Как казахский язык появился в Google Translate

0

Иллюстративное фото: TASS

Главный менеджер Google Translate Барак Туровски вспомнил, как команда вводила казахский язык в 2014 году в онлайн-переводчик. В то время данных не хватало, и все вводилось вручную сотнями и тысячами казахстанцев, сообщает «Медуза».

Google Translate уже давно поддерживал эсперанто и некоторые вымирающие языки, а вот казахского языка в нем не было долгое время.

Как пояснил Барак Туровски, так случилось из-за недостатка данных. К примеру, эсперанто владеет довольно значительное количество людей, но соотношение количества говорящих и объема обучающих данных разрыв был намного меньше, чем у казахского языка.

«Разрыв должен быть не очень большим; если носителей языка много, а данных — мало, то качество перевода никогда не достигнет приемлемого уровня», — пояснил Туровски.

Поэтому, как отметил Туровски, фидбек и участие людей очень важны. В 2014 году компания запустила Google Translate Community — инструмент для краудсорсинга, по просьбе казахстанцев.

«Мы работали над новыми языками, и казахский был одним из кандидатов.Это довольно распространенный язык — на нем говорят до 25 миллионов человек, но данных для обучения по нему почти нет. Поэтому добиться хорошего качества перевода с такого языка очень трудно. А люди очень просили сделать поддержку.

В итоге мы сказали — данных не хватает (речь идет об отсутствии массива переводов с казахского на английский и обратно), если сделаете базу — подключим поддержку», — вспоминает Туровски.

В итоге был запущен примитивный механизм — собрали 300 добровольцев: кто-то переводит, кто-то читает и оценивает перевод.

Задача была — собрать два миллиона фраз, с этим уже можно работать. И вот буквально через неделю фраз набралось уже несколько тысяч.

Оказалось, управление центральных коммуникаций президента Казахстана устроило пресс-конференцию и попросило всю страну помогать. Заявление, кстати, было на русском. И вот сотни, тысячи человек сидели и переводили в режиме 24 на 7«, — рассказывает главный менеджер проекта.

Сейчас переводчик ждут масштабные изменения. В его основу будут положены нейросети.

«Речь идет о технологии, которая имитирует механизмы работы мозга. Главное здесь, что машина теперь может учитывать контекст — то есть переводятся не слова и фразы, а законченные предложения.

Предыдущее поколение машин не могло обработать фразы, в которых было больше пяти слов. Теперь система смотрит на предложение целиком и старается найти нужные варианты для перевода. В результате получается гораздо более живой перевод«, — рассказал Туровски. 

Вам также могут понравиться

Оставьте ответ

Ваш электронный адрес не будет опубликован.