Нейрочудеса и машинный перевод

Глубинное обучение наряду с нейросетями уже победили безоружного человека (оснащенного только собственным мозгом) в шахматах, го (где доска 19Х19), и совсем недавно в покер.


И Google Translate пошел по подобному пути несколько лет назад. Однако нельзя объять необъятное, по словам Козьмы Пруткова. И язык, да еще такой "великий и могучий", как наш, неисчерпаем...


Немного о предыдущих подходах к системам машинного перевода, реализуемых на ПК


У компании ПРОМТ все начиналось с "автоматчика Stylus" в 90-е годы, на кафедре профессора Пиотровского в РГПИ им.Герцена в Ленинграде. Конкурентом был автоматический переводчик Сократ, поддерживаемый московским офисом компании АйТи. Сократ создавался для комплектовки пакета Русский Офис, который так и не догнал глобальное детище Microsoft. Ну и кризис 98-го года повлиял, разработку пакета свернули.


Разработчики годами мудрили над алгоритмами машинного перевода. Владислав Рожков, разработчик Сократа говорил мне об этом процессе: "Нос вытянешь, хвост увязнет и наоборот".


Еще в школе нас учили грамматическому разбору предложений. И ПО Stylus и Сократ было основано на базе правил. Анализ с последующим синтезом на выходном языке. Но живой язык трудно полностью описать посредством искусственных алгоритмов. В нём море исключений/отклонений от этих самых правил. Сам Пиотровский предложил для филологии «новую парадигму, которая опирается на фундаментальные представления о языке как об открытой саморазвивающейся «мягкой» системе.»


Про так называемый Rule - based Machine Translation (RBMT, Машинный перевод, основанный на правилах)


рассказывает на своём сайте Промт, но привлекательно и доходчиво, на мой взгляд тут: "dkhramov.дпю.уа/Comp/OnlineTranslators"


Как страшно жить. Повсюду ИИ, роботы, да ещё эти проклятые нейросети. Почти как человеческие, только обученные и неустающие. Так можно и профессию потерять... Говорили ж умные люди: "Век живи, век учись". 21-й наступает по всем фронтам.


Пока над машинным переводом издеваются переводчики, хотя они, все-таки, не без оснований опасаются конкуренции с ним в некоторых отдельных сферах его применения. При этом уже давно используют такие вспомогательные программные средства, как проверка орфографии, память переводов итп.


Жизнь заставляет ограничивать задачу перевода. Текст, подлежащий переводу на множество языков, пишут на так называемом Controlled Language (стандартном языке с ограниченным набором грамматических правил и типовым набором слов). Так уже много лет поступает, например Xerox, при переводе инструкций на десятки языков. Иногда, читая руководство пользователя телевизора или фотоаппарата, можно догадаться об этом.


Проблемы упомянутых автопереводчиков типа RBMT навели разработчиков на такую «простую мысль» -- научить софт различать смыслы. В конце 90-х -- начале нулевых Caterpillar (крупный производитель оборудования для строительства, энергетики и других отраслей) финансировал систему машинного перевода KANT, использующую технологию CyCorp — базы знаний, связывающих объекты-понятия и действия над ними. Точность за счет этого увеличилась незначительно (порядка 1%). KANT был специально предназначен для перевода больших массивов технической информации из определенных отраслей,


http://www.lti.cs.cmu.edu/Research/Kant/kantoo-overview.html


Ясно, что за софтом, действующим на основе правил, в эпоху интернет пришел софт, основанный на базах параллельных текстов. Оперативно создавать такие базы позволяют глобальные коммуникационные сети. Подобный подход -- Statistical Machine Translation (Статистический машинный перевод) -- полезен для обработки чрезвычайно емких массивов текстовой информации в чётко определенной области. В гигантской таблице параллельных предложений по определенной тематике (в строках которой содержатся соответствующие ячейки «оригинал и ручной перевод предложения») всегда найдется оригинал (и его перевод) близкий к предложению, содержащемуся в новом тексте.


Это весьма полезно, например, при переводе документации автомобильного концерна, имеющего отделения во множестве стран. При том, что изменения в конструкцию различных моделей легковых автомобилей вносятся ежедневно. А уж японских и корейских, а теперь и китайских авто, даже у нас теперь -- море. Листки технической информации требуется распространять влёт. Какие-то автокомпании заказывают перевод, прежде всего на English, а с него -- на прочие языки. (К тому же, локализация обычно необходима и согласно региональному законодательству.) И ручной перевод требует вполне ощутимых затрат средств, а главное -- времени. Все это чревато потерями в репутации, что в бизнесе опаснее всего.


Конечно, наряду со всем прочим велись разработки интерактивных систем. Такой софт выдает варианты перевода, которые может отбирать и редактировать переводчик. Это бывает полезно для тренировки обучаемого софта. Но и для практики иногда удобно.


Свежий пример: сервис интерактивного перевода WIPO Translate,


https://www3.wipo.int/patentscope/translate/translate.jsf


настраиваемый пользователем на перевод патентной информации. Выбирается пара из множества языков (в том числе, русского, китайского, японского, корейского) и предметная область (с загруженным корпусом параллельных текстов).


Гибридный машинный перевод объединил все прелести предыдущих технологий. Такой подход PROMT реализует посредством объединения техник: машинного перевода на основе правил и статистического машинного перевода. При этом вся система проходит обучение в интерактивном режиме.


Компания Trados, естественно, реагирует на достижения в сфере Computer Assisted Translation (CAT).От фирменной традиционной памяти переводов SDL Trados к адаптивному машинному переводу в облачной среде -- SDL Trados Studio


PS При лавинообразном, подобном селевому потоку, нарастании объема научно-технической информации приходится создавать и совершенствовать вспомогательные средства её обработки.


***

Перевод и переводчики

1.4K поста8.2K подписчика

Добавить пост

Правила сообщества

В переводных постах обязательна ссылка на оригинал или прикрепленная картинка с оригиналом!


Разрешается:

- делиться интересными статьями, переводами, локализациями;

- просить о помощи с переводами;

- презентовать свою критику и предложения по исправлению перевода в постах.


Запрещается:

- создавать посты без ссылки на оригинал или картинки с источником;

- оскорблять комментаторов и ТС;

- создавать посты рекламного характера;

- создавать посты, не относящиеся к тематике.


Конструктивная критика приветствуется при наличии предлагаемых альтернативных вариантов перевода. Попытки провокаций будут пресекаться.