Нейрочудеса и машинный перевод. Продолжение 2
Процесс пошел вполне бодро. В прошлом веке десятки лет сражались за всеохватывающий алгоритм, основанный на базе правил. В конце века пытались научить алгоритмы «понимать текст».
***
Небольшой «отвлекунчик» :)
Хотя даже научиться распознавать текст из графики – тоже было нелегко. Всех опередили отечественные программеры. За свежий отечественный FineReader 2.0 я не пожалел когда-то отдать $200. Это понадобилось для компиляции нового справочного пособия из нескольких источников, необходимо было распознать самый большой из них -- на 600 страниц. FineReader, как мировой лидер в сфере распознавания текстов, включался в состав пакета поставки для множества импортных сканеров.
На этом сильно выросла компания ABBY, широко известная, как создатель словарей. Недавно я стал пользовать еще и ABBY Lingvo Live (словари с примерами из литературы, с произношением для отдельных слов), https://www.lingvolive.com. Кстати, они упорно грызут технологию Compreno по оригинальной концепции https://www.lingvolive.com/ru-ru/community/posts/960482
“На ее основе уже реализован интеллектуальный поиск, то есть поиск по смыслу, а не по ключевым словам. Сейчас ABBYY активно работает над созданием нового переводчика, который пока не получил официального названия.”
При этом концепция «смысл-текст» разрабатывается десятки лет. Вот пример:
Действующая модель языка «Смысл <=> Текст - Иппи РАН http://iitp.ru/ru/researchlabs/921.htm
Правда, нельзя сказать, что воз и ныне там. Созданы версии English ↔ Russian. Но реальной коммерческой, популярной версии нет. Выловить смысл из текста алгоритмически – не всегда реально. Есть и вполне теоретическое обоснование отсутствия такой возможности, например, в статье «Языковые парадоксы» http://www.uis.kiev.ua/~_xyz/paradox.html. ведь контекст, для пишущего и читающего всегда разный. Он связан с жизненным опытом итп.
***
В начале века бурный рост Интернет и вычислительных мощностей позволил, «ограничив начальные условия задачи машинного перевода, навалиться на нее массой», за счет гигантских корпусов параллельных текстов. А многозначность лексики/грамматики всегда было возможно разрешать в интерактиве. В захлестывающем потоке текстовой информации очевидно также стоит сужать предметную область, как например, делалось и в системе Кант, упомянутой в первом посте.
Вот и появились системы, использующие все эти факторы. Так работает WIPO Translate, упомянутый во втором посте. Не без «нейрочудес», конечно. Результаты получаются вполне сносные, а уж тренируется «нейрочудо» с дикой скоростью. Знаем уже по АльфаГо. Конечно, в сервис WIPO Translate вложены средства не частных компаний, а из фонда Всемирной организации интеллектуальной собственности, действующей под эгидой ООН. Ну и спасибо им, сервис общедоступен.
Тренд в сфере машинного перевода явный – блок клиенто-ориентированного машинного перевода, интегрированный с памятью переводов (базы паралельных текстов по ограниченной тематике) + нейронные сети + обучение на текстах клиента + использование облачной среды.
Это, так называемый Customized Machine Translation, несколько компаний объявляют себя лидерами в этой области.
Наиболее показательный пример : KantanMT (https://www.kantanmt.com/overview-build.php) с версиями для отдельных отраслей, в том числе, автомобильной, электронной, софтверной.
Есть демо, но за "реально пощупать" придется платить.
PS Еще по теме:
Машинный перевод http://ai-news.ru/mashinnyj_perevod.html
Как работает нейронный машинный перевод? https://habrahabr.ru/company/lokalise/blog/334342/