Нейрочудеса и машинный перевод. Продолжение 2⁠⁠

Процесс пошел вполне бодро. В прошлом веке десятки лет сражались за всеохватывающий алгоритм, основанный на базе правил. В конце века пытались научить алгоритмы «понимать текст».

***

Небольшой «отвлекунчик» :)

Хотя даже научиться распознавать текст из графики – тоже было нелегко. Всех опередили отечественные программеры. За свежий отечественный FineReader 2.0 я не пожалел когда-то отдать $200. Это понадобилось для компиляции нового справочного пособия из нескольких источников, необходимо было распознать самый большой из них -- на 600 страниц. FineReader, как мировой лидер в сфере распознавания текстов, включался в состав пакета поставки для множества импортных сканеров.

На этом сильно выросла компания ABBY, широко известная, как создатель словарей. Недавно я стал пользовать еще и ABBY Lingvo Live (словари с примерами из литературы, с произношением для отдельных слов), https://www.lingvolive.com. Кстати, они упорно грызут технологию Compreno по оригинальной концепции https://www.lingvolive.com/ru-ru/community/posts/960482

“На ее основе уже реализован интеллектуальный поиск, то есть поиск по смыслу, а не по ключевым словам. Сейчас ABBYY активно работает над созданием нового переводчика, который пока не получил официального названия.”

При этом концепция «смысл-текст» разрабатывается десятки лет. Вот пример:

Действующая модель языка «Смысл <=> Текст - Иппи РАН http://iitp.ru/ru/researchlabs/921.htm

Правда, нельзя сказать, что воз и ныне там. Созданы версии English ↔ Russian. Но реальной коммерческой, популярной версии нет. Выловить смысл из текста алгоритмически – не всегда реально. Есть и вполне теоретическое обоснование отсутствия такой возможности, например, в статье «Языковые парадоксы» http://www.uis.kiev.ua/~_xyz/paradox.html. ведь контекст, для пишущего и читающего всегда разный. Он связан с жизненным опытом итп.

***

В начале века бурный рост Интернет и вычислительных мощностей позволил, «ограничив начальные условия задачи машинного перевода, навалиться на нее массой», за счет гигантских корпусов параллельных текстов. А многозначность лексики/грамматики всегда было возможно разрешать в интерактиве. В захлестывающем потоке текстовой информации очевидно также стоит сужать предметную область, как например, делалось и в системе Кант, упомянутой в первом посте.

Вот и появились системы, использующие все эти факторы. Так работает WIPO Translate, упомянутый во втором посте. Не без «нейрочудес», конечно. Результаты получаются вполне сносные, а уж тренируется «нейрочудо» с дикой скоростью. Знаем уже по АльфаГо. Конечно, в сервис WIPO Translate вложены средства не частных компаний, а из фонда Всемирной организации интеллектуальной собственности, действующей под эгидой ООН. Ну и спасибо им, сервис общедоступен.

Тренд в сфере машинного перевода явный – блок клиенто-ориентированного машинного перевода, интегрированный с памятью переводов (базы паралельных текстов по ограниченной тематике) + нейронные сети + обучение на текстах клиента + использование облачной среды.

Это, так называемый Customized Machine Translation, несколько компаний объявляют себя лидерами в этой области.

Наиболее показательный пример : KantanMT (https://www.kantanmt.com/overview-build.php) с версиями для отдельных отраслей, в том числе, автомобильной, электронной, софтверной.

Есть демо, но за "реально пощупать" придется платить.

PS Еще по теме:

Машинный перевод http://ai-news.ru/mashinnyj_perevod.html

Как работает нейронный машинный перевод? https://habrahabr.ru/company/lokalise/blog/334342/

1.6K поста8.2K подписчика

Добавить пост

Правила сообщества

В переводных постах обязательна ссылка на оригинал или прикрепленная картинка с оригиналом!

Разрешается:

- делиться интересными статьями, переводами, локализациями;

- просить о помощи с переводами;

- презентовать свою критику и предложения по исправлению перевода в постах.

Запрещается:

- создавать посты без ссылки на оригинал или картинки с источником;

- оскорблять комментаторов и ТС;

- создавать посты рекламного характера;

- создавать посты, не относящиеся к тематике.

Конструктивная критика приветствуется при наличии предлагаемых альтернативных вариантов перевода. Попытки провокаций будут пресекаться.

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества