10

Нейрочудеса и машинный перевод. Продолжение 2

Процесс пошел вполне бодро. В прошлом веке десятки лет сражались за всеохватывающий алгоритм, основанный на базе правил. В конце века пытались научить алгоритмы «понимать текст».

***

Небольшой «отвлекунчик» :)


Хотя даже научиться распознавать текст из графики – тоже было нелегко. Всех опередили отечественные программеры. За свежий отечественный FineReader 2.0 я не пожалел когда-то отдать $200. Это понадобилось для компиляции нового справочного пособия из нескольких источников, необходимо было распознать самый большой из них -- на 600 страниц. FineReader, как мировой лидер в сфере распознавания текстов, включался в состав пакета поставки для множества импортных сканеров.


На этом сильно выросла компания ABBY, широко известная, как создатель словарей. Недавно я стал пользовать еще и ABBY Lingvo Live (словари с примерами из литературы, с произношением для отдельных слов), https://www.lingvolive.com. Кстати, они упорно грызут технологию Compreno по оригинальной концепции https://www.lingvolive.com/ru-ru/community/posts/960482

“На ее основе уже реализован интеллектуальный поиск, то есть поиск по смыслу, а не по ключевым словам. Сейчас ABBYY активно работает над созданием нового переводчика, который пока не получил официального названия.”

При этом концепция «смысл-текст» разрабатывается десятки лет. Вот пример:

Действующая модель языка «Смысл <=> Текст - Иппи РАН http://iitp.ru/ru/researchlabs/921.htm

Правда, нельзя сказать, что воз и ныне там. Созданы версии English ↔ Russian. Но реальной коммерческой, популярной версии нет. Выловить смысл из текста алгоритмически – не всегда реально. Есть и вполне теоретическое обоснование отсутствия такой возможности, например, в статье «Языковые парадоксы» http://www.uis.kiev.ua/~_xyz/paradox.html. ведь контекст, для пишущего и читающего всегда разный. Он связан с жизненным опытом итп.

***


В начале века бурный рост Интернет и вычислительных мощностей позволил, «ограничив начальные условия задачи машинного перевода, навалиться на нее массой», за счет гигантских корпусов параллельных текстов. А многозначность лексики/грамматики всегда было возможно разрешать в интерактиве. В захлестывающем потоке текстовой информации очевидно также стоит сужать предметную область, как например, делалось и в системе Кант, упомянутой в первом посте.


Вот и появились системы, использующие все эти факторы. Так работает WIPO Translate, упомянутый во втором посте. Не без «нейрочудес», конечно. Результаты получаются вполне сносные, а уж тренируется «нейрочудо» с дикой скоростью. Знаем уже по АльфаГо. Конечно, в сервис WIPO Translate вложены средства не частных компаний, а из фонда Всемирной организации интеллектуальной собственности, действующей под эгидой ООН. Ну и спасибо им, сервис общедоступен.


Тренд в сфере машинного перевода явный – блок клиенто-ориентированного машинного перевода, интегрированный с памятью переводов (базы паралельных текстов по ограниченной тематике) + нейронные сети + обучение на текстах клиента + использование облачной среды.


Это, так называемый Customized Machine Translation, несколько компаний объявляют себя лидерами в этой области.

Наиболее показательный пример : KantanMT (https://www.kantanmt.com/overview-build.php) с версиями для отдельных отраслей, в том числе, автомобильной, электронной, софтверной.

Есть демо, но за "реально пощупать" придется платить.


PS Еще по теме:

Машинный перевод http://ai-news.ru/mashinnyj_perevod.html

Как работает нейронный машинный перевод? https://habrahabr.ru/company/lokalise/blog/334342/

Перевод и переводчики

1.6K поста8.2K подписчика

Правила сообщества

В переводных постах обязательна ссылка на оригинал или прикрепленная картинка с оригиналом!


Разрешается:

- делиться интересными статьями, переводами, локализациями;

- просить о помощи с переводами;

- презентовать свою критику и предложения по исправлению перевода в постах.


Запрещается:

- создавать посты без ссылки на оригинал или картинки с источником;

- оскорблять комментаторов и ТС;

- создавать посты рекламного характера;

- создавать посты, не относящиеся к тематике.


Конструктивная критика приветствуется при наличии предлагаемых альтернативных вариантов перевода. Попытки провокаций будут пресекаться.

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества