Сможет ли машинный перевод заменить переводчика?
Недавно я писал пост об истории машинного перевода. А что насчет перспектив? Правду ли говорят, что мол, скоро машинный перевод заменит переводчиков и все мы останемся без работы? Рассказываю дальше.
Больше интересного и практического мы с коллегами рассказываем в Telegram-канале нашего бюро переводов. Заходите :)
Результаты развития машинного перевода
Научно-техническая революция привела к тому, что к 1960-1970 гг. о потребности машинного перевода стали задумываться в разных сферах жизни и профессиональной деятельности — военные, дипломаты, ученые. А к концу 20 века компьютеризация стала настолько масштабной, что с машинными переводчиками стали экспериментировать даже в небольших компаниях, работающих с иностранными партнерами и клиентами. Люди по всему миру получили возможность обмениваться информацией. Для её перевода нужен был инструмент.
Сегодня множество разработчиков конкурируют между собой и постоянно предлагают новые конфигурации машинных переводчиков с дополненными функциональными возможностями. Конкуренция на этом рынке и спрос на быстрые и простые инструменты для перевода стали главными факторами развития технологий машинного перевода.
Мы протестировали разные машинные переводчики и убедились, что до профессионального живого переводчика им еще далеко. Подробнее о нашем исследовании читайте в статье.
Что умеет машинный перевод сегодня
На протяжении последних шести десятилетий программисты всего мира бьются над усовершенствованием машинных переводчиков. Каковы результаты — чему научился машинный перевод?
Письменный перевод
Статистический перевод. В основе принципа, который до 2016 года использовался Яндекс Переводчиком, Google Translate и др. – уже не правила, как это было раньше. В их памяти были миллионы переводов, сделанных живыми переводчиками и загруженных на сервер. Система по запросу пользователя находила в этом огромном количестве данных соответствие и выдавала перевод. Да, не всегда правильный грамматически и лексически.
Перевод с использованием нейросетей. Он начал использоваться с 2016 года. Нейросети дают более качественный перевод, поэтому эти технологии стали применять и в работе Яндекс и Гугл Переводчика. Дело в том, что нейронные сети могут не просто выбирать соответствие из многообразия вариантов.
Они умеет проводить предварительный анализ, что повышает качество перевода.
Как правило, качество перевода зависит от языковой пары. Чем больше переводов в нужной языковой паре загружено на сервер, тем выше будет качество перевода. Например, с английского на французский переводят чаще, чем с иврита на корейский. Соответственно, и качество перевода будет значительно лучше.
Устный перевод
На протяжении многих десятилетий внимание ученых и программистов было сосредоточено, в основном, на машинном переводе только письменной речи. О переводе аудио и видео в 20 веке не могли даже и мечтать. Сейчас мы уже без удивления наблюдаем, как машинный переводчик переводит нам видео на иностранном языке и преобразует непонятную речь в понятный текст – субтитры.
Это для нас уже стало обыденностью. Но даже несмотря на столь быстрое развитие технологий машинного перевода, появление нового поколения переводчиков видео вызвало заметное оживление среди пользователей. А удивляться действительно есть чему.
Первый представитель этого направления HeyGen Video Translate переводит видео, преобразуя речь не в субтитры, то есть, текст. Нейросеть преобразует речь на одном языке в речь на другом языке. При этом, она имитирует голос спикера. Но и это не все. На видеоряде можно заметить, что меняется даже артикуляция говорящего, подстраиваясь под другой язык.
Пока доступен перевод видео только на 8 языков, в число которых русский не входит. Используется новинка сейчас только для создания видео-мемов. Если работа в этом направлении будет продолжена, то со временем такие машинные переводчики будут использоваться при дубляже фильмов.
Однако мы по-прежнему уверены, что машинные переводчики даже в связке с нейросетями — часто ложные помощники в переводе. Почему? Рассказали в статье.
Что не умеет машинный перевод
Представители компаний-разработчиков систем машинного перевода часто говорят, что профессия переводчика скоро станет неактуальной. При этом, они скромно умалчивают о недостатках машинных переводчиков. Но мы поговорим и о них.
Неохота читать лонгриды? Приглашаем на наш Youtube-канал, где публикуем короткие, но полезные ролики. Все только по делу и с юмором :)
Чего не умеют машинные переводчики:
Исправлять ошибки без участия человека. Живой переводчик проверяет свою работу, находит в ней ошибки и исправляет их. Кроме того, ему в этом помогают САТ-системы. Благодаря ним легче следить за единством отраслевой терминологии и профессиональной лексики. В этой связке может быть использован и машинный переводчик. Однако не в коробочном решении — например, в виде привычных многим Google Translate и Яндекс Переводчика, а только движок системы машинного перевода. Он обучается на корпусе подобранных текстов (оригинал + перевод). Нейросеть в ходе обучения выявляет закономерности и в дальнейшем начинает переводить следующие тексты, подбирая соответствующие термины и формулировки.
Точно передавать смысл, эмоции и тональность оригинального текста. Действительно, в некоторых языковых парах машинные переводчики работают лучше, об этом мы уже сказали выше. Но, кроме сухого официального языка документов или отчетов (их мы, кстати, не рекомендуем переводить машинным переводчиком) есть еще живой и эмоциональный язык художественных текстов и рекламных материалов. Машинные переводчики уже работают с подобными текстами и пытаются подобрать слова, отражающие те или иные эмоции.Но качество, конечно, намного ниже, чем у переводчика-носителя языка.
Переводить омонимы и фразеологизмы. Сейчас машинные переводчики часто не видят разницы между омонимами. Перевод фразеологизмов тоже часто дословный. Фразеологизм при обучении распознается нейросетью как отдельный термин. Но стоит хоть немного его изменить – и машина его уже не сможет правильно перевести. В отличие от живого переводчика, машинный не способен распознать контекст. Это не значит, что машинный переводчик всегда ошибается в выборе правильного варианта, но неточности встречаются часто.
Соблюдать стилистическое единство текста. Даже живым переводчикам это не всегда легко дается. Но у них есть CAT-системы и редакторы в помощь. Особенно, если речь идет о большом проекте, над которым работает целая команда переводчиков.
Кстати о том, как мы отбираем переводчиков на различные проекты, подробно рассказали в здесь.
Будущее машинного перевода
Основа для развития машинного перевода — это нейросети, точнее тоже их развитие. Такая перспектива связана с возможностью их самообучения. Нейросетевые технологии начали изучать еще в 20 веке, но только в 21 столетии появились первые значимые результаты — разработка технологии Deep Learning.
Эта технология использует архитектуру нейронных сетей на нескольких уровнях и графические процессоры высокой производительности. Обучение проводится на основе видео и изображений. Например, чтобы искусственный интеллект научился управлять беспилотным автомобилем, нейросеть изучила тысячи часов видео и миллионы изображений.
Такое быстрое обучение возможно благодаря развитию GPU (графических процессоров), которые успешно справляются с однотипными задачами и обладают высокой производительностью. Вместо месяцев, которые требовались раньше нейросетям для изучения какой-то темы, сейчас нужно несколько часов. Поэтому нейросети могут развиваться даже стремительнее, чем предполагают многие специалисты.
Обучение нейронных сетей переводу стало возможным еще в 80-х гг. прошлого века, когда начали развиваться технологии Translation Memory (TM), подробно о них мы уже рассказывали раньше. Решения с использованием TM-технологий позволяют собирать и хранить образцы отдельных переводов, которые используются не только для обучения нейросетей, но и для помощи в работе профессиональным переводчикам.
Как нейросети делают перевод
Они кодируют слова исходного языка в токены, которые затем декодируют в слова уже другого языка. Нейросеть умеет опираться на предыдущий опыт, предсказывая значение того или иного слова.
Качество перевода повышается за счет того, что нейронные сети уже умеют учитывать контекст. Они пока не способны считать его со всего материала, но переводя предложение за предложением, нейросети уже учитывают хотя бы ближайший контекст. Однако уже это значительно повышает качество перевода относительно сегодняшних возможностей машинных переводчиков.
Действительно, нейросети помогают машинному переводу развиваться быстрее. Но в ближайшее время искусственный интеллект не заменит живого профессионального переводчика.
Сложности на пути развития
Требуется огромное количество примеров перевода. Нейросетям необходимо предоставить миллионы образцов перевода для различных языковых пар. Одни языковые пары используются часто, и примеров перевода достаточно. Другие – намного реже, и образцов перевода мало — машинный переводчик не может обучиться переводу с/на конкретный язык из-за недостатка информации.
Машинному переводчику для обучения нужно предоставить максимальное количество вариантов перевода одного и того же слова в разном контексте.
Недостаточно данных по терминологии. Дело в том, что перевод со сложной терминологией доверяют не машинным переводчикам, а узким специалистам. Искусственному интеллекту иногда просто неоткуда взять нужную информация для обучения. Когда машинные переводчики работали на основе правил, такой проблемы не было. Существовал RBMT-словарь, с помощью которого можно было точечно исправлять перевод терминов. Например, слово «agreement» нейросеть где-то по тексту переводит как «соглашение», а где-то как «договор». И исправить перевод она не может, так как обучалась не на словарях, а на примерах параллельных текстов. Сейчас разрабатываются инструменты для коррекции результатов машинного перевода.
Тем не менее, уже появилась возможность к специально обученному движку нейросети подключить специализированный глоссарий. Разработки в этом направлении, например, ведет российская компания PROMT. Таким способом можно обеспечить единообразие терминологии, но все же результат перевода еще проверяется и корректируется человеком.
Оценка и повышение качества машинного перевода
Чтобы улучшать качество перевода, необходимы новые способы его оценки. Сейчас один из наиболее используемых — BLEU (Bilingual Evaluation Understudy). Метрика была разработана американской компанией IBM.
Недостаток этой оценки качества машинного перевода заключается в том, что результат работы машинного переводчика сравнивается с переводом, сделанным человеком по принципу sentence by sentence (по предложениям). Такой принцип опять же не позволяет учитывать контекст, а также грамматику и стилистику при оценке качества машинного перевода. При сравнении текста целиком можно будет улучшить качество машинного перевода в плане точности и соблюдения единства терминологии. Отсюда вытекает еще одно направление, в котором нужно работать – разработка подходов к сравнению текста целиком, а также учета грамматики и стилистики.
Есть еще одно слабое место этой методики. Разные люди могут перевести один и тот же текст по-разному. И каждый из этих переводов будет более-менее одинаково правильным. В данном случае нет единого эталона, на который можно было бы равняться при улучшении систем машинного перевода.
Развитию систем машинного перевода способствуют, как ни странно, и соревнования, которые ежегодно проводит Ассоциация компьютерной лингвистики. Они проводятся в рамках Семинара по статистическому машинному переводу и позволяют оценить уровень развития машинного перевода на текущий момент.
За несколько месяцев до соревнования организаторы выкладывают в открытый доступ данные для обучения машинного переводчика. Участвовать в соревнованиях может любой желающий. Обычно в конкурсе принимают участие более сотни лабораторий университетов из многих стран мира. Как правило, задания связаны с распространенными языковыми парами, но ежегодно добавляются и редкие языки.
Сможет ли машинный переводчик заменить человека?
Спойлер: пока нет. Сейчас машинный перевод – это только инструмент, который помогает понять общий смысл текста.
Перевод важной информации, где ошибка дорого стоит, нужно доверять профессиональным переводчикам. И это правило будет действовать еще несколько лет.
Конечно, разработчики утверждают, что системы машинного перевода — готовый к использованию продукт. Но на деле машинный перевод не дает качественный результат. Поэтому использовать их можно только, чтобы понять общий смысл исходного материала. Кроме того, ни один разработчик систем машинного перевода не дает юридической гарантии качества. Поэтому во всех ситуациях, предполагающих высокую степень ответственности, перевод стоит доверять только человеку.
“Что касается живого перевода, то мы по-прежнему часто встречаем иллюзию среди начинающих специалистов, будто можно загнать текст в машинный переводчик, немного подредактировать и получить результат, за который клиент будет готов платить деньги. Это так не работает”.
Мария Комракова, старший менеджер по работе с переводчиками iTrex
Пока машинный переводчик подойдет лишь тем, у кого уровень владения иностранным языком не выше, чем у самого онлайн-переводчика. И то далеко не во всех случаях. Часто лучше обратиться в бюро переводов. О ситуациях, когда можно сделать перевод самостоятельно мы писали в отдельной статье.