Meta обнародовала раннюю версию инструмента для перевода с помощью искусственного интеллекта, который работает с 200 языками

/ Амбиции Meta по созданию "универсального переводчика" остаются в силе

Meta обнародовала раннюю версию инструмента для перевода с помощью искусственного интеллекта, который работает с 200 языками Нейронные сети, Искусственный интеллект, Перевод, Иностранные языки, IT, Технологии, Переводчик, Инновации, Длиннопост

Конгломерат социальных сетей Meta создал единую модель искусственного интеллекта, способную переводить на 200 различных языков, в том числе и на те, которые не поддерживаются существующими коммерческими инструментами. Компания выложила проект в открытый доступ в надежде на то, что другие разработчики будут использовать его в своей работе.

ИИ-модель является частью амбициозного научно-исследовательского проекта Meta по созданию так называемого "универсального переводчика речи", который компания считает важным для развития многих платформ - от Facebook и Instagram до таких развивающихся областей, как VR и AR. Машинный перевод не только позволяет компании Meta лучше понимать своих пользователей (и тем самым улучшать рекламные системы, которые приносят 97% ее доходов), но и может стать основой "убийственного" приложения для будущих проектов, таких как очки дополненной реальности.

Конгломерат социальных сетей Meta создал единую модель искусственного интеллекта, способную переводить на 200 различных языков, в том числе и на те, которые не поддерживаются существующими коммерческими инструментами. Компания выложила проект в открытый доступ в надежде на то, что другие разработчики будут использовать его в своей работе.

ИИ-модель является частью амбициозного научно-исследовательского проекта Meta по созданию так называемого "универсального переводчика речи", который компания считает важным для развития многих платформ - от Facebook и Instagram до таких развивающихся областей, как VR и AR. Машинный перевод не только позволяет компании Meta лучше понимать своих пользователей (и тем самым улучшать рекламные системы, которые приносят 97% ее доходов), но и может стать основой "убийственного" приложения для будущих проектов, таких как очки дополненной реальности.

Переводы с помощью этой модели, безусловно, не будут безупречными

Эксперты в области машинного перевода сообщили The Verge, что последнее исследование Meta является амбициозным и основательным, но отметили, что качество некоторых переводов модели, скорее всего, будет значительно ниже, чем у более популярных языков, таких как итальянский или немецкий.

"Основной вклад здесь - это данные", - сказал The Verge профессор Александр Фрейзер, эксперт по вычислительной лингвистике из LMU Munich (Германия). "Что важно, так это 100 новых языков [которые могут быть переведены с помощью модели Meta]".

Достижения Meta, как это ни парадоксально, обусловлены как масштабом, так и направленностью ее исследований. В то время как большинство моделей машинного перевода работают лишь с несколькими языками, модель Meta является всеобъемлющей: это единая система, способная переводить в более чем 40 000 различных направлениях между 200 различными языками. Однако Meta также заинтересована в том, чтобы включить в модель "языки с низким уровнем ресурсов" - языки, на которых имеется менее 1 млн. переведенных пар предложений. К ним относятся многие африканские и индийские языки, которые обычно не поддерживаются коммерческими средствами машинного перевода.

"Что нужно сделать, чтобы создать технологию перевода, которая будет работать для всех?"

Научный сотрудник Meta AI Анжела Фан, работавшая над проектом, рассказала изданию The Verge, что на создание технологии перевода ее вдохновило недостаточное внимание, уделяемое в этой области языкам с более ограниченными исходными ресурсами.

"Перевод не работает даже для тех языков, на которых мы говорим, поэтому мы и начали этот проект", - сказала Фан. У нас есть такая мотивация - "что нужно сделать, чтобы создать технологию перевода, которая будет работать для всех?".

По словам Фан, модель, описанная в исследовательской статье, уже тестируется для поддержки проекта, помогающего редакторам Википедии переводить статьи на другие языки. Методы, разработанные при создании модели, в скором времени будут также интегрированы в инструменты перевода компании Meta.

Как оценивать перевод?

Перевод - сложная задача и в лучшие времена, а машинный перевод, как известно, может быть нестабильным. При масштабном применении на платформах Meta даже небольшое количество ошибок может привести к катастрофическим последствиям, как, например, в случае, когда Facebook неправильно перевел сообщение палестинца "С добрым утром" как "навреди им", что привело к его аресту израильской полицией.

Для оценки качества работы новой модели Мета создала тестовый набор данных, состоящий из 3001 пары предложений для каждого языка, на который рассчитана модель, каждое из которых было переведено с английского на язык перевода человеком, являющимся профессиональным переводчиком и носителем языка.

Исследователи прогнали эти предложения через свою модель и сравнили машинный перевод с эталонными человеческими предложениями с помощью общепринятого в машинном переводе эталона, известного как BLEU (BiLingual Evaluation Understudy).

Модель Meta позволила улучшить показатели, но они не могут рассказать всю историю.

BLEU позволяет исследователям присваивать числовые баллы, измеряющие степень совпадения пар предложений. По утверждению компании Meta, ее модель позволяет улучшить показатели BLEU на 44% для всех поддерживаемых языков (по сравнению с предыдущими современными разработками). Однако, как это часто бывает в исследованиях в области ИИ, оценка прогресса на основе контрольных показателей требует контекста.

Хотя показатели BLEU позволяют исследователям сравнивать относительный прогресс различных моделей машинного перевода, они не являются абсолютным показателем способности программного обеспечения создавать качественные переводы.

Помните: Набор данных Meta состоит из 3001 предложения, и каждое из них было переведено только одним человеком. Это позволяет судить о качестве перевода, но всю выразительность языка невозможно отразить на столь малом фрагменте реального языка. Эта проблема ни в коем случае не ограничивается Meta - она касается всех работ по машинному переводу и особенно остро проявляется при оценке языков с ограниченными ресурсами, - но она показывает масштаб проблем, стоящих перед этой областью.

Кристиан Федерманн, главный менеджер по исследованиям, занимающийся вопросами машинного перевода в компании Microsoft, считает, что проект в целом "заслуживает похвалы" за стремление расширить сферу применения программ машинного перевода за счет менее распространенных языков, но отмечает, что сами по себе оценки BLEU могут дать лишь ограниченную оценку качества результата.

"Перевод - это творческий, генеративный процесс, в результате которого может получиться множество различных переводов, одинаково хороших (или плохих)", - сказал Федерманн в интервью The Verge. Невозможно определить общие уровни "хорошести" по шкале BLEU, поскольку они зависят от используемого тестового набора, его эталонного качества, а также от свойств, присущих исследуемой языковой паре".

По словам Фэн, оценки BLEU были также дополнены человеческой оценкой, и эти отзывы были очень позитивными, а также вызвали некоторые неожиданные реакции.

"Один из действительно интересных феноменов заключается в том, что люди, говорящие на языках с низким уровнем ресурсов, часто имеют более низкую планку качества перевода, поскольку у них нет другого инструмента", - сказала Фэн, которая сама является носителем языка с низким уровнем ресурсов - шанхайского. Они очень щедры, и поэтому нам приходится возвращаться и говорить: "Нет, вы должны быть очень точны, и если вы видите ошибку, скажите об этом".

Дисбаланс сил в корпоративном ИИ

Работа над переводом с помощью искусственного интеллекта часто представляется как однозначное благо, однако создание такого программного обеспечения сопряжено с особыми трудностями для носителей языков с низкими ресурсами. Для некоторых сообществ внимание "больших технологий" просто нежелательно: они не хотят, чтобы инструменты, необходимые для сохранения их языка, находились в чьих-либо руках, кроме их собственных. Для других проблемы не столько экзистенциальные, сколько связанные с качеством и влиянием.

Некоторые сообщества просто не хотят, чтобы их язык контролировали большие технологии.

Инженеры Meta изучили некоторые из этих вопросов, проведя интервью с 44 носителями языков с низким уровнем ресурсов. В ходе интервью был отмечен ряд положительных и отрицательных моментов, связанных с открытием их языков для машинного перевода.

Одним из положительных моментов, например, является то, что такие инструменты позволяют носителям языка получить доступ к большему количеству медиа и информации. С их помощью можно переводить богатые ресурсы, такие как англоязычная Википедия и учебные тексты. В то же время, если носители языков с низкими ресурсами будут потреблять больше медиа-материалов, созданных носителями языков с лучшей поддержкой, это может снизить стимулы к созданию таких материалов на своем родном языке.

Сбалансировать эти вопросы непросто, и проблемы, возникшие даже в рамках этого недавнего проекта, показывают, почему. Так, например, исследователи Meta отмечают, что из 44 носителей языков с низкими ресурсами, которых они опросили для изучения этих вопросов, большинство были "иммигрантами, живущими в США и Европе, и около трети из них идентифицируют себя как работники технического сектора" - это означает, что их точка зрения, скорее всего, отличается от точки зрения их родного сообщества и изначально предвзята.

Профессор Фрейзер из LMU Munich отметил, что, несмотря на это, исследование, безусловно, было проведено "в том ключе, который становится все более характерным для привлечения носителей языка", и что такие усилия "заслуживают похвалы".

https://www.theverge.com/2022/7/6/23194241/meta-facebook-ai-...

Искусственный интеллект

2.5K поста9.8K подписчиков

Добавить пост

Правила сообщества

Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан