87

Почему переводчикам в ближайшие годы можно не опасаться машинного интеллекта, или на что не способны современные нейросети. Часть I - теория

В последние несколько лет в связи со значительными успехами, достигнутыми искусственным интеллектом в областях, которые ещё недавно считались безраздельной вотчиной человека (раскрашивание черно-белых фотографий, обработка фотографий в стиле того или иного художника, ведение воздушного боя, вождение автомобиля без водителя, расчет оптимальных по расходу материала конструктивных узлов, состязание на равных с чемпионами го и телевизионного конкурса Jeopardy «Своя игра») в широких слоях населения набирает силу мнение, согласно которому ещё немного – какие-нибудь 5-10, максимум 15 лет – и под натиском компьютера падут рубежи крепости, которая остается для него неприступной более 60 лет, а именно – машина наконец-то овладеет ремеслом перевода и сможет выдавать тексты на уровне как минимум среднего, а то и хорошего переводчика.


Короче говоря, если вы задумали стать переводчиком и готовитесь поступать в институт иностранных языков – выкиньте эту пустую затею из головы, потому что когда вы этот самый иняз закончите, вместо переводчиков в бюро переводов будут стоять ряды аккуратных никелированных терминалов с прошивками на нейросетях. Красота - пришёл, сунул флэшку (или какой носитель к тому времени будет в ходу), нажал кнопку, получил перевод. В условиях нынешней компьютерной вакханалии, когда про грядущую в результате натиска роботов безработицу сказали все – от Обамы до Жириновского – это поистине кошмарная перспектива для переводчиков и заветная мечта для всех остальных людей, изнемогающих от обилия языков :-) Так что же – не пора ли нынешним переводчикам поискать себе новое занятие?

Почему переводчикам в ближайшие годы можно не опасаться машинного интеллекта, или на что не способны современные нейросети. Часть I - теория Перевод, Машинный перевод, Трудности перевода, Нейронные сети, Искусственный интеллект, Смысл, Переводчик, Длиннопост

Этот вопрос мы и попробуем разобрать в данном посте. Но сразу следует отметить вот что: если мы не придерживаемся идеалистических взглядов, согласно которым мозг – это якобы нечто большее, чем совокупность молекул, организованных в ряд иерархических систем, образующих конечный автомат, который действует в полном согласии с законами физики, химии и теории информации, то надо сразу откинуть идею, что хороший перевод – это нечто такое, что машине не будет по силам никогда. С материалистической точки зрения никакой грани между человеческим мозгом и любым другим конечным автоматом, доступным для изготовления человеком, кроме уровня сложности, не существует. Вопрос не в том, появится ли когда-нибудь хороший машинный переводчик (по аналогии: хороший машинный программист, хороший машинный врач… - никаких технических ограничений здесь нет, только технологические, так что это лишь вопрос времени), а в том, реализуемо ли его создание с использованием тех систем «слабого» машинного интеллекта, - в том числе и на базе нейросетей – которые имеются в нашем распоряжении сейчас и благодаря которым компьютер обошел человека, в частности, в игре го и симуляции воздушного боя?


Мой ответ – однозначно нет. Причина кроется в том, что решение задачи перевода в общем виде на пару порядков сложнее, чем нахождение выигрышной последовательности действий в том или ином виде деятельности, которые можно охарактеризовать как «игра с полной информацией», и не найдено человечеством до сих пор, причем есть все основания считать, что в ряде случаев задача нерешаема принципиально. Поэтому для достижения результатов, сопоставимых с человеческими, компьютер должен обладать и сопоставимой с человеком интеллектуальной мощностью. Однако обо всем по порядку.

Для начала немного заглянем в прошлое. Когда в середине 1950-х годов были впервые начаты серьёзные работы в области машинного перевода, считалось, что в свете достигнутых на тот момент вычислительных мощностей» компьютеров, воспринимавшихся как нечто невообразимое, автоматизация данного вида деятельности – дело десятилетия-другого. В этом, кстати, нынешнее положение дел зеркально отражает имевшее место на тот момент – только сейчас надежды возлагаются на «чудо-нейросети», а тогда – на «чудо-компьютеры» (об этой параллели мы еще поговорим ниже). Перевод в большинстве случаев воспринимался только и исключительно как сопоставление словаря и правил грамматики языка A словарю и правилам грамматики языка B, а все сложности в представлении создателей первых систем машинного перевода сводились к тому, чтобы ввести в компьютер достаточно полный словарь и достаточно полно описать грамматики обоих языков, а также набор правил для их сопоставления – короче говоря, подход был примерно таким же, как к созданию шахматных программ. Все остальное считалось делом техники.


Прошли годы, за ними десятилетия. Вычислительные мощности и объемы памяти компьютеров выросли на порядки, многократно увеличился объем «забитых» на машинные носители словарей и изощренность правил сопоставления синтаксиса. Обескураживающим был лишь результат. Несмотря на все впечатляющие достижения прогресса, качество перевода, достигнув определенного уровня, практически не росло и уже в конце 1960-х годов большинству создателей подобных систем стало ясно, что «механический» лексико-грамматический подход к машинному переводу ведёт в тупик, что ни наращивание мощностей, ни совершенствование алгоритмов в качество перевода не конвертируются. К середине 1970-х это стало прописной истиной, что отразилось в закрытии множества подобных проектов как бесперспективных.


Потерпев поражение в «лобовой атаке», создатели программ-переводчиков открыли для себя то, о чем давно предупреждали мыслители и философы: что язык – нечто большее, чем простая совокупность словаря и грамматики, что смысл текста – любого текста – лежит вне самого текста и без понимания этого смысла говорить о качественном переводе не приходится, а приходится лишь говорить о более-менее точной имитации этой деятельности.


Конечно, с точки зрения достижения заданной цели для нас без разницы, что происходит внутри системы, лишь бы она выдавала нужный результат, а имитация это или нет – дело десятое. Шахматный компьютер не думает, как человек, однако он выигрывает у человека в шахматы. Увы, к переводу подобное оказалось неприменимо. Процитирую отрывок из «Суммы технологии» Станислава Лема, который сумел увидеть проблему во всей её полноте ещё 50 лет назад:

«Неимоверно трудоемкие структурные исследования указывают на то, что каждый микроскопический шаг на пути улучшения качества примитивных машинных переводов должен быть куплен ценой непропорционально огромного усложнения применяемых алгоритмических структур. Одно дело – запрограммировать большую цифровую машину так, чтобы она переводила фразы типа «Там стоит стул», «Падает снег», «Дети идут в школу», и совсем иное – создать программу, с помощью которой машина может перевести фразу вроде следующей: «Первичный способ преподнесения объекта включает “изоляцию” объекта не только в смысле ограниченности, но также и в том смысле, что объект лишь “извне” доступен для познающего субъекта, каковой при этом в едином акте постигает его как целое либо же только предвосхищает». Перевод этой фразы «без понимания вообще» представляется невозможным. Человеку, который захочет ее перевести, надлежит изучать не синтаксис, а скорее феноменологистские журналы. И он наверняка не сможет «схватить» их стиль ни в каком алгоритме, дающем перевод хотя бы с некоторым приближением к оригиналу».

Потерпев поражение с попытками подступиться к переводу с классическими детерминированными алгоритмами, создатели машинных переводчиков не отступились и пошли в атаку, вооружившись статистическими методами, когда перевод осуществляется на базе сопоставления большого количества текстов на исходном языке и языке перевода. Свой подлинный расцвет эти методы пережили после развития сети Интернет и создания огромных сопоставительных баз данных, хранящихся в недрах поисковых машин. Гугл- и Яндекс-переводчики, сумевшие в определенной степени повысить качество перевода за счет комбинации алгоритмического подхода с гигантскими сопоставительными базами, известны нынче каждому… как, увы, и фраза «Только не гуглоперевод», практически в обязательном порядке сопровождающая любой запрос на перевод на неспециализированном ресурсе (на специализированном про подобное никому и в голову не придет упоминать). Несмотря на то, что статистические переводчики стали немалым подспорьем тем, кому нужно быстро понять смысл большого объема текста на иностранном языке, качественного прорыва они обеспечить не смогли. Почему? Станислав Лем своим прозорливым взором сумел предвосхитить ответ и на этой вопрос:

«Можно задать вопрос, почему проблему нельзя решить вероятностными методами. Текст книги можно сравнить с информацией, содержащейся в хромосомах. Текст задает «смысл», как генотип – зрелую особь. В обоих случаях имеет место вероятностное предопределение. Известно, что фенотип организма отклоняется от генотипа, и аналогично «фенотип» литературного произведения или философской работы способен колебаться в определенном (зависящем от индивидуумов) диапазоне предельных значений. Но этот вероятностный разброс ни в коей мере не является хаотичным. Статистический подход подразумевает аппроксимацию, асимптотическое приближение к предельному значению «идеальной точности», о чем нельзя говорить в случае перевода, ибо класс «точных переводов» данного текста содержит различные «типы точности», которые не вполне сравнимы друг с другом. Хороший перевод отражает оригинал и в то же время несет в себе черты собственного стиля переводчика. Машина, способная на такой перевод, также проявила бы собственный стиль, а это означало бы, что она имеет определенную индивидуальность, а не является всего лишь одной в точности воспроизводимой ипостасью «единого алгоритма». Мы интуитивно приходим к выводу – впрочем, хорошо известному, – что если процедуре нельзя придать однозначность, то ее нельзя также и формализовать».

Короче говоря: пособие для перевода – не догма, а руководство к действию. Два совершенно разных перевода могут быть признаны адекватными в зависимости от поставленной задачи, которая опять же проистекает из контекста, не сводящегося к тому или иному тексту.


И здесь исключительно важный момент: абсолютно те же самые рассуждения Лема применимы и к критике машинных переводчиков следующего поколения, которые «работают на нейросетях». Ключевой логической ошибкой тех, кто рассматривает нынешние нейросети как золотой ключик к переводам качественно нового уровня, заключается смешивание суждений «Нам неважно, как именно компьютер делает перевод - главное, чтобы нас устраивал результат» и «Мы не знаем точно, как нейросети будут делать перевод, потому что их работа не сводится к детерминированным алгоритмам», из чего получается «Мы не знаем точно, как нейросети будут делать перевод - главное, чтобы нас устраивал результат», причем почему-то подразумевается, что если нейросеть является для нас «черным ящиком», то результат будет нас устраивать, как устраивает он нас для многих других задач вроде модификации нейросетями фотографий "под картины Дали" или "под картины Шагала" – но применительно к переводу это как раз под очень большим вопросом. Вопрос вычленения смысла, как незначительный, здесь даже не ставится – ровно потому, что авторы подобных рассуждений, даже если они это на словах отрицают, неявно руководствуются некоторым «принципом биективного отображения», согласно которому возможно либо абсолютно однозначное соответствие по смыслу текстов на языках A и B, либо как минимум стремление к этому соответствию. Соответственно, «натравив» на тот или иной текст нейросеть (предварительно обработавшую некий большой массив параллельных текстов на двух языках), в которой прописана некая целевая функция, мы якобы получим в итоге определенный перевод хорошего уровня, удовлетворяющий этой целевой функции наподобие того, как получаются «обработанные нейросетью» оптимизированные по расходу материала конструктивные узлы, выглядящие как инопланетные конструкции.

Почему переводчикам в ближайшие годы можно не опасаться машинного интеллекта, или на что не способны современные нейросети. Часть I - теория Перевод, Машинный перевод, Трудности перевода, Нейронные сети, Искусственный интеллект, Смысл, Переводчик, Длиннопост

Оставляя в стороне вопрос о том, нужны ли нам тексты переводов, выглядящие как инопланетный язык (отмечу только, что при таком подходе в получении подобного результата после работы нейросети не будет абсолютно ничего удивительного), мы сталкиваемся с тем, что «биективный подход», основанный на асимптотическом приближении к идеалу, к переводу, как верно замечает Лем, неприменим по причине отсутствия этого самого идеала. Поэтому, на мой взгляд, не будет чрезмерно пессимистичным следующее утверждение: без качественного скачка мощности, который требуется для перехода к пониманию смысла текста (для чего требуется как минимум наличие созданных человеком или самой нейросетью хранилищ данных со огромным количеством перекрестных связей + умение их обрабатывать) нынешние нейросети не выдадут ничего принципиально иного по сравнению с уже использующимися статистическими алгоритмами того же Гугла.

Потому что в чём, собственно, будет заключаться разница между нейросетями и статистическими методами, если и те, и другие будут заниматься исключительно тем, что сопоставлять огромные массивы параллельных текстов, только для статметодов сопоставление будет проводиться по правилам, заданным человеком, а нейросети смогут выработать свои собственные, неведомые нам и пусть даже просто чудовищные по эффективности методы сопоставления текстов, которые останутся нам неизвестными? Ведь в обоих случаях речь будет идти только о их механическом сопоставлении вне анализа той «почвы», откуда эти самые тексты «растут», и тут уже заложенная в нейросети вычислительная мощность не играет практически никакой роли, как не играла она её при переводе лексико-грамматическим методом.

Собственно, выше я упомянул про параллель между надеждами на «чудо-компьютеры» и «чудо-нейросети» с разницей в 50-60 лет. По идее, развитие техник перевода в этом плане должно идти в плане повышения степени «надсистемности» анализируемого информационного субстрата: 1) тексты – 2) массивы текстов (из которых берут начало все тексты) – 3) большая часть знаний, накопленных человечеством (потенциальный источник бесконечного количества текстов и массивов текстов), в виде единой структурированной базы данных с инструментарием для вычленения перекрестных связей. А поскольку нынешние нейросети, как и статметоды, остановились на втором уровне, качественного прорыва тут пока что не ожидается.

Кто-то, разумеется, вспомнит знаменитый «Watson», который сумел одолеть признанных чемпионов «Своей игры», причем умел анализировать вопросы, заданные на естественном языке, и вопросы такого рода, ответы на которые простым «поиском в Гугле» не найти. Вот только у компьютера «Watson» перекрестная база данных, о которой шла речь выше, как раз имелась – и составлена она была под руководством человека. Вопрос о создании подобных баз силами исключительно нейросетей (та работа по познанию мира, которую выполняет человеческий мозг, начиная с младенчества) на уровне нынешних вычислительных мощностей пока что, насколько мне известно, пока что не стоит.

Но вернёмся к теме «целевой функции нейросети» применительно к переводу. Кто-то может возразить: хорошо, перевод не является биективным отображением, но что мешает задать определенные параметры, которые позволяли получать перевод с теми или иными заданными критериями? Скажем, как в пресловутом "Промте" можно было задавать специализацию текста (компьютеры, авиация, нефтяная отрасль...) Задали одни критерии – получили такой-то перевод, другие – другой - скажем, так:


Перевод 66 сонета Шекспира.


1. Параметр «Пастернак» - 100%.


Измучась всем, я умереть хочу.

Тоска смотреть, как мается бедняк,

И как шутя живётся богачу,

И доверять, и попадать впросак…


2. Параметр «блатная феня» 100%.


Достатый в пень, готов я жать на стоп:

Мне жить в ломы, где пашут за ништяк;

Где мазу держит оборзевший жлоб,

Круть обувает влёгкую хиляк.


3. Параметр «Пастернак» 50%, параметр «блатная феня» 50%.


Измучась всем, я умереть готов.

Тоска смотреть, как мается бедняк,

Как мазу держит оборзевший жлоб,

Круть обувает влёгкую хиляк.


Что называется – «вы меня поняли». Увы, но попытка обойти проблему отсутствия биективности перевода умным словосочетанием «задание необходимых параметров» - пока что не более чем бессмысленное сотрясение воздуха. Ни копирование строчек из Пастернака в той или иной последовательности, ни даже копирование характерных для поэта синтаксических структур – не есть стихи Пастернака, это не более чем повод в очередной раз посмеяться над туповатым роботом, выдающим очередные "Яндекс-стихи". Проблема заключается в следующем: чтобы качественно формализовать, к примеру, параметр «Пастернак», нам надо, чтобы наша нейросеть умела воспринимать этот самый подаваемый на вход параметр как всю совокупность стоящих за ним смыслов, что означает, что нейросеть «понимает», что такое «Пастернак». Для этого ей необходимо знать о его жизни, о его эпохе, о его литературном воспитании, а это всё требует других перекрестных связей, в итоге приходим к условию, обозначенному выше: в нейросеть нужно загнать на «доступном для понимания» уровне чуть ли не всю историю человечества, что на нынышнем этапе развития абсолютно нереально.

Для того, чтобы дополнительно пояснить всё вышесказанное, я приведу список из 5 уровней эквивалентности исходного и переведенного текстов, которые выделяют некоторые теоретики перевода:


1. Уровень языковых знаков.

The bicycle was sold for 100 dollars. - Велосипед был продан за 100 долларов.


В этом типе эквивалентности сохраняется все, от цели коммуникации и смысла сообщения до синтаксиса и лексических единиц. Это максимально возможный уровень эквивалентности, но встречается он крайне редко.


2. Уровень структуры высказывания.

He is the best man to lead the party. - Он - лучший, кто может возглавить партию.


Здесь сохраняется все вышеперечисленное, включая часть синтаксических структур оригинала, но эквивалентности на уровне лексических единиц нет (man to lead the party - кто может возглавить партию).


3. Уровень высказывания.

Drinking makes me sick. - От выпивки меня тошнит.


В данном случае сохраняется цель коммуникации, описывается та же ситуация и сохраняются общие понятия, с помощью которых данная ситуация обозначена в оригинале, хотя ни синтаксис, ни лексика с использованными в оригинале не совпадают.


4. Уровень описания ситуации.

You have my ear! - Слушаю вас!

Break a leg! - Ни пуха ни пера!


В данном случае языковые средства оригинала и перевода несопоставимы, но отражают одну и ту же ситуацию, "покрываемую" соответствующим языковым шаблоном.


5. Уровень цели коммуникации (прагматический).

I live on the second floor. - Езжайте-езжайте! (Реплика человека, который проходит мимо другого человека, который придерживает лифт).


Цель коммуникации здесь заключается в доведении до собеседника информации, что ему не нужно держать лифт. Цель достигнута, хотя между высказываниями в оригинале и переводе нет абсолютно ничего общего.

Всё это было сказано вот к чему: отличие хорошего переводчика (не того, кто сидит со словарём и калькирует оригинал) от компьютерного заключается в том, что вне зависимости от того, насколько точно синтаксис исходного высказывания может совпадать с синтаксисом перевода, первым делом переводчик-человек строит для себя «иерархию перевода», начиная с высшего, пятого уровня (в каком контексте происходит действие?), через промежуточную стадию уровней 4 и 3 (что происходит?) спускаясь ниже на уровни соответствия синтаксических структур 2 и 1, и если синтаксис исходного высказывания не совпадает с тем, который построил у себя в голове переводчик – тем хуже для этого самого исходного синтаксиса.


Схема работы переводчика-человека:

Почему переводчикам в ближайшие годы можно не опасаться машинного интеллекта, или на что не способны современные нейросети. Часть I - теория Перевод, Машинный перевод, Трудности перевода, Нейронные сети, Искусственный интеллект, Смысл, Переводчик, Длиннопост

Компьютерные же переводчики, для которых уровень 5 пока что недостижим (причём перевод на уровнях 3 и 4 осуществим по большей части только на основе статистических методов), начинают идти в противоположном направлении - «снизу вверх». Это примерно то же самое, что разобрать на части, скажем, собранный из детского конструктора экскаватор на гайки, болты и пластины, а потом пробовать собрать из него что-то, что нам и самим непонятно, но что мы видели ранее на десятках просмотренных ранее чертежей конструктора (а там и кран, и автомобиль, и паровоз, и чего только нет). Но функции крана, автомобиля или паровоза не выводятся из свойств гаек, болтов и пластин, и если нам непонятно, ЧТО мы хотим собрать (применительно к переводу – отсутствие понимания смысла), то тупое подражание непонятно чему и даст на выходе непонятно что – и не кран, и не автомобиль, и не паровоз, и не экскаватор. Хороший же машинный переводчик будущего должен действовать аналогично человеку – воссоздавая смысл высказывания, спускаться с верхних уровней к нижним. Пока что до этого нам очень далеко.


Думаю, всего сказанного выше достаточно для понимания того, насколько сложен тот процесс, который в представлении некоторых энтузиастов машинного перевода так легко и просто отдать на откуп нейросетям, которые якобы завалят нас качественными переводами, просто-напросто как следует проанализировав огромный массив параллельных текстов.


В заключение рассмотрим примеры того, что гарантированно "сломает зубы" любому машинному переводчику, не достигшему уровня сильного ИИ. Список мог бы быть много больше, но думаю, что и этих примеров будем достаточно. Начнём с того, что и человеку даётся с большим трудом - тексты, перевод которых представляет собой в чистом виде творчество, а далее, спускаясь по уровням, покажем, что нетривиальной задачей для машинного переводчика могут оказаться и совершенно нетворческие тексты технического характера.


Однако этот "разбор полётов" пойдёт уже в следующем посте. Хотелось всё разместить в одном, но, к сожалению, пост оказался слишком большим и Пикабу его не пропустил. Так что


Окончание следует...


P.S. Если всё изложенное выше всё равно не убедило каких-то энтузиастов машинного перевода, у которых возникли возражения в духе "Автор просто не понимает, о чем говорит - все эти проблемы решаемы в ближайшие 5-10 лет, поскольку 1), 2), 3)..." - приглашаю высказываться в комментариях, ну или подождать окончания с примерами, после чтения которого станет ясно, что не всё так просто :-)

Найдены дубликаты

108 комментариев

по актуальности
+8

Маць твою, оно смотрит прямо на меня

Иллюстрация к комментарию
раскрыть ветку 1
+1
Начал рисовать и как-то само так получилось :-)
+3

Есть ещё один фактор. Всё это верно, если предполагать, что текст написан на идеальном языке оригинала. Желательно - шаблонными кусками.

На практике это не так. И почему-то в последнее время чем дальше, тем больше не так. Качество исходника катастрофически падает за последний год. Опечатки, ошибки, пропуски, просто кошмарный язык - ну-ка, поработайте с этим.

раскрыть ветку 17
0

Это мы говорим о русском исходнике?

раскрыть ветку 16
+4
Не знаю, о каком языке говорит товарищ Ohtar, но это очень актуально для английского - который вроде как международный, но над текстами на нем из разных стран можно голову сломать. Китайский английский, индийский английский, немецкий английский - хоть пиши по каждому учебник. Это касается технических текстов.
раскрыть ветку 2
+1
Конечно, об иностранном. Нет, это не оксюморон, а печальный факт. Документы даже от крупных корпораций написаны по качеству от "не очень хорошо" до "чудовищно", и их это не харит абсолютно.

Китайский английский, индийский английский, мексиканский английский - все сорта чего попало, как говорится.

Помню, при переводе с английского, заказчик выкатиил претензию, что мы ему не исправили название города где-то в глубинах Европы  - в Германии или ещё где, не помню точно, но адрес был не на английском, то есть даже технически - out of scope. Ну и что, что out of scope, ну и что, что не на английском, ну и что, что опечатка в исходнике - вы должны были исправить и не колышет.

раскрыть ветку 12
+4

Ура, лет через 5-10 на али больше не будет "Сумка лошадь пенис черный бархатная вульва высокие качество"

+2

Ключевой фактор - экономический. Спрос на переводы будет падать, потому что с течением времени в большем количестве случаев машинного перевода будет достаточно. Нишевые области для человеческих переводов конечно останутся, также как до сих пор существуют профессии кучер и извозчик. При этом никто не будет спорить, что транспортный рынок лошади потеряли и не вернут никогда. Переводчики уже сегодня чувствуют конкуренцию и давление, могу судить по нескольким своим знакомым. И дальше легче не будет. Поэтому идти на эту специальность сегодня - это не просто риск, а гигантский риск.

раскрыть ветку 10
+1
Если заглядывать в будущее, в котором будет сильный ИИ, то всё, вами сказанное, можно отнести к большинству профессий, в которых человек пока впереди. Например, исчезнут диагносты, 90% программистов (останутся архитекторы ПО, которые будут вводить в машинного программиста концепты и модели...) Куда же податься?

Что же касается настоящего, где сильного ИИ нет, то компьютер пока что и 10% возможностей переводчика-человека не задействует. Если человек сейчас не может выдержать конкуренции с машинным переводом (очень плохим, несмотря на все усилия его создателей), то ему и в наши дни делать в этой профессии нечего (вспоминается переводчица из "Осеннего марафона" с её "коза закричала нечеловеческим голосом"). А если какие-то хорошие переводчики нынче чувствуют конкуренцию - это из-за своих коллег, а не из-за роботов.

раскрыть ветку 9
0

Нужно понимать, что машинный перевод оказывает влияние разными способами. Приведу один пример: есть очень популярный вид деятельности - перепечатывать новости с иностранных ресурсов на русскоязычную аудиторию. Люди, которые это делают, - не 100% переводчики, их можно приписать к журналистам, авторам, блоггерам. Так или иначе они имеют доход, потому что знают иностранный язык и пишут более-менее без ошибок.


Так вот, уже несколько лет, как конкуренция на этом поле обострилась. Не потому что ИИ выиграл рынок у человека, а потому что его перевод достаточно хорош, чтобы на его основе можно было сваять текст на русском языке. Теперь это может делать почти каждый, с минимальным знанием языка. Журналисту же от этого не легче.


Это и есть состояние ИИ во многих областях - он дает "достаточно хороший" результат (или еще не дает, но вероятно будет давать в ближайшие пару лет). Как скоро он станет выдавать "первоклассный" результат? Не знаю, может через 5 лет, а может через 100. На спрос специалистов это влияет уже сейчас. Лично для меня это основание хорошенько подумать, прежде чем выбирать профессию из такой области.


Я кстати не понял, почему вы включили 90% программистов?

раскрыть ветку 8
+3

Перевод этой фразы «без понимания вообще» представляется невозможным. Человеку, который захочет ее перевести, надлежит изучать не синтаксис, а скорее феноменологистские журналы.
Не улавливаете тонкой иронии? Ваши утверждения о том чего не могут нейросети "без понимания вообще" как оно там работает под капотом - всего лишь голая фантазия.

Да переводчикам пока не стоит опасаться нейросетей, но не потому что это невыполнимая задача. Поиск семантики в предложениях, выделения фактов, наконец проверка правдивости этих фактов - задачи уже частично решенные и используемые передовыми it компаниями. И результат работы нейросетей уже давно вошли в нашу жизнь. Поисковая выдача гугла, семантический поиск, торговые оптимизации амазона, биржевые боты, наконец логистика - все это уже есть и мы этим пользуемся. Просто никто не задумывается а как оно под капотом, как работают обучающие выборки, как тренеруются нейросети, как работает отжиг, какие вариации бывают у нейросетей, при чем тут байес и т.д. Я не берусь вам это все описывать и рассказывать, это очень большой технический пласт информации.

Нейросети берут количественным фактором а не качественным. Просто вопрос цены и востребованности алгоритма который бы переводил качественно 99% текста, сейчас это не востребовано. Так же как к примеру не востребовано строить полностью автоматизированные заводы когда есть китайцы.

Так что советую прежде всего глубоко вникнуть в практическую составляющую нейронных сетей прежде чем делать броские заявления что что-то невозможно. Иначе рискуем опрометчиво повторить ошибки предшественников которые заявляли что машины никогда не заменят коней, что физика уже полностью изучена, что персональные компьютеры дома никому не будут нужны и т.д.

раскрыть ветку 3
+2
"машины никогда не заменят коней" - а вы точно пост читали? Подозреваю, что нет. Потому что в третьем же абзаце чётко сказано - сомнений в принципиальной возможности создания подобного переводчика у меня нет, это лишь вопрос времени и мощностей. А вы спорите непонятно с чем.

"Поисковая выдача гугла, семантический поиск, торговые оптимизации амазона, биржевые боты, наконец логистика" - а еще игра в го, воздушный бой, раскраска фотографий. Все это у меня упомянуто, после чего идут объяснения, почему хороший перевод машине пока что не по зубам. Вы почитайте пост-то.

Рассуждения по поводу "мы не знаем, как работает, главное - что работает" в посте тоже озвучены.

"Я не берусь вам это все описывать и рассказывать, это очень большой технический пласт информации" - я так и подумал, что вы знакомы с ИТ, но имеете отдаленное представление о переводе. В окончании поста будут изложены 7 категорий перевода, о которые может сломать зубы и переводчик-человек - хотя мы и не знаем, что у него там творится в голове, когда он переводит.

раскрыть ветку 2
+1

Кстати, насколько я понимаю, конструкцию узлов рассчитали не нейросетью, а обычным CAD. Да и не нужна там нейросеть, ведь достаточно математической модели. Такое можно было создать и раньше, хоть в 19 веке, но не было технологий печати такой неведомой херни. Да и сейчас это неприменимо к практике, только если в очень специфических местах и в единичных экземплярах. Промышленная штамповка простых деталей пока еще на порядок проще и дешевле 3d печати

раскрыть ветку 1
+2

Переводчиков нужно будет 5-10%, самых лучших так сказать

раскрыть ветку 1
0
И в конце нужно будет одного, лучшего из лучших.

так сказать

+1

Спасибо, очень хорошая статья для вдумчивого прочтения. Как раз недавно размышлял о будущем машинного перевода, и многие свои не до конца сформировавшиеся мысли нашёл у вас в готовом виде.

раскрыть ветку 6
0
У меня в постах еще продолжение есть, тоже рекомендую.
раскрыть ветку 5
0
Не нашел.
раскрыть ветку 4
+1

Перевод проходит через построение образа в голове и изложения его на 7языке перевода. Пока даже такую легкоту как перевод технического текста (ни идиом, ни диалектов, ни жаргонизмов и т. д) машины осилить не в состоянии.

+1

Вот ещё шикарная статья о проблемах машинного обучения на данный момент: https://habrahabr.ru/post/259191/

раскрыть ветку 1
0
Спасибо, хорошая статья. Вот ключевые моменты, которые в настоящее время в равной степени можно отнести и к тем проблемам машинного перевода, которые описаны в этом посте:

"Наши компьютерные алгоритмы не ищут концепты — они разгребают груду данных, распихивая их по кучкам, и каждая картинка в конце концов должна оказаться в какой-то кучке, с которой у нее чуть больше общего, чем с остальными".

"Все, что мы делаем — это пытаемся как можно точнее разбросать по категориям кучу картинок, при этом не понимая (я осознаю, что слово «понимать» тут опасно использовать, но), что на них изображено. Что-то должно быть по-другому... В общем, нам явно есть чем заняться".

+1

1) Переводчики получают мизер.

2) Чтобы получать больше надо переводить больше текстов.

3) Перевод большого количества текстов приводит к нехватки времени на осознание текста.

4) Перевод этих горе-переводчиков порой оказывается мало отличным от гугл перевода.


В последнее время гугл перевод с русского на английский или наоборот в большинстве случаев оказывается вполне читаем. Пока только хромает перевод с не-английского на не-английский, но недавно гугл ввела систему для прямых переводов, что со временем может улучшить перевод.

раскрыть ветку 5
+2
"4) Перевод этих горе-переводчиков порой оказывается мало отличным от гугл перевода" - потому что многие из них берут гуглоперевод, "редактируют" его (иногда внося удачные ухудшения) и выдают за, хм, "перевод". Я считаю, таких надо просто гнать из профессии, но мы же не на подобный "уровень" ориентируемся, а на уровень как минимум средней руки профессионала, про талантливых переводчиков я молчу.

"перевод с русского на английский или наоборот в большинстве случаев оказывается вполне читаем" - ну, он читаем только в том духе, что там нет чудовищного промтоязыка и более-менее согласован синтаксис. Тут да, прогресс за последние 10 лет есть. Но на этом уровне всё и остановилось. То есть с виду вроде гладко, копнешь глубже - мрак. Тут и нейросетей не надо, статистики хватает + доброхоты, которые вносят ручные корректировки. В остальном он даже школьников не устраивает с переводом простейших предложений из домашних работ, я уж молчу про то, чтобы брать его для перевода чего-то посерьёзнее.

раскрыть ветку 4
+2
В том то и дело, что когда проверяешь, действительно сами переводили, и гугл порой лучше переводит отдельнык части. Просто не понимают, что переводят, и желания/времени понимать нет. К счастью мне перевод не нужен.
раскрыть ветку 3
+1
По поводу 4 можно сказать что это фразеологизмы. Устойчивые словосочетания дающие тот или иной смысл. Подвести к этому в целом возможно даже используя иерархию снизу вверх. Достаточно просто добавить исключения. Так или иначе новые фразеологизмы будут устойчивы, так как будут пользоваться популярностью и их выборка точно так же может выбираться из массива данных.
Ну а по поводу 5 это может быть что угодно, по сути это является логическим завершением и отчасти тем же фразеологизмом. Даже прямой перевод в целом не испортит тот же перевод. Но как ответить на то что человек держит лифт каждый может по-разному, кто-то скажет "не-не", а кто-то "езжайте-езжайте" а кто-то "я живу на 2 этаже", как по мне это уже определяется непосредственно человеком и никак нельзя правильно перевести, вопрос лишь с каким контекстом это будет преподноситься, но тут уже должна учитываться интонация спрашивающего и отвечающего, а это уже совсем другая будущая история
раскрыть ветку 8
+1
Различным непереводимостям того или иного "уровня", в том числе и трудностям перевода фразеологизмов, имеющих, казалось бы, устойчивые аналогии, будет посвящено окончание поста :-)
раскрыть ветку 7
0
Разве я говорю о непереводимости?) я говорю о том что перевести подобное можно в целом, но вариации ответов будет слишком много и нужно вводить определённые параметры дабы максимально точно перевести со смыслом. Но идеала не будет, так же как и с человеческим переводчиком)
раскрыть ветку 6
0

Я так понимаю, проблема сводится к тому, что естественные языки вмещают в себя не все знания человека (поскольку лишь следуют синтаксическим правилам, а не пытаются стать заменой человеку в плане "смысла"). Как следствие, выстроить смысловые зависимости (на основе неполной явной информации) проблематично - из чего вы и делаете вывод о том, что компьютеру придётся постигать её самостоятельно, для чего потребуется интеллект, сопоставимый по "мощности" с человеческим.

А что по поводу WolframAlpla? Вроде как, там тоже занимались базами знаний.

раскрыть ветку 5
0

С WA - там же не машина базу составляла, так?

раскрыть ветку 4
0

Не знаю, не интересовался.

раскрыть ветку 3
0

ОК. Текст передает сообщение от пишущего к читающему. Смысл сообщения связан с контекстом. Читающий должен быть  знакомым с определенной областью знаний и соответствующим контекстом. Так и переводчики специализируются на отдельных тематических областях.
Из работ, явно формулирующих связь смысла текста с контекстом, можно упомянуть "Языковые парадоксы"и "ЧТО СКРЫВАЕТ ЯЗЫК?" Сергея Дацюка
А машинный перевод, в частности патентов, натренированный на отдельных областях техники, уже неплохо себя проявляет: https://patentscope.wipo.int/translate/translate.jsf?interfaceLanguage=ru

0
Как мы можем научить компьютер понимать смысл текста, когда мы до сих пор не понимаем, как это работает в мозгу у хомо сапиенса?
раскрыть ветку 2
0
Зерно истины в этом есть, но не все так просто, конечно. Создатели программы игры в го, победившей чемпионов, тоже не знают, как она работает, по большому счету. Тут сложности в другом.
раскрыть ветку 1
+1

Понимание текста на порядки, на десятки порядков сложнее Го. Ну и опять же, компьютер игрок просто перебирает варианты. Пусть задействуя иные алгоритмы, названные интуитивными, но все же. Пока нейронауки не продвинулись в понимании того, как мы понимаем речь, язык, как именно формируются связи. Без этого полноценный интеллект невозможен. Вероятно, мы сможем повторить интеллект червя, но не крысы.

0

Очень интересная статья! Согласен, что полностью заменить переводчиков компьютер не сможет пока не станет сильным ИИ. Но уже сейчас нейросети (тот же гугл переводчик) вполне могут подсказать крайне неожиданные, но очень интересные варианты перевода отдельных фраз! Я бы нейросети использовал как ценный инструмент, понятно, что они не могут осознать смысла, но те же самые строки тебе могут опосредованно навеять: тихая роща, прогулка вдоль моря на закате, бэд трип в конце концов. Здесь все то же самое, иногда стоит подправить одно слово, и - ай да Пушкин, ай да сукин сын!

раскрыть ветку 1
0
"вполне могут подсказать крайне неожиданные, но очень интересные варианты перевода отдельных фраз!" - а можете привести пару-тройку примеров? Интересно.
0

Хотелось бы всё же взнлянуть на перевод блатной фени. Хорошо бы ещё и наглядно сравнить машинный и человеческий. "Нувыпонели" – слабое обоснование аргумента.

раскрыть ветку 2
+1

Ну вот


машинный яндекс:

Наколи мне домик у ручья,

Пусть течет по-воле струйкой тонкою.

Чтобы от него портной судья

Не отгородил меня решеткою.


перевод

I pinned the house by the Creek

Let it flow-will stream fine.

To him the tailor, the judge

Don't tear me bars.


Обратно получается чушь

Я приперся в дом у ручья

Пусть это поток-поток будет в порядке.

Для него портной судья

Не оторвать меня бары.


Машинный гугл:

Give me a little house by the stream,

Let it flow in a trickle thin.

That from him tailor judge

He did not fence me with bars.


обратно:

Дай мне маленький домик у ручья,

Пусть он течет тонкой струйкой.

Это от него портной судья

Он не заборщил меня с барами.

раскрыть ветку 1
0
Короче, "Бары не рады, рыбы не гады" )
0

Закономерный вопрос. Вам не кажется, что помимо непосредственно улучшения нейронных сетей будут изменяться и методы анализа текста.  

раскрыть ветку 3
0

Проблема, которой как раз и посвящена большая часть поста - в том, что смысл текста в общем случае не выводится непосредственно из самого текста, как его ни анализируй. То есть тут дело не в тексте, а в контексте.

раскрыть ветку 2
-2

Когда вы книгу читаете, то контекст вам же ясен.

раскрыть ветку 1
0

2030 год... В чемпионате мира среди переводчиков победила машина! :D

0

Что мешает нейросетям, начитавшись всего объема человеческих знаний, самостоятельно прийти к искусственному интеллекту, и переводить всё идеально (и снабжая ехидными комментариями)?

раскрыть ветку 10
0
Потому что невозможно все постичь. Невозможно, не будучи носителем языка понимать идиомы и глубинный смысл.

Сашбаш:
Эх, налей посошок, да зашей мой мешок
На строку - по стежку, а на слова - по два шва.
И пусть сырая метель мелко вьет канитель
И пеньковую пряжу плетет в кружева.

Отпевайте немых! А я уж сам отпою.
А ты меня не щади - срежь ударом копья.
Но гляди - на груди повело полынью.
Расцарапав края, бьется в ране ладья.

Калинов мост:
Ледяной водой разбуди меня - время уходить
Зреет урожай
Батя, дай совет, опоясай в путь
Мать, не провожай
На семи ветрах кто тебе помог
Может кто помог
На семи холмах кто тебя согрел
Кто тебя любил не долюбил
раскрыть ветку 4
0

Вы пишете про невозможность идеального перевода вообще.

А я писал только про повторение машиной способностей человека.

раскрыть ветку 3
0
"переводить всё идеально" - это вряд ли вне зависимости от мощности нейросети, потому что есть ситуации, когда понятие "идеальный перевод" неприменимо в принципе из-за того самого отсутствия однозначного отображения (примеры - в следующем посте). Насчет "самостоятельно" - тоже сомневаюсь, потому что хотя бы на начальном этапе потребуется последовательная корректировка человеком, чтобы не получился "инопланетный язык", когда нейросеть придет к каким-то совершенно своим выводам. А в плане появления хорошего машинного переводчика - ничего принципиально невозможного, о чем я и написал в третьем абзаце (тут вопрос времени и мощностей). Но когда наступит такой момент, проблема трудоустройства переводчиков будет едва ли не последним, что будет нас волновать :-)
раскрыть ветку 4
0

Уже сейчас существую системы учитывающие контекст даже не всего текста, а в текущем месте, чтобы понять неоднозначности. Не удивлюсь, что через некоторое время подобные систему смогут задавать даже наводящие вопросы в непонятных местах.

0
Все ваши "проблемы" решаются просто - естественный отбор
раскрыть ветку 2
-2

Кое что не понравилось в

«обработанные нейросетью» оптимизированные по расходу материала конструктивные узлы, выглядящие как инопланетные конструкции.

во-первых, вместо слова "инопланетные" лучше использовать "чужеродные".
во-вторых, учитывая что нейросети - детище человека, и что человеку свойственно ошибаться, не могу отбросить факт, что "такая чужеродность" конструкции - следствие какого-нибудь несовершенства нейросети.
раскрыть ветку 7
+1
"во-первых, вместо слова "инопланетные" лучше использовать "чужеродные" - а мне нравится слово "инопланетные". Потому что для меня они выглядят как инопланетные. А для кого-то выглядят еще как-то.

"такая чужеродность" конструкции - следствие какого-нибудь несовершенства нейросети" - такая "чужеродность" - следствие того, что при их создании машина не была скована какими-либо ограничениями, кроме оптимизации по определенному параметру.

раскрыть ветку 6
0

Автор, ну бионический дизайн и топологическая оптимизация то как к переводу относятся? Это же просто картинка из интернета.

раскрыть ветку 5
-5

Согласен - заменить переводчиков и выиграть человека в го машины не способны.

раскрыть ветку 4
0
В го уже выигрывают, хотя и не на уровне высших данов. Но перевод всё же принципиально отличается от го, а почему - этому как раз и посвящена статья.
раскрыть ветку 3
+4

У вас устаревшая инфа, недавно победили сильнейшего игрока в го.

https://meduza.io/news/2017/05/27/programma-alphago-razgromi...

раскрыть ветку 2
-8

Потому, что переводчики переводят надмозгом, а машины правильно.

ещё комментарии
Похожие посты
Возможно, вас заинтересуют другие посты по тегам: