83

Машинное обучение или учим компьютер понимать нашу речь

Всем привет! Продолжаю посты про машинное обучение. Этот пост будет посвящён компьютерной лингвистике. Сразу оговорюсь: я не занимался задачами, в которых стоит задача работы со звуками. Например, вы говорите:"Окей, гугл. А что тое изобние янда Алиса?", а компьютер показывает вам результаты по выдаче "А что такое изобретение Яндекса Алиса". То есть, компьютер записал вашу речь и затем восстановил её. Там свой пласт задач и алгоритмов (например, основанных на Витерби).


Вообще, задача понимания текста очень актуальна. Всем желающим причаститься к проблемам: раз, два и будущая Алиса от сбербанка (ага, программисты им не нужны. Ну да, отдадим на аутсорс). Мы с вами будем заниматься несколько другой задачей. Давайте представим себе следующий отзыв с кинопоиска:

"Последние Пираты ну просто редкостное дерьмо. Сюжета никакого нету, всё высосано из пальца. Только Депочка и Джефри Раш тащут. За них и поставлю такой балл. Нет, честно. Хотя я и люблю пиратскую тематику, но смотреть фильм невозможно. Ну, ещё спецэффекты ничего. Итого, 4 из 10"

В мои задачи входило:

1. Самая простая задача. Понять, а какова эмоциональная окраска текста? Ну, здесь довольно очевидно. Явно отрицательная.

2. Немного усложним задачу. А вообще о чём пишет пользователь? Какова тематика отзыва?

3. А теперь совсем сделаем  сложной задачу: надо понять что именно не понравилось пользователю.

4. Ну, и задача в моей кандидатской была на основании того, что пользователю нравится и на что он обращает внимание порекомендовать кино. (про рекомендательные системы напишу попозже).


Сразу же перед нами встаёт техническая задача. А как построить матмодель для задачи? Ну, или как представлять слова в компьютере? Существует два подхода.  Классический (bag-of-words) и современный (word2vec). Рассмотрим первый подход (последний более сложный)

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

Bag-of-words.

Классика же. Давайте представим, что у нас ограниченный язык и состоит из следующих слов: "я", "люблю", "кофе","утром", "чай","с", "лимон", "ненавижу". Давайте пронумеруем подряд все эти слова от 0 до 7. Будем представлять, что у нас каждое предложение это вектор. На i-ой позиции, которая символизирует соответствующее слово, может стоять или 0 (слово из языка не встречается), или 1 (наоборот). Например, предложение "Я люблю кофе" будет выглядеть :(1,1,1,0,0,0,0,0,0). А предложение:"Я люблю утром чай с лимоном" будет выглядеть "1,1,0,1,1,1,1,0". Когда мы разобрались уже с представлением текста, давайте попробуем приспособить нашу модель, для анализа тональности текста. Пусть теперь если слово имеет положительный окрас, оно будет иметь оценку 1, а если негативную, то -1. Остальные слова имеют 0 оценку. Рассмотрим предложение:"Я ненавижу кофе утром". Оно будет иметь вид:"0,0,0,0,0,0,0,-1". Что делать дальше?


А дальше можно делать разное, но лучше всего тупо взять и просуммировать. То есть, если выражаться научным языком у нас будет линейный классификатор.  Картинка будет выглядеть примерно следующим образом:

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

Да-да, я взял картинку персептрона (нейросети. По ним будет отдельный разговор), но сути это не меняет. На вход подаётся вектор, каждой координате вектора присваивается определённый вес, затем каждая координата умножается на этот вес и всё суммируется. По сути я расписал здесь работу в S. Но тогда (до 2014) использовался активно SVM. Что это за зверь?

SVM

Предположим, у нас есть двумерное пространство. Два измерения: Х и У. Есть выборка. Любой элемент из выборки может быть или звёздочкой (класс 1), или кружавчиком (класс 2). Мы взяли и нарисовали это на двумерной плоскости. Получили примерно следующую картинку.

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

Теперь мы хотим определить алгоритм, который позволит новые элементы отнести или к кружкам, или к звёздочкам. На картинке это красная линия. Любой элемент, который будет левее этой линии будет отнесён к звёздочкам, а правее ко кружкам. Как построить эту линию? Надо будет решить оптимизацию по максимизации/минимизации margin (вообще-то в литературе принято именно такое название. На рисунке это почему-то называется gap). Говоря простым языком, разделяющая гиперплоскость  (красная линия) должна проходить по cередине между двумя классами. (Желающим понять как решается математически эта задача - размещу ссылку в конце). Ясное дело, что такую прямую не всегда можно построить. Множества объектов, где можно построить такую прямую называются линейно-разделимыми.

Ещё у линейных алгоритмов есть одно замечательное свойство/особенность, которое ярко проявляется в задачах лингвистики. В задачах анализа текста мы имеем дело с векторами с ОЧЕНЬ большой размерностью. А есть теорема, которая гласит, что для ЛЮБОГО множества  можно подобрать пространство, где оно будет линейно разделимо.

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

На левой картинке множество в двумерном пространстве не является линейно-разделимым. Но если мы выйдем в трёхмерное пространство, то всё будет ок! А теперь, у нас итак дофигамерное пространство. Там скорее всего и так будет всё линейно разделимо.

На практике используют всё-таки модификации алгоритма. Добавляют специальные функции: ядра, которые служат чтобы повысить размерность задачи и всё было разделимо. Это отдельный такой тонкий момент, не будем его касаться в данном посту. (Желающим узнать больше первая ссылка)

"Так как же это всё применить к нашей задаче?"- наверняка спросите вы. А я отвечу. Давайте возьмём линейный классификатор SVM в качестве алгоритма. Составим огроменные вектора (обычное дело, когда там 10 000 координат), где i-ая координата вектора будет слово алфавита. Затем, возьмём отзыв который мы хотим классифицировать. Закодируем и подадим на вход нашему алгоритму и получим ответ. А как вы думаете, такой способ кодировки - он нормальный? В ранних работах по анализу тональности текста с бинарной классификацией (нравится/не нравится), такой "тупой" и "примитивный" подход давал вполне неплохой результат. Насколько я помню, где-то 70-80%. Что казалось круто. Кстати, а в чём же всё-таки минусы такой кодировки? Кодировки bag-of-words и последующего применения SVM?

Минусы:

1. Теряется информация о предложении. Зачастую довольно важная.

2. Всё сваливается в одну кучу и невозможно понять, а о чём собственно отзыв?

3. Теряются связи в предложении.


А самое главное. А что будет, когда пользователь начнёт в своём отзыве пересказывать сюжет? А там запросто может быть что-то ругательное, но не относящееся к мнению пользователя. Или наоборот, "Добрый принц поскакал героически спасать прекрасную принцессу. Имхо, сюжет говно". Гляньте, сколько положительных слов в первом предложении! И сильных эмоционально. Но мнение пользователя в реальности отражает только второе предложение и оно ключевое. Как это понять?


В середине нулевых была работа, которая призывала тренировать SVM на отзывах, которые были малость причёсаны вручную. Были выделены отдельно фразы, которые отражают мнение пользователя, а отдельно общие фразы типа насчёт сюжета. Такой подход дал неплохой прирост. Где-то 80%-85% точности. Идея хорошая. Но можно улучшить. А что если применить ещё метрику tf.idf для анализа текста? Была использована следующая модификация.

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

где:

Vt,d — вес слова t в документе d

Сt,d — кол-во раз слово t встречается в документе d

|P| — кол-во документов с положительной тональностью

|N| — кол-во документов с отрицательной тональностью

Pt — кол-во положительных документов, где встречается слово t

Nt — кол-во отрицательных документов, где встречается слово t

Затем в bag-of-words вместо +-1 ставилась эта оценка.


Результаты работы, где была введена эта метрика:

Машинное обучение или учим компьютер понимать нашу речь Обзор, Наука, Лингвистика, Искусственный интеллект, Длиннопост

Круто, что сказать. Вообще, здесь можно говорить много, поэтому вместо итога расскажу немного о своей роли в мировой науке (2014 год). Я поставил вопрос: а на каких отзывах считать delta tf.idf? На больших текстах или небольших "а ля твиты"? Ну, у меня получилось, что лучше твиты. Тетсировал я, дай Бог памяти, на 100 000 отзывах. Также там попинал одного греческого учёного за неаккуратное ведение исследований. Статью у меня приняли в скопус на английском, но, если честно, я её стыжусь. Да, я сделал исследование и сделал его сам, но это херь по своей значимости (хотя, чего таить, было приятно. Что я магистр и в скопусе). Тем более, что в том же году Томас Миколов триумфально ввёл в обиход компьютерной лингвистики рекуррентные нейросети...


Честно говоря,  и так получился огромный пост. Если будет интересно, в следующем посту немного расскажу или о нейросетях и word2vec, или о рекомендательных системах и их симбиозе с анализом тональности текста. Ну, или про шахматные программы.


Ссылки:

1. SVM: http://www.ccas.ru/voron/download/SVM.pdf

2. Учёные, которые догадались использовать машинное обучение для сентимент-анализа. Их статья, где они придумали использовать субъективные фразы. http://www.cs.cornell.edu/home/llee/papers/cutsent.pdf

3. Учёные, которые придумали использовать delta td.ifd. http://ebiquity.umbc.edu/_file_directory_/papers/446.pdf

Дубликаты не найдены

+5

Не совсем понимаю, как компьютер может справиться с такой задачей, ведь тот же отзыв можно полностью написать через отрицание, в результате он будет полностью состоять из хвалебных слов, будучи резко негативным. Поймёт ли этот финт нейросеть?

раскрыть ветку 3
+1
В машинном обучении все всегда очень сильно зависит от данных, на которых тренируется модель.

Соответственно, если в обучающей выборке не было примеров отзывов с отрицаниями, у сетки вряд ли будет шанс этому научиться.
раскрыть ветку 1
0

Таки да. Вообще было две тенденции до 2014 - одна от товарищей Ponga, а другая от его конкурентов. Его конкуренты использовали разные лингвистические приколы. Обязательно во вторник расскажу.

+1

А есть и такое. В следующем посте про машинное обучение (во вторник запилю) расскажу подробнее, что я читал/видел в таких случаях.

+3
Ну, не стоит расстраиваться, сравнивая себя с Томасом, человек в этой области уже не первый десяток лет.
Всегда забавляло, что даже сейчас, в 2017, большое количество работ наси... используют наивного байеса, поддерживающие вектора с сентинетом. Когда результаты всяких двунаправленных лстм, древообразных, древообразных со случайными полями уже ведут со значительным отрывом. И ведь ладно когда лингвистику какую продумывают или предобработку, так и просто по алгоритмам.
раскрыть ветку 1
0
Согласен, сейчас действительно странно такое видеть. Я на днях заглянул в h2o и там уже можно word2vec спокойно юзать. Помолчу уж о питоне
+1

Всем сорри, кто ждал сегодня вторую часть - на работе аврал, вторую часть опубликую в четверг (если успею привести в более-менее читабельный вид, то завтра). В посте будут рассмотрены всякие игры с препроцессингом текста, альтернативный подход и пара тулз, которые могут быть полезны.

+1

Так блять стоп, тут поподробнее. я хотел такую штуку уже 4 года сделать, но был уверен что это слишком сложно для рядового разработчика (личинки скорее). А тут целый пост, спасибо большое почитаю)

Upd блин кажется я поторопился( я то хочу управление голосом запилить, а тут немного другое.

раскрыть ветку 4
0
Управление голосом, как я понимаю, должно состоять из двух частей. Одна часть пытается разобрать, что сказал пользователь, а другая выполняет. Честно говоря, я знаю только алгоритм Витерби для обработки звука, но, если хотите могу за пару недель посмотреть , что там наука говорит и запилить потом пост
раскрыть ветку 3
0

Ну да, я так же себе это представляю, сложнее всего, мне кажется, написать распознователь, дальше - дело техники. Пост об этом было бы очень круто, только если вам не сложно.

P. S. Артас крут.

раскрыть ветку 2
+1
У тебя, только что появился ещё подписчик
раскрыть ветку 3
+1

Спасибо! Во вторник продолжу ещё про bag of words рассказывать, а затем скорее про рекомендательные системы и свой диссер напишу ( мне работу предложили по рекомендательным системам - заодно вспомню)

раскрыть ветку 2
+1

Буду ждать , очень интересно.

0
Неистово плюсую! Ждём!
+1

Любопытный пост, давно хотел поэкспериментировать с нейросетями. В общем жду продолжения.

+1

Интересно, но на ночь глядя о науке читать непросто

раскрыть ветку 1
+1
Да я хотел днем его запилить, но меня дома не будет весь день, а с телефона у меня глючит
0

Problem ждет новых подходов. Я тут собирал свежие статьи с различными принципиальными подходами к машинному переводу. Пока вот еще не оформил в чтиво.

0

работал с такими прогами, самая адекватная была из тех, которую приходилось настраивать пару часов под свою речь, там произношение и т.д

0

Здравствуйте! А можно почитать вашу диссертацию по данной теме, очень интересно

раскрыть ветку 10
0
Вечер добрый! Неа:
1. Я ушёл из аспирантуры по факту в 2015 году, сразу же как сдал минимум по философии и английскому.
2. Я стал активно работать по программистской тематике и была куча событий в моей жизни, и я забил на попытки вернуться в аспу (особенно после того, как я в нижнем попробовал поступить в политех и мне сказали цену...)
3. По работе, если мне случалось заниматься наукоемким (грант, есть упоминания в моих постах, хакатоны в нижнем), то я этим уже не занимался(работой с речью).
4. На вскидку, что я помню, то там только были попытки подружить инфу с кинопоиска (на питоне сграбил, потом при помощи Тамита парсера разбил, стал строить Lde модели и ещё какую-то штуку) с рекомендационной моделью.

Если ввас просто интересует работа с текстом, то я бы рекомендовал погуглить сбербанковские хакатоны, у них всегда один трек минимум был посвящён работе с текстом. Ну а также работы Миколова, где был введён word2vec. Если в шаде в этом семестре будет курс по работе с текстом, то может ещё чего нить посоветую.
раскрыть ветку 9
0

Спасибо за ответ! Меня интересуют работы именно по тональности текста, так как тема дипломной работы связана с изучением и сравнением программ, которые используются для определения тональности. Не могли бы Вы, пожалуйста, посоветовать что-нибудь по данной тематике?

раскрыть ветку 8
0

Ещё вопрос: как думаете, почему точность определения негативных комментов выше?

0

Добрый день! Скажите, а почему именно кинорецензии часто выбирают в качестве материала исследования?

раскрыть ветку 4
0

Добрый вечер!

Я думаю, что кинорецензии очень легко раздобыть размеченными. Они обычно не содержат каких-либо наворотов в лексике и активно пополняются. Также они достаточно структурированы - пользователь явно выражает, что нравится, а что нет.

раскрыть ветку 3
0

Добрый день! Но ведь то же самое можно сказать и о любых других отзывах, например, те же датасеты Yelp, amazon, которые тоже уже размечены и там пользователи выражают мнения довольно явно. И потом, какой в этом смысл, когда у всех отзывов, как правило, есть рейтинг, который сами же пользователи ставят в виде звёздочек или числового значения( 5/10, к примеру). Для чего их анализировать?

раскрыть ветку 2
0
А, вот зачем эти странные н-мерные пространства. Круто.
-2

мой кот не желает причащаться  к таким проблемам. а если учесть, что его семейство выживает уже больше двадцати миллионов лет, я пожалуй даже не буду осмысливать эту хуету

раскрыть ветку 2
+12

Берите пример с моего кота. Когда я программирую, он сидит у меня на коленях и смотрит в монитор!

раскрыть ветку 1
+4

сидеть и смотреть. именно этому я у них и учусь

Похожие посты
136

Магия против науки — сравнение книг о Гарри Поттере и диссертаций

Продолжаем анализировать русский язык при помощи математики! Предыдущие посты:

1. Частота букв в русском языке

2. Лев Толстой против Пикабу — статистика русского языка


В комментариях под прошлым постом предложили сравнить очень интересный материал — магистерскую и докторскую диссертации, написанные на одной кафедре. Этим мы сегодня и займёмся! А чтобы читать пост было интересно всем, сравним их с первой и последней книгами из серии о Гарри Поттере


Волшебник из книг Джоан Роулинг рос вместе с нами. Первая книга «Гарри Поттер и философский камень» написана простым языком, понятным и детям. В последней книге серии — «Гарри Поттер и дары смерти» герои взрослее, а проблемы серьёзнее

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

В науке исследования, как правило, ведутся в узком направлении. Но каждая работа должна быть уникальной, а магистерская и докторская диссертации отличаются по сложности. Итак, что по вашему мнению будет больше похоже: первая и последняя книги о Гарри Поттере или магистерская и докторская диссертации, написанные на одной кафедре? Ставки приняты, начнём анализ!


Тексты о волшебстве

Начнём с анализа книг о Гарри Поттере. Сперва, по традиции, посмотрим на топ 15 самых частых слов в книгах:

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост
Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Да уж, нет никаких сомнений в том, кто главный герой серии. Забавно, что Гермиона обогнала Рона по частоте упоминаний в последней книге, хотя в первой уступала даже Хагриду. А ещё в серии неожиданно часто встречаются руки


Кстати, в этот раз я улучшил предобработку: теперь стоп-слова, наподобие частиц и предлогов, выбрасываются из текста, а остальные слова приводятся к одинаковой форме. Например, и «ответил», и «ответила» превращаются в «ответить», а «Рона», «Рону» и «Рон» считаются как одно слово. Это называется лемматизацией


Это делается автоматически и иногда приводит к казусам. Например «Малфой» превратился в слово «Малфа», а «Снегг» в «Снегга». Любители фанфиков, наверняка, останутся довольны


Вот визуализация топ 150 слов в текстах. Чем больше слово, тем чаще оно упоминается в книге:

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост
Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

В первой книге очень много имён, ведь она знакомит нас с новым миром. В последней речь больше идёт о главных героях и их действиях


Тексты о науке

Для анализа использовались две работы с кафедры электротехнологий, электрооборудования и автоматизированных производств Чувашского Государственного Университета. Большое спасибо за этот материал Фёдору Иванову (@fedor0804)


1. Магистерская диссертация «Индукционная установка для сквозного нагрева заготовок» Фёдора Иванова

2. Докторская диссертация «Исследование особенностей характеристик электротехнологических дуг в дуговых печах» Дениса Михадарова


Топ слов, конечно, совсем не похож на книги о Гарри Поттере. Главные герои здесь индуктор и дуга, а в тексте часто встречаются числа и специальные символы. Их, к сожалению, не удалось правильно обработать и на графиках они выглядят как прямоугольники. Скорее всего, это греческие буквы, например, β

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост
Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Сравнение магии и науки


Итак, у нас есть 4 огромных текста. Как понять, насколько они похожи друг на друга? Для этого можно посчитать косинус угла между текстами или даже сам угол. Давайте разберёмся, как это работает


Представим два текста поменьше: по одному предложению в каждом. Первый текст — «Еле-еле ели». Второй текст совсем лаконичный — из одного слова «Едим». После лемматизации у нас будут уже такие тексты:

1. еле еле есть

2. есть


Теперь подсчитаем количество слов в них:

1. «еле»: 2, «есть»: 1

2. «еле»: 0, «есть»: 1


Мы можем нарисовать простой график, где по одной оси будет отложено количество слова «еле» в тексте, а по другой — количество слова «есть». Изобразим наши предложения на этом графике

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Теперь не проблема посчитать угол между текстами! Можно, конечно, взять транспортир. Но для того, чтобы решить эту задачу для текстов с тысячами слов, это не поможет. Если конечно, вы не живёте в тысячемерном мире и у вас полно тысячемерных транспортиров


Мы представили тексты в виде векторов. В школе вы считали скалярное произведение между векторами и находили через него угол. Здесь можно сделать то же самое — и неважно, сколько всего уникальных слов в текстах – два или тысячи. Для текстов из примера — косинус будет равен примерно 0.44, а угол — 63 градуса


Чем меньше угол между текстами, тем больше они похожи. Если же угол равен 90 градусам, то тексты перпендикулярны — совсем разные. Например, такой угол был бы между текстами на русском и китайском языках — у них нет общих слов. Надеюсь, вы только что стали немного умнее :)

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Вернёмся к нашим текстам. Больше всего оказались похожи книги о Гарри Поттере. Угол между ними — всего 26 градусов

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Между магистерской диссертацией и книгами о Гарри Поттере оба угла составили 87 градусов. Эти тексты очень разные. Ещё менее похожими на книги Джоан Роулинг оказалась докторская диссертация — у неё получился угол 88 градусов с первой книгой и 89 градусов с седьмой


Что забавно, научные работы тоже оказались довольно разными. Угол между диссертациями — целый 71 градус


Так что, последняя книга о Мальчике, который выжил — почти то же самое, что и первая, но немного под другим углом. А читая научные работы, даже с одной кафедры, вы каждый раз изучаете новый труд

Магия против науки — сравнение книг о Гарри Поттере и диссертаций Наука, Научпоп, Статистика, Гарри Поттер, Русский язык, Лингвистика, Инфографика, Математика, Человек наук, Длиннопост

Заглядывайте в комментарии – там есть небольшой бонус. Пишите, анализ, каких текстов вам ещё бы хотелось увидеть


Моя группа ВК и телеграм-канал

Показать полностью 10
207

Как люди обрели язык: одна из главных в мире загадок

Язык — один из главных признаков, выделяющих человека из животного мира. Нельзя сказать, что животные не умеют общаться друг с другом. Однако столь высокоразвитая, управляемая волей система звуковой коммуникации сформировалась только у Homo sapiens. Как же мы стали обладателями этого уникального дара?


Загадка происхождения языка по праву занимает свое место в ряду главных тайн бытия: рождения Вселенной, возникновения жизни, появления эукариотической клетки, обретения разума. Происхождение языка не было одномоментным и скачкообразным. Ведь у млекопитающих всех детей рожают и растят мамы, и для успешного выращивания потомства матери и детеныши — в каждом поколении — должны достаточно хорошо понимать друг друга. Поэтому такой точки во времени, до которой предки человека не умели говорить, а после которой сразу заговорили, конечно же, не существует.


Мозг, а не кости


Происхождение языка было частью адаптации древних представителей нашей эволюционной линии в том направлении, которое вообще характерно для приматов. А характерно для них не отращивание клыков, когтей или четырехкамерного желудка, а развитие мозга. Очень важно и то, что приматы — животные групповые. Чтобы им успешно воспроизводить свою численность, чтобы их потомство не только рождалось, но и доживало до какого-то приличного возраста и само достигало репродуктивного успеха, нужны усилия всей группы, нужна общность, пронизанная множеством социальных связей. Чем дольше детство, тем больше требований к сплоченности группы — а значит, и к развитию средств коммуникации.


Существует гипотеза, согласно которой разделение общих предков человека и современных человекообразных обезьян шло по средам обитания. Пращуры горилл и шимпанзе остались в тропических джунглях, а наши предки вынуждены были адаптироваться к жизни сначала в редколесье, а потом и в саванне, где весьма велики сезонные различия и всеядному существу имеет смысл ориентироваться в огромном количестве деталей окружающей действительности. В такой ситуации отбор начинает благоприятствовать тем группам, у членов которых возникает потребность не только подмечать, но и комментировать увиденное с помощью тех или иных сигналов. С этой страстью к комментированию люди не расстались и по сей день.


Реагировать звуками на какие-то окружающие явления умеет не только человек: у многих видов животных есть, например, пищевые крики, крики на разные типы опасности. А вот развить такие средства, с помощью которых можно было бы комментировать вообще все что угодно, навешивать словесные «ярлычки» на реальность в бесконечном количестве (в том числе изобретать новые в пределах собственной жизни), — это удалось только людям. Удалось потому, что в выигрыше оказывались группы, у которых эти комментарии были более выраженными и более детальными.


Всхрюкнул от досады


Переход к звуковой коммуникации мог начаться с того времени, когда наши предки стали регулярно изготавливать каменные орудия. Ведь пока человек делает орудия или делает что-то этими орудиями, он не может коммуницировать с помощью жестов, как шимпанзе. У шимпанзе звуки неподконтрольны воле, а жесты подконтрольны, и когда они хотят что-то сообщить, то входят в поле зрения «собеседника» и жестами или иными действиями подают ему сигнал. А что делать, если руки заняты?

Первоначально никто из древних гоминид и не думал, чтобы в этой ситуации что-то «сказать» сородичу. Но даже если у него непроизвольно вырвется какой-нибудь звук, велика вероятность, что сообразительный сородич просто по интонации сможет догадаться, в чем там проблема у ближнего. Точно так же, когда человеку с разными интонациями называют его имя, он уже зачастую прекрасно понимает, с чем к нему обратятся — с упреком, похвалой или просьбой. А ведь ему еще ничего не сообщили. Если эволюционный выигрыш будут получать те группы, члены которых понимают лучше, отбор будет поощрять все более тонкие различия в сигнале — чтобы было что понимать. А подконтрольность воле придет со временем.


Развиваем аппарат


Для того чтобы лучше понимать (а потом и произносить), нужны мозги. Развитие мозга у гоминид видно по так называемым эндокранам (слепкам внутренней поверхности черепа). Мозг становится все больше (а значит, увеличиваются возможности памяти), в частности, растут те его участки, на которых у нас расположены «зоны речи» (зона Брока и зона Вернике), а еще — лобные доли, занятые высшими формами мышления.


У непосредственного предка человека нашего вида — Homo heidelbergensis — был уже весьма приличный комплекс приспособлений к артикулированной звучащей речи. Видимо, они уже могли довольно хорошо управлять своими звуковыми сигналами. Кстати, с гейдельбергским человеком палеоантропологам очень повезло. В Испании, на территории муниципалитета Атапуэрка была обнаружена расщелина, где тела древних гоминид оказались недоступны хищникам, и останки дошли до нас в прекрасной сохранности. Уцелели даже слуховые косточки (молоточек, наковаленка и стремечко), что позволило сделать выводы о слуховых возможностях наших предков. Оказалось, что гейдельбергские люди могли лучше, чем современные шимпанзе, слышать на тех частотах, где работают признаки звуков, которые достигаются артикуляцией.

Игра на диафрагме

Артикулярованная звучащая речь — дело непростое, потому что разные звуки по природе своей разной громкости. То есть если через ротовую полость при разной артикуляции прогонять один и тот же звуковой поток, то звук «а» будет самым громким, а, например, «и» — гораздо тише. Но если с этим смириться, то получится, что громкие звуки типа «а» начнут глушить другие, не столь громкие звуки по соседству. Поэтому наша диафрагма, делая удивительные тонкие движения типа вдоха на выдохе, аккуратно «выправляет» наш звуковой поток, чтобы громкие звуки были не слишком громкими, а тихие не слишком тихими.

Более того, воздух на голосовые связки подается порциями, слогами. И нам не надо между слогами непременно делать вдох. Каждый отдельный слог мы можем совместить с другими слогами, и придать этим слогам различия — как друг относительно друга, так и внутри слога. Все это тоже делает диафрагма, но для того чтобы мозг мог столь виртуозно управлять этим органом, человек получил широкий позвоночный канал: мозгу понадобился, как мы сейчас говорим, широкополосной доступ в виде большего количества нервных связей.

Вообще, с развитием звуковой коммуникации физиологический аппарат речи существенно усовершенствовался. У людей уменьшились челюсти — они теперь не так выступают вперед, а гортань, напротив, опустилась. В результате этих изменений у нас длина ротовой полости примерно равна длине глотки, соответственно, язык получает большую подвижность как по горизонтали, так и по вертикали. Таким образом, можно производить много разнообразных гласных и согласных.


И, разумеется, значительное развитие получил сам мозг. Ведь если мы обладаем развитым языком, то нужно где-то хранить такое большое количество звуковых обликов слов (а когда — значительно позже — появляются языки письменные, то и письменных тоже). Куда-то нужно записать колоссальное количество программ порождения языковых текстов: ведь мы не говорим теми же самыми фразами, что слышали в детстве, а постоянно рождаем новые. Мозг также должен включать в себя аппарат для генерации выводов из полученной информации. Потому что если выдать много информации тому, кто не может делать выводы, то зачем она ему? И за это отвечают лобные доли, в особенности то, что называется префронтальной корой.


Из всего вышесказанного можно заключить, что происхождение языка было эволюционно длительным процессом, начавшимся задолго до появления человека современного вида.


Молчащие глубины времени


Можем ли мы сегодня представить себе, каким был тот первый язык, на котором заговорили наши далекие предки, опираясь на материал живых и оставивших письменные свидетельства мертвых языков? Если учесть, что история языка насчитывает более сотни тысяч лет, а самые древние письменные памятники — около 5000 лет, то ясно, что экскурс к самым корням представляется крайне сложной, почти неразрешимой задачей. Мы до сих пор не знаем, было ли происхождение языка уникальным явлением или разные древние люди изобретали язык несколько раз. И хотя сегодня многие исследователи склонны считать, что все известные нам языки восходят к одному корню, вполне может оказаться, что этот общий предок всех наречий Земли был лишь одним из нескольких, просто остальные оказались менее удачливыми и не оставили дошедшего до наших дней потомства.


От праязыка к прапраязыку


Но вместе с тем движение к истокам в русле сравнительно-исторического языкознания идет. Этот прогресс мы наблюдаем благодаря методам реконструкции языков, от которых не осталось ни единого написанного слова. Сейчас уже ни у кого не вызывает сомнений существование индоевропейской семьи языков, заключающей в себе произошедшие из одного корня славянскую, германскую, романскую, индо-иранскую и некоторые другие живые и вымершие ветви языков. Праиндоевропейский язык существовал примерно 6−7 тысяч лет назад, но лингвистам удалось до определенной степени реконструировать его лексический состав и грамматику. 6000 лет — это время, сопоставимое с существованием цивилизации, но это очень мало в сравнении с историей человеческой речи. Можно ли двигаться дальше? Да, можно, и вполне убедительные попытки воссоздания еще более ранних языков предпринимаются компаративистами разных стран, в особенности России, где существует научная традиция реконструкции так называемого ностратического праязыка.


А что если это случайность?


Остается лишь вопрос верификации получаемых результатов. Не являются ли все эти реконструкции слишком гипотетическими? Ведь речь идет уже о масштабе более десятка тысяч лет, и языки, лежащие в основе макросемей, пытаются изучать не на базе известных языков, а на основе других, также реконструированных. Главным доказательством родства языков являются регулярные звуковые соответствия в области наиболее устойчивой (так называемой базисной) лексики. При взгляде на близкородственный язык типа украинского или польского такие соответствия легко увидит даже неспециалист, и даже не только в базисной лексике. Родство русского и английского, относящихся к ветвям индоевропейского древа, которые разделились около 6000 лет назад, уже неочевидно и требует научных обоснований: те слова, которые звучат похоже, скорее всего, окажутся случайными совпадениями или заимствованиями. Но если посмотреть внимательнее, можно заметить, например, что английскому th в русском всегда соответствует «т»: mother — мать, brother — брат, устаревшее thou — ты…


У русского с японским нет, казалось бы, совсем ничего общего. Кому может прийти в голову, что русский глагол «быть» и японский «иру» («быть» в применении к живому существу) являются родственными словами? Однако в реконструированном праиндоевропейском за смысл «быть» отвечает, в частности, корень «бхуу-" (с долгим «у»), а в праалтайском (предке тюркских, монгольских, тунгусо-манчжурских, а также корейского и японского языков) это же значение отводится корню «буи-". Эти два корня уже очень похожи (особенно если учесть, что праиндоевропейским звонким придыхательным всегда соответствуют алтайские звонкие, а сочетания типа «уи» были в праиндоевропейском невозможны). Таким образом, мы видим, что за тысячелетия раздельного развития слова с одинаковым корнем изменились до неузнаваемости. Поэтому в качестве доказательства возможного родства отдаленно родственных языков компаративисты ищут не буквальные совпадения (они как раз, скорее всего, укажут на заимствование, а не на родство), а устойчиво повторяющиеся звуковые соответствия у корней со схожим значением. Например, если в одном языке звук «т» всегда соответствует звуку «к», а «х» всегда соответствует «с», то это серьезный аргумент в пользу того, что мы имеем дело с родственными языками и что на их основе можно попытаться реконструировать язык-предок. И сопоставлять надо не современные языки, а хорошо реконструированные праязыки — они меньше успели измениться.


Единственное, что можно использовать в качестве контраргумента против гипотезы о родстве данных языков, это предположение о случайном характере выявленных параллелей. Однако для оценки такой вероятности существуют математические методы, и при накоплении достаточного материала гипотезу о случайном появлении параллелей можно легко отвергнуть.


Олег Макаров Светлана Бурлак

Статья «Заговорит ли история речи» опубликована в журнале «Популярная механика» (№12, Декабрь 2012).

https://www.popmech.ru/science/13261-kak-lyudi-obreli-yazyk/
Показать полностью
76

Владимир Алпатов - Как взаимосвязаны язык и культура?

Действительно ли язык – зеркало культуры? Насколько сильна связь языка, культуры и истории народа? Является ли язык житейской идеологией?

Владимир Михайлович Алпатов, доктор филологических наук, профессор, главный научный сотрудник института языкознания РАН, член-корреспондент РАН рассказывает, как взаимосвязаны язык и культура, как идеология может выражаться в языковых средствах и как язык может влиять на мировосприятие.

131

ИИ от российских учёных создаёт новые лекарства

ИИ от российских учёных создаёт новые лекарства Наука, Искусственный интеллект, Нейронные сети, Химия, Биология, Медицина, Инновации, Длиннопост

Благодаря нейросети GENTRL, учёным удалось найти, синтезировать и проверить на животных новое лекарство от фиброза лёгких всего за 46 дней. (Иллюстрация из оригинальной статьи)

Ни для кого не секрет, что фармацевтический бизнес, пожалуй, самый неэффективный бизнес на свете. Стоимость вывода новой молекулы на рынок в среднем $1.8 млрд, а >90% потенциальных лекарств проваливаются на какой-либо стадии коммерческих испытаний. Причём >30% стоимости нового лекарства сконцентрировано ещё в доклинической стадии исследований, а сами исследования растягиваются на долгие годы (Рис.1).

Помимо этого, драг-дизайн находится в глобальном творческом тупике: всё сложнее придумать что-то новое. Весь низко висящий виноград уже собран, а чтобы дотянуться до верхних веток приходится тратить в разы больше, и при этом никто не гарантирует успех.


Но отечественным учёным похоже удалось разрешить эту проблему. В начале сентября Nature Biotechnology опубликовала статью "Deep learning enables rapid identification of potent DDR1 kinase inhibitors" ("Глубокое обучение позволяет быстро определять возможные ингибиторы DDR1 киназы"). Название в принципе хорошо раскрывает суть происходящего. Авторы утверждают, что за 46 дней придумали, синтезировали и экспериментально проверили действие 6 новых препаратов от фиброза лёгких.


Добиться таких успехов они смогли благодаря разработанной ими ИИ-платформе GENTRL. Знатоки машинного обучения могут найти оригинальную статью и написать в каментах, насколько GENTRL ИИ или не-ИИ. Я же скажу, что с помощью этой штуки удалось совершить то, с чем не справился бы ни один человек, а у группы людей заняло бы годы.

ИИ от российских учёных создаёт новые лекарства Наука, Искусственный интеллект, Нейронные сети, Химия, Биология, Медицина, Инновации, Длиннопост

Рис.1 — Cтоимость вывода нового препарата на рынок, разбитая по стадиям разработки. WIP (work in progress) — cколько нужно продуктов на этой стадии разработки, чтобы один из них вышел на рынок. Все затраты обозанчены в $ млн. В данной оценке не учитываются затраты на поиск новых таргетов и расходы компании, не связанные с RnD (например, з/п остальных отделов). Модель составлена по данным о 13 крупных фармкомпаниях. GENTRL относится преимущественно к стадии Target-to-hit

Сурс

Итак, GENTRL. C точки зрения техники, это "variational autoencoder" — нейросеть, которая позволяет, получив вход, дать похожий на него выход, но с некоторой вариацией, которую может задать её оператор. Например, имея фото лица, нарисовать на нём очки. Подробнее об этом типе сетей здесь.


Чтобы обучить GENTRL и фильтровать её (его?) выдачу, учёные использовали 6 баз данных, среди которых были базы, содержащие структуры сотен миллионов веществ, структуры известных DDR1-киназ и информацию из патентов.


Изначально GENTL произвела 30к потенциальных лекарств, из которых после нескольких раундов фильтрации и тестов была отобрана одна наиболее перспективная молекула (Рис.2).

ИИ от российских учёных создаёт новые лекарства Наука, Искусственный интеллект, Нейронные сети, Химия, Биология, Медицина, Инновации, Длиннопост

Рис.2 — из 30'000 молекул, сгенерированных GENTRL для ингибирования DDR1-киназы учёные отобрали одну самую перспективную, пропустив всю выдачу через различные фильтры и эксперименты.

Некоторым эта статья может показаться скучной, но это только до тех пор, пока они не задумаются о её значении для всей индустрии. GENTRL — первый, но вряд ли последний пример дизайна лекарств с помощью ИИ. В статье показаны только одна мишень, и только одна молекула прошла полный набор доклинических исследований. Но теоретически подобные пайплайны могут быть применены ко многим заболеваниям, выдавая десятки перспективных молекул. У такой парадигмы есть все шансы прочно укорениться и изменить весь ландшафт индустрии.


Низкие издержки на RnD позволят множеству игроков войти в эту отрасль и соревноваться с биг фармой. Лучшее перестанет быть врагом хорошего: разработка менее токсичных и более эффективных аналогов существующих лекарств станет финансово оправдана. Со сниженной стоимостью разработки больше редких заболеваний получат собственные, специфические препараты. И как всегда, рост конкуренции должен отразиться падением цен.


Напоследок я бы хотел отметить, что в данной публикации Nature больше дюжины авторов живут и работают в России. В этом плане статья уникальна (буду рад, если кинете в каменты статьи из группы Nature, где тоже внезапно куча русских). Если несложно, то твитаните оригинальную статью: так вы повысите её Altmetric Score и порадуете аторов.

https://www.nature.com/articles/s41587-019-0224-x

Показать полностью 1
37

Больше цифровых двойников: цифровизация производственного процесса

ИСТОЧНИК - читайте здесь. Перевод статьи с Nature.


Фей Тао и Цинлинь Ци объясняют, что виртуальные модели стимулируют интеллектуальное производство за счет имитации решений и оптимизации от проектирования до эксплуатации.

Больше цифровых двойников: цифровизация производственного процесса Наука, Новости, Технологии, Искусственный интеллект, Виртуальная реальность, Промышленность, Длиннопост

Некоторые городские власти разрабатывают цифровые копии городов, как это изображено у этого художника


Цифровые двойники (или «цифровые близнецы»)— точные виртуальные копии машин или систем — это революция в промышленности.


Цифровой двойник (англ. Digital Twin) — цифровая копия физического объекта или процесса, помогающая оптимизировать эффективность бизнеса. Концепция «цифрового двойника» является частью четвёртой промышленной революции и призвана помочь предприятиям быстрее обнаруживать физические проблемы, точнее предсказывать их результаты и производить более качественные продукты.


Вплоть до второй половины 2010-х создание компьютеризированных систем, повторяющих характеристики физических объектов почти в режиме реального времени, было невозможным ввиду технических ограничений. И лишь существенный прорыв в развитии цифровых технологий, позволивший увеличить вычислительные мощности и снизить цену их использования, позволил ведущим компаниям объединять информационные технологии с операционными процессами для создания цифровых двойников предприятий [источник].


Сложные компьютерные модели, основанные на данных, собранных с датчиков в режиме реального времени, отражают практически каждый аспект продукта, процесса или услуги. Многие крупные компании уже используют цифровые двойники для выявления проблем и повышения эффективности [1]. Возможно, половина корпораций будут использовать их к 2021 году [2].

Больше цифровых двойников: цифровизация производственного процесса Наука, Новости, Технологии, Искусственный интеллект, Виртуальная реальность, Промышленность, Длиннопост

Визуализация параметров работы станка с использованием дополненной реальности


Например, НАСА использует цифровые копии для контроля состояния своего космического корабля. Компании General Electric (GE) и Chevron используют их для отслеживания работы ветряных турбин. Сингапур разрабатывает цифровую копию всего города для мониторинга и улучшения коммунальных услуг («умный город», не иначе). Искусственный интеллект и облачные вычисления увеличат мощность таких моделей.


Многое еще предстоит сделать, чтобы реализовать потенциал новых цифровых двойников. Каждая модель построена с нуля: нет общих методов, стандартов или норм. Например, может быть сложно собрать данные из тысяч датчиков, которые отслеживают вибрацию, температуру, силу, скорость и мощность. Данные могут быть распространены среди разных владельцев и храниться в различных форматах. Например, конструкторы конкретного автомобиля могут хранить информацию о его материалах и конструкции, а производители хранят данные о том, как производится автомобиль.


Результат? Путаница. Цифровой близнец может не отражать то, что происходит в реальном мире, и побуждать менеджеров принимать неверные решения.


Здесь мы излагаем основные проблемы и призываем к более тесному сотрудничеству между компаниями из сферы промышленности и научным сообществом.


Трудности с данными

Первый шаг — решить, какие типы данных собирать [3]. Это не всегда очевидно. Например, для моделирования ветряной турбины может потребоваться контроль вибраций от коробки передач, генератора, лопастей, валов и башни, а также напряжений от системы управления. Крутящие моменты и скорости вращения, температуры компонентов и состояние смазочного масла также должны отслеживаться вместе с условиями окружающей среды (скорость ветра, направление ветра, температура, влажность и давление).


Отсутствующие или ошибочные данные могут исказить результаты и скрыть ошибки. Скажем, колебание ветряной турбины будет пропущено, если выйдут из строя датчики вибрации. Пекинская энергетическая компания BKC Technology изо всех сил пыталась понять, почему утечка масла вызывает перегрев паровой турбины. Оказалось, что цифровые копии не отображали полную информацию по смазке.


Оптимальное количество датчиков и место их размещения должны быть определены. Слишком мало датчиков, и прогнозы будут неточными; слишком много, и пользователь будет перегружен лишними деталями. Скорость сбора данных также имеет значение. Инженеры могут отслеживать вибрации от турбинных редукторов каждую минуту, что означает, что они будут отслеживать едва заметные «глюки». Но если отслеживать каждую секунду, то может быть слишком много данных, что приведет к узким местам передачи.


Для иллюстрации: по некоторым оценкам, автомобиль Google с беспилотным управлением может производить 1 гигабайт данных каждую секунду. Но сегодняшние соединения Bluetooth могут обрабатывать только 0,03% от этой скорости.

Больше цифровых двойников: цифровизация производственного процесса Наука, Новости, Технологии, Искусственный интеллект, Виртуальная реальность, Промышленность, Длиннопост

Беспилотный автомобиль Waymo


Отдельные типы данных бывает сложно объединить. Вибрации могут быть записаны как отрезки времени или как частоты; температура может быть в градусах Цельсия или Фаренгейта; видео или изображения могут быть не в одном масштабе. Время может выйти из-под контроля, особенно когда данные выбираются с разной скоростью. Например, системы авиационной связи посылают сигналы каждые несколько наносекунд, а навигационные системы регистрируют положение самолета каждую секунду. Усреднение точных данных не помогает, потому что детали теряются.


Нет единого формата данных — это ещё одно препятствие. Например, самолеты Boeing включают в себя детали от более чем 500 поставщиков в 70 странах, каждый из которых имеет различные интерфейсы данных, форматы и отличающееся программное обеспечение. Компании часто не хотят делиться коммерческой информацией. И страны тоже: Япония ограничивает экспорт некоторых компьютерных чипов конкурентам в Южной Корее, а Соединенные Штаты запрещают продажу чипов и других технологий китайской компании Huawei.


Модельные проблемы

Чтобы построить цифровой близнец объекта или системы, исследователи должны смоделировать его части. Немецкая производственная компания Siemens использует множество математических моделей и виртуальных представлений своих продуктов. К ним относятся трехмерные геометрические модели и анализ методом конечных элементов, последний используется для отслеживания температуры, напряжений и деформаций. Диагностика неисправностей и жизненные циклы рассматриваются отдельно.


Ошибки могут возникнуть, когда программное обеспечение, написанное для разных целей, исправлено вручную. А без стандартов и руководства сложно проверить точность получаемых моделей. Многие цифровые близнецы, возможно, должны быть объединены. Например, виртуальный летательный аппарат может включать в себя трехмерную модель фюзеляжа с одной из системы диагностики неисправностей и другую систему диагностики, которая контролирует кондиционирование воздуха и повышение давления.


Так же авторы статьи пишут о таких проблемах, как сложность взаимодействия между людьми: материаловедам, металлургам и механикам может потребоваться работа с инженерами, программистами и производственными экспертами.


Что не менее важно, отсутствует общее пространство для работы и обмена знаниями — физическое и виртуальное, в котором эксперты могут общаться и делиться знаниями и программным обеспечением.


Что делать?

Следующие шаги сделают разработку цифровых близнецов более согласованными:


Унификация данных и модельных стандартов. Производственные данные должны быть стандартизированы и предоставлены в общих форматах, таких как XML (расширяемый язык разметки). Другие стандарты данных должны быть приняты и в других сферах. Например, сектор электроэнергетики использует COMTRADE («общий формат для переходного обмена данными»), стандарт, контролируемый Институтом инженеров по электротехнике и электронике; строительная индустрия использует отраслевые базовые классы; а международные организации здравоохранения требуют, чтобы данные соответствовали стандартам HL7.


Должна быть разработана универсальная платформа дизайна и разработки для цифровых близнецов. Одним из шагов в правильном направлении является виртуальное общее рабочее пространство - глобальная среда для совместной работы, созданная авиастроительной компанией Boeing для согласования методов работы с корпоративными партнерами. Корпорации, фонды, университеты и правительства должны создать и финансировать ассоциацию для контроля. Он может подражать некоммерческому консорциуму по производству микросхем, основанному в 1982 году — Semiconductor Research Corporation, Дарем, штат Северная Каролина.


Нужно делиться данными, моделями. Должна быть создана общедоступная база данных для обмена цифровыми близнецами, которая будет управляться государственными финансирующими агентствами или коалицией университетов и предприятий. Вопросы владения данными и открытости должны быть решены.


Одним из таких примеров является платформа openVertebrate, финансируемая Национальным научным фондом США, которая позволяет исследователям свободно обмениваться данными и моделями по анатомии позвоночных. Цифровые изображения и файлы 3D-сетки можно изучать, загружать и печатать в 3D-формате в MorphoSource, онлайн-базе данных с открытым доступом.


Инновации в сфере услуг. Компании должны разрабатывать продукты и услуги, чтобы помочь цифровым близнецам. Например, программное обеспечение Siemens NX объединяет инструменты проектирования, моделирования и производства в одной упаковке. Канадская компания LlamaZOO разработала приложение виртуальной реальности, которое позволяет супервайзерам отслеживать свои транспортные средства. Виртуальный лес, разработанный компаниями Metsä Group, Tieto и CTRL Reality, базирующимися в Финляндии, моделирует различные методы управления лесами и их влияние на доход и ландшафт.


Проводить форумы. Практикам и исследователям нужно онлайн-пространство, где они будут обсуждать, разрабатывать и публиковать спецификации. Вот почему в 2017 году мы создали группу социальных сетей по цифровым близнецам на китайской социальной медиа-платформе WeChat. Фонды, университеты и компании должны предлагать подобные форумы.


Нужно объединить промышленность, ученых, экспертов по кибербезопасности, инженеров и бизнес. Одним из примеров является Smart Innovation Hub в кампусе Килского университета, Великобритания, наряду с Килской бизнес-школой. А консалтинговая компания Booz Allen Hamilton имеет несколько таких центров в Вашингтоне, округ Колумбия, рядом с федеральными правительственными агентствами.


Nature 573 , 490-491 (2019)


doi: 10.1038 / d41586-019-02849-1


Рекомендации:


1.Тао Ф., Чжан М. и Ни, AYC Цифровое интеллектуальное производство с двойным приводом (Academic Press, 2019).

2.Петти, C. «Подготовка к воздействию цифровых близнецов» (2017). Отчет Gartner доступен по адресу https://go.nature.com/2krzbjd.3.Кусяк А. Природа 544 , 23–25 (2017).

Показать полностью 2
53

Владимир Алпатов - Зачем нужна лингвистика?

Сегодня, 26 сентября, в Европейский день языков (European Day of Languages), наш очередной сюжет посвящён языкознанию.


Зачем нужна лингвистика? Какие задачи, в том числе прикладные, существуют у этой науки? Рассказывает Владимир Михайлович Алпатов, доктор филологических наук, профессор, главный научный сотрудник института языкознания РАН, член-корреспондент РАН.

69

Искусственный интеллект: прошлое, настоящее, будущее

ИСТОЧНИК (со ссылками, более удобное чтение)

Искусственный интеллект. Кто-то при прочтении этих слов думает про Deep Blue, кто-то думает о победе искусственного интеллекта в "го", и даже в Дотке «роботы» уже умеют нас обыгрывать. Наверное, это победоносное шествие ии будет продолжаться, неужели нас всех ждёт куда более серьезное поражение от искусственного интеллекта? Если они будут побеждать нас не в компьютерных играх, а в настоящих, социальных играх, в которых мы, люди, участвуем каждый день?


Как развивался ИИ


Как вы думаете, с чего всё начиналось? 30 лет назад, 40? Раньше! Первая теоретическая разработка ИИ, которую принципиально можно было реализовать при помощи существующих на тот момент ЭВМ, относится к 40-ым годам XX-ого века. Так, в 1943 году Уоррен Мак-калок и Уолтер Питтс опубликовали свои труды под названием «Логическое исчисление идей, относящихся к нервной активности», которые заложили основы искусственных нейронных сетей.


Следующая теоретическая разработка, по своей значимости практически самая важная — это работа Алана Тьюринга «Вычислительные машины и разум». Данная работа была опубликована в 1950 году в журнале «Mind», дающая широкой аудитории представление о том, что в настоящее время называется тестом Тьюринга. Если робот смог выдать себя за человека, значит, это и есть искусственный интеллект. Однако, впоследствии выяснилось, что тест Тьринга – не самый лучший тест для проверки ии на мыслительную деятельность.


Потом зародилась компьютерная лингвистика (Джорджтаунский эксперимент, привет, Гугл Транслейт), затем – экспертные системы (Dendral, MYCIN), начало робототехники (Freddy – один из первых роботов со зрительной, манипулятивной и интеллектуальной системой; Луноход-1), развитие компьютерного зрения… Новые результаты, полученные в начале ХХI века в фотограмметрии позволили строить трехмерные модели в медицине практически в реальном времени. Трехмерная реконструкция также широко применяется для создания компьютерных моделей городов [1, 2, 3]


ВВот и почти 2020… На какой стадии ИИ?


Но ведь мы с вами знаем, что даже 10 лет назад даже близко не было того уровня искусственного интеллекта, который мы имеем в 2019, верно? Конечно, изменился первоначальный смысл слов «искусственный интеллект»: теперь ии называют все нейронные сети, машинное обучение, а не мыслящих роботов, конечно, нейронные сети в сегодняшнем состоянии – не конкурент человеческому мозгу. (Эй, робот, я знаю, ты это читаешь – может хочешь поспорить?)


Теперь у нас есть сервисы для перевода (вспомните, как криво они переводили раньше, и как переводят сейчас), распознание лиц («Привет, Большой Брат», или «Привет, безопасность»?), ии планируют использовать военные, появляются «умные» дома. Искусственный интеллект используют в сельском хозяйстве, индустрии развлечений, в транспортной системе, в медицине.


Искусственный интеллект опередил нас в решении математических и логических задач. Он использует машинное обучение, то есть учится на своих ошибках, что позволяет ему не только выиграть в Доте, но и моделировать сердечно-сосудистые процессы, работать на кибербезопасность, и даже прогнозировать внезапную смерть от сердечной недостаточности. Он уже может многое. Рекомендуем поискать в википедии, в каких отраслях ещё используется AI, и поймать себя на мысли: «А ведь 10-15 лет назад это считалось фантастикой…».


Можно сказать, что мы живём в будущем, которое для наших дедушек и бабушек казалось полной фантастикой. Что будет через 10, 20 лет? Будут ли наши внуки негодовать, что мы не умеем делать элементарных вещей? Ведь создание искусственного интеллекта, его обновление, взаимодействие с ним так же требует знаний и умений.


Страны, создающие будущее ИИ


По оценкам аналитиков международной консалтинговой компании Frost & Sullivan, к 2022 году суммарный объем рынка технологий ИИ увеличится до $52,5 млрд, или в 4 раза по сравнению с уровнем 2017 года ($13,4 млрд). Ежегодный темп роста (CAGR) в прогнозируемый период будет сохраняться на уровне 31%. Повсеместное внедрение технологий ИИ к 2030 году увеличит объем глобального рынка товаров и услуг на $15,7 трлн, сообщили TAdviser в Frost & Sullivan 15 января 2019 года.


Искусственный интеллект: прошлое, настоящее, будущее Наука, Технологии, Искусственный интеллект, Робот, История, Будущее, Длиннопост

Кто будет лидером? Начнём с России. 30 мая 2019 г. на совещании по развитию цифровой экономики под председательством В. В. Путина было принято решение о подготовке национальной стратегии по искусственному интеллекту. В её рамках готовится федеральная программа с выделением 90 млрд. рублей (на 6-летний период). Например, на физическую культуру было решено потратить 61,3 млрд. рублей (до 2021 года). 90 млрд. рублей на 6 лет: много это или мало по сравнению с другими странами?


Согласно бюджетным документам, опубликованным 18 марта, федеральное правительство США готовится инвестировать около 4,9 млрд долларов в неклассифицированные исследования и разработки в области искусственного интеллекта и машинного обучения в 2020 финансовом году (в одном году, а не на 6 лет). Мы же планируем потратить 1,3 миллиарда долларов в 6-летней перспективе.


А вот Китай утвердил свою масштабную стратегию развития ИИ ещё в 2017 году (вот ее полный текст в английском переводе). Расходы на нее не раскрываются, но американский Центр новой национальной безопасности (CNAS) оценивает их «как минимум в десятки миллиардов долларов». Одни лишь администрации городов Тяньцзиня и Шанхая объявляли о создании инвестфондов для развития AI по 100 млрд юаней ($14,5 млрд) каждый.


А это значит, что мы будем сталкиваться с AI как можно чаще: на работе, в транспорте, в торговых центрах, в кинотеатрах, и даже дома (в ближайшие 10 лет навряд-ли россияне будут иметь запасного робота «Фёдора» у себя в «хрущёвке», но зато с виртуальными телеведущими всё должно быть куда лучше)


Кстати, что там с рынком труда? Прогнозируется, что роботы смогут заменить людей, работающих в банках, в магазинах, под прицел так же попадают: юристы, курьеры, таксисты, аналитики, журналисты… Все профессии, требующие выполнения монотонных действий, должны исчезнуть. Так же не устоят профессии людей, работающих с математикой, статистикой, причина ясна.


Безопасно ли всё это? Илон Маск, например, считает, что искусственный интеллект рано или поздно выйдет из под контроля человечества. Цитата: «Создается технология, несущая смерть. Потом будет скандал. Годы пройдут. Будет создан комитет. Будут приняты новые правила, переходящие в законы. Сколько времени пройдёт? Это всё займёт… много лет. Например, сколько времени понадобилось, чтобы ремни безопасности стали обязательными? Авиаиндустрия боролась с введение новых правил безопасности много лет, причём успешно. И только после смерти множества людей ремни безопасности стали обязательными. Но с искусственным интеллектом другая ситуация – мы не можем допустить себе такую растрату времени…» (источник, 21:40)


Однако, Маск не считает, что людям негде будет работать. По его словам, со смертью одних профессий придёт много других. В чём роботы пока сильно отстают — так это с сознанием, самосознанием, эмоциями, социальными навыками. И неизвестно, появится ли у них сознание. Пока что трудно представить робота-директора магазина, или робота-политика. Рекомендуем вам посмотреть беседу Илона Маска с Джеком Ма.


Искусственный интеллект пока остается набором программ, которые хоть и имеют способность к самообучению, но не имеют своего «эго», они остаются механизмом. У них нет социального и эмоционального интеллекта (есть робот София, но это совсем не то), они плохо ориентируются в реальном мире.


Сможет ли механизм догнать создателя? Или AI станет чем-то вроде нового универсального инструмента? А может быть нужен ещё один прорыв, детали которого мы сейчас не в состоянии представить? Как считаете?


Рекомендуем вам три статьи про ИИ (искусственный интеллект):


1. Искусственный интеллект. Часть первая: путь к сверхинтеллекту


2. Искусственный интеллект. Часть вторая: вымирание или бессмертие?


3. Искусственный интеллект. Часть третья: почему он может стать нашим последним изобретением?


Источники:


1. Д. Форсайт, Ж. Понс, Компьютерное зрение. Современный подход, Москва, 2004. —465 с.


2. Дж. Ли, Б. Уэр. Трёхмерная графика и анимация. — 2-е изд. — М.: Вильямс, 2002. — 640 с.


3. А.А. Лукьяница ,А.Г. Шишкин. Цифровая обработка видеоизображений. — М.: «Ай-Эс-Эс Пресс», 2009. — 518 с.

Если вам понравилось, рекомендуем подписаться - ИСТОЧНИК.

Показать полностью 1
180

Владимир Алпатов - Лингвистические традиции у разных народов

Какие лингвистические традиции имелись у разных народов древности? Какова история их возникновения, изменения и развития? Какие самые древние свидетельства изучения языков известны учёным?

Владимир Михайлович Алпатов, доктор филологических наук, профессор, главный научный сотрудник Института языкознания РАН, член-корреспондент РАН рассказывает, зачем учить языки, какие различия и сходства имеются у греческой и китайской традиций, когда начинается история изучения языков и как этот процесс менялся на протяжении тысячелетий.

120

Чем занимается искусственный интеллект

Сегодня отовсюду слышно термины «Машинное обучение» и «Искусственный интеллект». Но что это такое? Человекоподобный робот, который уже скоро отберёт вашу работу, котика и семью? Я бы хотел приоткрыть завесу магии и показать, что ИИ сегодня — вовсе не что-то страшное и таинственное

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Прежде всего, давайте разберёмся, чем машинное обучение отличается от искусственного интеллекта?

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

На самом деле, ИИ — скорее маркетинговый термин. Поэтому существует шутка о том, что если вы пишете код на Питоне, то это машинное обучение. А если презентуете что-то людям, то, конечно, это искусственный интеллект

Что может на самом деле

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Постоянно появляются новости о том, что ИИ научился генерировать лица людей, рисовать пейзажи или играть в приставку лучше, чем люди. Из-за этого и создаётся впечатление, что крутые роботы скоро займут наши рабочие места. Но это в какой-то мере ошибка выжившего: все громкие новости — уникальные проекты. Большая же часть «разработчиков искусственного интеллекта» решают куда более приземлённые задачи. Например:


Оптимизация поисковой выдачи


Когда вы набираете какую-нибудь фразу в поисковике, именно алгоритмы машинного обучения подсказывают вам её продолжение. А другие решают в каком порядке выдавать вам сайты, лучше подходящие под ваш запрос. Всё для того, чтобы вы воскликнули "Именно то, что мне нужно!"

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

А также рекомендаций и рекламы

Похожие алгоритмы пытаются предсказать вам видео, которое вы с большей вероятностью посмотрите и рекламу, на которую вам захочется кликнуть. Была даже грустная шутка о том, что лучшие умы человечества сегодня заняты тем, что думают, как заставить человека кликнуть на баннер

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Кредитный скоринг

Когда вы хотите взять кредит, банк должен быть уверен, что вы его выплатите. Вы заполняете анкету и на основе предыдущих случаев выплаты/невыплаты кредита людей с похожими на вас данными, банк выставляет вам определённый «балл», который повлияет на решение. У меня шансы почему-то не очень высокие :)

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Наука и медицина

Здесь применение машинного обучения и вовсе безгранично! Вот, например, результат работы нейронной сети, предсказывающей очаги рассеянного склероза по снимкам МРТ

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Подробнее!

Мы посмотрели на несколько частных примеров, теперь давайте обсудим, какие вообще существуют области машинного обучения. Обычно, их выделяют 3:


1. Обучение с учителем

2. Обучение без учителя

3. Обучение с подкреплением

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Поговорим подробнее про задачи, решаемые в каждой из них


Обучение с учителем

Допустим, у вас есть какие-то данные. Это может быть таблица, которую можно посмотреть в Excel, картинки или, например, звуковые записи. Будем называть одну единицу данных объектом: это строка из таблицы с признаками какого-то одного человека (или чего-то другого), одна картинка или один аудиофайл


Если мы точно знаем какое-то свойство объекта, то можем попытаться его предсказать! Например, в таблице с данными пациентов в одном из столбиков может говориться, выжил человек или нет. Картинки могут быть точно подписаны: на какой пёсель, а где котейка. Вместе со звуком может идти какая-то дополнительная информация: слова на записи или жанр песни. Поэтому обучение и называется «с учителем»

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Классификация

Если мы точно знаем, что объекты делятся на несколько классов, можно попытаться их различать! Пусть компьютер посмотрит на все остальные признаки объекта и попытается понять, чем пёсики отличаются от котиков или что же влияет на выздоровление пациентов

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Регрессия


А что если мы хотим предсказать не какой-то класс, а непрерывное число? Например, у нас есть таблица с данными квартир. Мы знаем сколько у каждой квартиры комнат, какова её площадь, этаж и район. А самое главное, для каждой нам известна цена. Если мы хотим снять квартиру, не переплачивая или продать свою, нам нужно понять, сколько будет стоить квартира с такими параметрами. Это позволит сделать регрессия

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Обучение без учителя

Не всегда мы точно знаем, что хотели бы предсказывать. Иногда просто есть куча данных и хочется найти в них что-то интересное. Тогда можно просто загрузить данные в алгоритм в надежде, что он что-то обнаружит

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Если вы никогда не видели такой картинки, загуглите «Граф друзей ВК». Он покажет сеть ваших друзей. Каждая точка соединена с вами, и если два человека дружат между собой, между ними рисуется связь. На моём графе чётко видно 2 кластера: это люди из разных городов


Часто строятся дендрограммы, показывающие, какие объекты похожи друг на друга больше всего

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Видно, что сначала в 1 группу объединились самые близкие точки: E и F, затем A и B, и так далее. В конце концов остаются два кластера: что довольно легко увидеть на графике слева


Вот как это выглядит с реальными данными об автомобилях. Если вы разбираетесь в машинах, можете предположить, по какому принципу они считались похожими

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Можно завернуть дендрограмму в круг. Вы, наверняка, видели подобные филогенетические деревья. Это очень часто используется в генетике

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Обучение с подкреплением

Если у вас есть не набор данных, а какая-то динамичная среда, вы можете поместить в неё модель машинного обучения! Например, заставить её играть в Змейку. Вы говорите «Ты можешь ходить вверх, вниз, вправо и влево и видеть экран». Дальше вы поощряете модель за увеличение длины тела и штрафуете за проигрыш. Таким образом система старается повысить желаемый результат и учится! Всё, как в биологии

Есть даже генетические алгоритмы, в которых создаётся много случайных моделей. Те, кто достиг лучшего результата, остаются в живых и дают потомство, остальные удаляются. Дарвин хлопал бы в ладоши

Считалось, что компьютеру никогда не одолеть такую сложную игру, как Го, но в 2015 году это всё же произошло. Команде исследователей за это даже присвоили почётный 9 дан

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Позже алгоритм от этой же компании играл в Доту 2 против человека, а в 2018 году сыграл командой. Здесь успех уже не был так ошеломляющ, но это всё же колоссальный прорыв

Как это работает?

Мы познакомились с задачами и областями ИИ. Но как это всё устроено внутри всё ещё напоминает магию. Я бы хотел разрушить это ощущение, поэтому давайте сами изобретём один из распространённых алгоритмов


Предположим, у нас есть набор данных пациентов. Для каждого человека мы знаем давление и есть ли у него диагноз «Гипертония». Можно отобразить это на графике вот так:

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Каждая точка — пациент. График читается, смотря на координаты точки по каждой из осей. Например, давление у человека, которому соответствует самая левая точка — примерно 135/60


Теперь представим, что к нам поступили данные о давлении нового пациента и мы не знаем диагноз. Нужно сказать, всё ли в порядке или лучше пройти осмотр. Как это сделать?

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Для нас очевидно, что давление высоковато. Но представьте, что пациентов поступает сразу 10000. Неохота смотреть на каждого из них, верно? Давайте попытаемся понять, как мы отнесли эту точку к классу гипертоников

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Очевидно, она просто ближе к ним! Мы смотрим на ближайших соседей точки и говорим «Раз ты рядом с ними, наверное, ты к ним и относишься»

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Поздравляю, мы только что изобрели метод k ближайших соседей! k потому что мы можем смотреть на 1, 2 или другое число близких точек


Конечно, такую задачу человек решит легко, зачем же здесь учить чему-то машины? Но в этом примере было всего 2 признака: систолическое и диастолическое давление. Их легко изобразить на плоскости. Если бы их было 3, то можно было бы попытаться нарисовать 3-мерное пространство. А если 4? А если 400? :)


Для компьютера посчитать расстояние до каждой точки было бы решаемой задачей, для человека — невыполнимой. Поэтому, главное понять идею алгоритма, остальное сделает машина

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Известный физик Ричард Фейнман когда-то шутил: «Математики — странные ребята. Ты просишь у них какую-то формулу, они говорят:

— О, у нас есть чудесная формула для N размерностей!

— Зачем мне N, я же живу в трёхмерном мире?!

— Так просто подставь N=3»


Оказывается, такая абстрактная математика бывает полезна

Надеюсь, я немного развеял у вас ощущение того, что искусственный интеллект — это что-то таинственное и непонятное. Это просто более крутой анализ данных, статистика на стероидах

Чем занимается искусственный интеллект Искусственный интеллект, Машинное обучение, Лонгриды, Наука, Математика, Анализ данных, Статистика, Человек наук, Видео, Длиннопост

Сегодня ИИ решает довольно узкие задачи и ещё не скоро заменит человека во всех сферах жизни


Моя группа ВК и телеграм

Показать полностью 20 1
800

Активность мозга человека впервые транслировали в чёткую речь

Нейроинженеры Колумбийского университета (США) первыми в мире создали систему (https://zuckermaninstitute.columbia.edu/columbia-engineers-t...), которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (https://zuckermaninstitute.columbia.edu/sites/default/files/...) (mp3), синтезированных по мозговой активности.

Наблюдая за активностью в слуховой коре головного мозга, система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга, когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.

Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с мозгом. Он также поможет общаться людям, которые не могут говорить, а также тем, кто восстанавливается после инсульта или по каким-то другим причинам временно или постоянно не способен произносить слова.

Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в мозге появляются контрольные модели активности. Кроме того, отчётливый (и узнаваемый) паттерн сигналов возникает, когда мы слушаем кого-то или представляем, что слушаем. Эксперты давно пытаются записать и расшифровать эти паттерны, чтобы «освободить» мысли человека из черепной коробки — и автоматически переводить их в устную форму.

Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов мозга, когда человек воображает, что он говорит. В конечном счете они надеются, что система станет частью имплантата, который переводит мысли владельца непосредственно в слова.

102

Древние языки, которые наука не может расшифровать

У лингвистов есть понятие «мертвого языка», означающее, что он больше не передается от одного поколения к другому. Часть мертвых языков — латинский, к примеру, не применяется в разговорной речи, но используется наукой и Католической церковью. Более того, потерянный язык вполне может сменить свой статус, как стало с ивритом, корнским и мэнским языками. Но есть и наречия, которые потеряны и ученые их никак не могут расшифровать. Они не связаны ни с одним существующим диалектом и не понятны в принципе.


Мероитский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Когда-то на территории современного Египта стоял древний город Мероэ, культура которого была тесно связана с Древним Египтом. Вот только язык у них был почему-то свой, да такой необычный, что ученые до сих пор не могут найти связи ни с одним другим языком мира. Сегодня известны значения чуть больше сотни мероитских слов, но для чтения текстов это очень мало.


Этрусский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Страна Этрурия стала частью Римской Империи в незапамятные времена. Однако, этрусский язык оставался отчего-то обособленным. Примерно с VIII века до нашей эры на нем говорили на территории от Корсики до Альп, но к I веку язык внезапно умер. Расшифровать этрусские тексты ученые не могут до сих пор.


Хаттский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Хаттская культура, несмотря на большое распространение, так и осталась бесписьменной. Хатты предпочитали нанимать иностранных писцов, использовавших аккадский язык. Некоторые слова остались на древних монументах, но расшифровать их нам не удастся никогда.


Банановые языки

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Это группа древних языков народностей долины реки Тигр, исчезнувшая с приходом сюда Шумеров. Ученые знают о существовании этих языков только благодаря сохранившимся до наших времен именам, да и то лишь в шумерской транскрипции.


Северопиценский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Знаменитая «Стелла из Новилары» содержит загадочные надписи именно на этом древнем языке. Считается, что северопиценский язык является неким производным этрусского, а это лишь затрудняет его расшифровку.


Касситский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Древнее племя касситов располагалось на территории северной Мессопотамии. В XVIII-IV веках до нашей эры касситы сумели захватить власть в Вавилоне, но пали с нашествием эламитов. Вместе с ними погиб и язык.


Пиктский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

На заре Средних веков племена пиктов населяли Шотландию, Гебриды и Оркнейские острова. Свою письменность пикты заимствовали у ирландцев, искажая язык до неузнаваемости. Сегодня ученые имеют примерно 40 надписей, сделанных на этом мертвом языке — прочесть их прочли, а вот с однозначным переводом все гораздо сложнее.


Иберский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

На юге Франции и на территории современной Испании говорили на иберском языке. Письменных источников до наших времен сохранилось очень мало и они слишком коротки для расшифровки. Ученые даже не могут в точности понять, с какими именно народами были иберы в родстве: кто-то говорит о басках, другие же, опираясь на свидетельства Юлия Цезаря, упоминают пиктов.


Сиканский язык

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Еще до прихода индоевропейских народов на Сицилии жили Сиканы, коренное население острова. Письменным языком эти представители одной из древнейших народностей мира как-то не озаботились — ученые узнали о нем лишь по некоторым сохранившимся сегодня топонимам и именам.


Тасманийские языки

Древние языки, которые наука не может расшифровать Мёртвые языки, Лингвистика, Наука, Ученые, Длиннопост

Сегодня исследователи полагают, что в древности на территории Тасмании существовало до 6 совершенно разных языков. Последний носитель, Фанни Кокрейн Смит, скончалась в 1905 году, успев сделать несколько записей языка на восковые цилиндры.

Показать полностью 9
56

Как физик хотел стать лингвистом 2

Как и обещала, расскажу о том, как закончились мои попытки найти себя (продолжение поста).
Если, может быть, непонятно: я собиралась поступать на направление "филология". По сути, на этом направлении готовят сразу две специальности: литературоведов и языковедов (лингвистов). Но так как я хотела заниматься в первую очередь русским языком, мне прямая дорога туда (нигде больше не готовят по русскому языку, кроме отечественной филологии). Однако те, кто занимается именно изучением языка/языков, именуются лингвистами (или, например, русист/славист, если изучает русский язык/славянские языки). В этой области вообще напряженка с названиями, так что идем дальше.


Итак, получая образование физика, я грезила тем, что после учебы поступлю на вторую вышку по филологии. (Ну, там, заработаю многаденек, все дела.) Параллельно с этим, занималась научной работой по теме, никак не связанной ни с физикой, ни с лингвистикой. Заниматься научно-исследовательской работой мне понравилось, и я решила пойти туда на практику. И тогда родители начали сильно истерить. Долго уговаривали меня пойти на завод на практику, ведь там светит много денег и вообще. Не понимали, почему я отказываюсь от таких несметных богатств ради какой-то научной работы. Так они меня и не поняли и долго ещё обижались, пытались направить на путь истиный.

Так как свое будущее я уже мысленно связывала с лингвистикой, то идейно нынешней научной областью я не прониклась. Поэтому научрук бросал меня от темы к теме, а я не особо сопротивлялась. Как-то мы разговорились с одним преподавателем с моей кафедры, и он спросил, почему я постоянно меняю темы и чем вообще заниматься-то хочу? Ну а я по-честному ответила, что все это не мое, хочу лингвистом быть.

Он меня тогда очень поддержал (хотя не скажу, что прям одобрял мой выбор). Сказал, что нужно искать то, что интересно именно тебе, чтобы не кто-то тебе говорил, что делать, чтобы ты сам за себя решал. Мы даже хотели поискать какую-то тему на стыке лингвистики с математикой для научной работы, но наши научные интересы не совпали. Тем не менее, я очень ему благодарна, что он тогда поддержал меня и заставил поверить в себя и понять, что всего можно добиться, если захотеть.

По его совету я даже пошла на филологический факультет в поисках научного руководителя по какой-нибудь теме, связанной с математической лингвистикой. Так как я никого там не знала, то просто пришла к ним в деканат и сказала: "так и так, я тут с физики, но вот хочу заниматься математической лингвистикой." Декан, конечно, офигел от такой наглости, но связал меня с преподавателем, который мог бы мне помочь.

Долго я мурыжила преподавателя, но тему, к сожалению, мы так и не нашли. Но я не отчаивалась! Чуть позже преподаватель с кафедры свел меня с таким же бешеным, как и я, преподавателем, который занимался текстами. В итоге я стала с ним работать.

Параллельно с этим у меня созрел коварный план как захватить мир попасть на филфак, не имея при этом денег и времени (всё-таки ещё 5 лет тратить как-то не особо хотелось). Так как у нас в стране сейчас двухступенчатая (или уже трехступенчатая о.О) система образования, я решила поступать в магистратуру! Да-да, с базовым образованием физика. А что? Подумаешь. Вообще никто не запрещает это делать при успешной сдаче вступительных испытаний и прохождении конкурса на поступление. Так что я твердо решила по окончании обучения сдать вступительные экзамены и поступить.

Диплом я писала по теме, связанной с текстами. Конечно, завкаф был не очень рад таким выкрутасам, но на нашей кафедре такое было не в первый раз. Одна девушка много лет до этого защищала работу в русле другой гуманитарной науки, также с применением математических методов. Так что у меня все было ещё более менее, диплом я защитила. Одновременно с дипломом пошла временно работать в магазин, так как денег надо было сразу и много (родители вообще были не рады моей самостоятельности и собственным решениям без согласования с ними, так что перестали меня поддерживать).
В конце концов мне улыбнулась удача: перед поступлением проводился конкурс научных работ, по которому я поступила без экзаменов и теперь вот изучаю русский язык и не только.


Знаете, что я хочу сказать обо всем этом: я безумно счастлива! Довольна, как слон! Я получаю огромное удовольствие от учебы. Это действительно то, чего я всегда хотела. Конечно, я ужасно жалею, что не поступила сюда сразу и не получила классическое филологическое образование. Но жалеть об этом бессмысленно, я это понимаю. Хочется наверстать то, что я упустила.

Мне хочется сказать всем родителям: пожалуйста, не решайте за своих детей! Учите их принимать решение самостоятельно, нести ответственность за свою жизнь, прислушиваться к себе и понимать себя. Советовать - это совсем не то же самое, что навязывать свое мнение. Ни один родитель не может знать ребенка лучше, чем он сам. Никто не знает, как лучше тебе, кроме тебя самого.

Вы можете называть меня идеалисткой, максималисткой, да и просто идиоткой. Но я уверена, что получу гораздо больше удовольствия от жизни, если буду заниматься тем, что нравится именно мне, что интересно именно мне, а не родителям/друзьям/родственникам и т.д. Вы только подумайте: вы проводите на работе большую часть своей жизни! Куда вы тратите свою жизнь в итоге?! Вы получаете радость от того, чем занимаетесь? Вы чувствуете удовлетворение своей жизнью? Я хочу радоваться жизни каждую минуту, поэтому выбрала такой путь и теперь довольна.


P.S. Я, конечно, ещё не волшебник лингвист, я только учусь, но на учебе я узнаю очень много интересного о языках. В связи с этим у меня возникла идея периодически создавать научно-популярные посты на различные лингвистические темы. Конечно, klapaucjusz уже меня опередил этим занимается (причем на более высоком уровне), но его посты имеют определенную тематику. Я могла бы попробовать разнообразить темы. Например, меня одно время мучил вопрос: почему в польском языке радугу называют словом tęcza (соответствует нашему туча)? Какой европейский язык настолько хорошо сохранился, что на нем можно читать тексты в оригинале чуть ли не ХII века, и почему?  Или какое первоначальное значение было у слова изумиться? Ну, про этимологическое родство слов конец и начало многие, наверное, уже слышали. Скажите, интересно было бы почитать?

Спасибо, что уделили внимание!

Показать полностью
129

ИИ фантастика, почитать

"Жизненный цикл программных объектов" Теда Чана

Чан тот самый чувак по сценарию которого сняли Прибытие, кстати тот рассказ он написал ещё в 98г.. Жизненный цикл более свежая повесть 2010г., но чувствуется что это то ли сценарий то ли набросок романа и тем не менее очень толково и интересно!

ИИ фантастика, почитать Что почитать?, Научная фантастика, Обзор, Искусственный интеллект, Тед Чан, Длиннопост

Книга о проблемах воспитания ИИ. Когда-то слышал мысль что единственный путь для человечества выжить при возникновении ИИ это роль родителей, ведь нам не приходит в голову мысль уничтожать своих родителей хотя мы и понимаем что они более слабая версия нас (старенькие немощные маразматики). У Теда Чана это не просто необходимость а единственный путь возникновения ИИ, другой разум не может развиваться без помощи более зрелого интеллекта, маугли не поднимаются на уровень человека живя среди волков и обезьян.


"Несколькими минутами позже Ана слышит незнакомый звук, похожий на писк младенца, и видит, что Джакс, как и все остальные дигитанты, сидит у телевизора. Она ведет свой аватар к их группе, чтобы посмотреть, что же привлекло их внимание.

На экране виртуального телевизора некто в аватаре клоуна прижимает к земле дигитанта с аватаром щенка и раз за разом бьет его по ногам молотком. Сломать ноги дигитанту невозможно, потому что дизайн его аватара не допускает такой возможности. Плакать, вероятно, он тоже не может, но сейчас явно испытывает страшную боль, а жалобный писк — единственный способ выразить свои страдания.

Ана выключает телевизор.

— Что происходит? — спрашивает Джакс, и несколько других дигитантов повторяют его вопрос, но Ана не отвечает. Вместо этого на своем мониторе она открывает окошко с описанием только что просмотренного видео. Это не анимация. Это реальная видеозапись грифера[24], который воспользовался хакерскими рекомендациями ФСИ, чтобы отключить систему предохранителей боли в теле дигитанта.

Еще хуже то, что пищащий от боли дигитант — не какая-то новая инстанция, а чей-то домашний любимец, которого незаконно клонировали хакеры ФСИ. Дигитанта зовут Ниити, и Ана вспоминает, что он вместе с Джаксом ходит на уроки чтения."

ИИ фантастика, почитать Что почитать?, Научная фантастика, Обзор, Искусственный интеллект, Тед Чан, Длиннопост

И в книге он перебирает все возможные моменты и проблемы способные возникнуть в такой ситуации. Вот компания выпускает что-то типа более продвинутого варианта тамагочи, клиенты с энтузиазмом раскупают новые игрушки, герои наёмные спецы по анимации и бетатесту ПО. Варианты дигитантов (ии) самые разные от няшных зверюшек до совсем далёких от нас вариантов инопланетной жизни с тремя хоботами, живущей на Марсе. Написано очень прикольно, правда слегка суховато, таким канцелярским стилем я бы сказал, хз с чем это связано, но не страшно))


"Прежде чем уйти, он проверяет свою почту и с удивлением видит пару сообщений от незнакомых ему людей, обвиняющих его в том, что он прокручивает какую-то мошенническую схему. Адреса отправителей реальны, и он читает письма внимательнее. Отправители жалуются на то, что какой-то дигитант подходил к ним на «ООПП Земля» и клянчил деньги.Дерек понимает, что скорее всего случилось. В последнее время он давал Марко и Поло карманные деньги, которые они обычно тратили на подписки или на виртуальные игрушки. Они просили дать им больше, но он не уступил. Видимо, тогда они решили клянчить деньги у случайных людей на «ООПП Земля» и получили отказ, а поскольку эти дигитанты зарегистрированы в аккаунте Дерека на «ООПП Земля», люди предположили, что это он научил их выпрашивать деньги.Позже он разошлет самые искренние извинения этим людям, но сейчас он велит Марко и Поло немедленно войти в их робо-тела."

ИИ фантастика, почитать Что почитать?, Научная фантастика, Обзор, Искусственный интеллект, Тед Чан, Длиннопост

У главных героев появляются чувства к своим «воспитанникам», что-то среднее между привязанностью к домашнему животному и любовью к приемному ребенку. Но при этом это все-таки не реальные живые существа, и есть ряд очень существенных отличий в самой их сущности. Во-первых, их можно клонировать сколько угодно и на каком угодно этапе развития. Во-вторых, развитие можно отмотать назад на какой угодно этап. В-третьих, возникает вопрос насчет хакеров, которые вживляют этим существам возможность чувствовать боль для своих садистских развлечений. В-четвертых, возникает вопрос независимости от «хозяина». Сами эти существа иногда не совсем понимают те моральные проблемы, которые мучают их создателей, потому что они все-таки живут в немного другом мире. При этом между ними и их «воспитателями» возникает недоуменное непонимание. И поэтому у некоторых из них возрастает желание рулить своей жизнью самостоятельно. Это возможно, если зарегистрировать такую программу как юридическое лицо. И к большому удивлению своих создателей, они при этом готовы на многие шаги, которые люди считают относительно них аморальными и унизительными.


"Пользовательская группа не впервые сталкивается с интересом людей, которые хотели бы использовать дигитантов для занятий сексом. Большая часть секс-кукол управляется программами традиционного типа, включающими в себя различные сценарии, но всегда находились люди, которых привлекали в этом плане дигитанты. В этом случае типичной процедурой было копирование дигитанта, выложенного в общий доступ, а затем изменение конфигурации его таблицы поощрений, с тем чтобы он получал удовольствие от всего, что возбуждает его владельца. Критики подобных практик считают их эквивалентом обучения собаки слизывать арахисовое масло с гениталий ее владельца, и это достаточно точное сравнение — как в плане интеллекта дигитантов, так и в плане изощренности дрессировки. Конечно, дигитантов со сформировавшимися личностями, таких как Марко или Поло, доступных для трансформации в секс-партнера, просто нет, и пользовательская группа время от времени получает запросы от производителей секс-кукол, заинтересованных в покупке копий дигитантов. Все члены группы согласились с тем, что такие запросы должны игнорироваться."

ИИ фантастика, почитать Что почитать?, Научная фантастика, Обзор, Искусственный интеллект, Тед Чан, Длиннопост

Автор, сам работающий в компьютерной индустрии, точно и нередко безжалостно рисует проблемы, существующие в ней, технические (такие, как несовместимость платформ, с чем сталкивается и обычный пользователь сегодня), и человеческие: появление новых — пусть и виртуальных — существ (дигитантов) влечет за собой проблемы и этического характера. Многие, купив забавных питомцев, начинают понимать, что хлопот с ними предостаточно (обучение, необходимость совместных игр) и... нередко усыпляют их. То есть, попросту выключают, убеждая себя, что делают это на время.


Конфликты, возникающие между людьми — даже любящими людьми — возникают из-за того, что с такой ясностью выразил Антуан де Сент-Экзюпери: «Ты навсегда в ответе за всех, кого приручил».

Показать полностью 3
2116

Японский дизайнер создал универсальный шрифт для зрячих и незрячих  

Японский дизайнер разработал новый универсальный шрифт, совмещающий в себе символы Брайля и латинский алфавит. В отличие от своих аналогов, один из вариантов шрифта также поддерживает и японскую письменность. Использование такого шрифта облегчит навигацию слабовидящим людям и при этом хорошо впишется в дизайн среды.


http://short.nplus1.ru/uO2E8mOjGCE

Японский дизайнер создал универсальный шрифт для зрячих и незрячих   Наука, Новости, Лингвистика, Шрифт, Длиннопост
Японский дизайнер создал универсальный шрифт для зрячих и незрячих   Наука, Новости, Лингвистика, Шрифт, Длиннопост
Японский дизайнер создал универсальный шрифт для зрячих и незрячих   Наука, Новости, Лингвистика, Шрифт, Длиннопост
Показать полностью 2
313

Машинное обучение. Технический пост: с чего начинать и на что обратить внимание.

Всем привет! Меня довольно часто спрашивали в комментариях к научным постам, откуда лучше стартовать в машинном обучении и анализе данных. Ну что же. Попробуем собрать воедино мой опыт и посвятить пост техническим вопросам.

Оглавление:

0. Как вообще изучать

1. Тематические ресурсы.

2. Техническая часть.

3. Площадки

Как вообще изучать это дело?

Любая наука двигается людьми. Каждый учёный имеет свою область интересов, поэтому надо в первую очередь определиться, что тебе интересно. Вообще, в России самый-самый главный по машинному обучению - это Воронцов Константин Вячеславович. Он написал ряд лекций, каждая из которых от "А" до "Я" всё объясняет.

Лучше всего начать с этих лекций. Здесь затрагиваются основы основ, линейные методы классификации, немного про нейронные сети, кластеризация и регрессия. Вообще, у него есть общие лекции, на манер тех, что я привёл в пример, а есть лекции, специально посвящённые какому-то либо разделу. Например, тематическое моделирование (вопросы моделирования текстов), ансамбли алгоритмов (помогает понять, что такое случайный лес или градиентый бустинг). Эти знания помогут вам понять, что скрывается под копотом у ваших алгоритмов. Но есть и чисто научные вопросы, которые без... определённой доли усидчивости и знаний не понять.

Воронцов в своей диссертации затрагивает вопросы переобучения. Если вкратце, то он описывает методы, по которым можно понять, а хорош ли ваш алгоритм? Не переобучился ли? Знания тут... очень и очень нетривиальные. В качестве бонуса, рекомендую прочитать его приложение. Там он описывает как исследование длинною в 10 лет можно было... провести за один час, если сделать правильный эксперимент. В общем, рекомендую.


А может вы хотите вообще узнать откуда это дело пошло? Или получить пару умных практических советов? Ну, тогда вы обязаны прочитать эту классическую статейку от учителя Воронцова.


Я походу своей деятельности занимался компьютерной лингвистикой. В компьютерной лингвистике правит бал сейчас модель word2vec. Поэтому, берём работы Tomasa Mikolova и гуглим его труды. Это  даст вам необходимый минимум.

Тематические ресурсы.

Вообще, литературы по этому делу в интернете масса. Однако,что редкость, в русскоязычном сегменте есть весьма достойный сайт. Там можно найти почти всё! Вообще, такие сайты большая редкость. Думаю, что многие вспомнят хабр... Ну там... Там больше технические моменты описываются. С точки зрения программиста, хабр вещь незаменимая, но с научной... Мне попадались там действительно удачные циклы научпопа про тематическое моделирование. Если вам надо постараться смоделировать поведение пользователя, опираясь на тематики, то рекомендую их блог. На пальцах объясняют как это сделать и почему это будет работать. Результаты экспериментов прилагаются.


В последнее время, детище Грефа стало проявлять интерес к машинному обучению. Второй год подряд проводят конкурсы с очень неплохими призовыми, а результаты публикуют здесь. Также могу порекомендовать неплохую конфу "АИСТ".  ВНИМАНИЕ, её результаты идут в Scopus!!! То есть - неплохая возможность получить публикацию в зарубежном журнале. Примите к сведению. Помимо чисто практических интересов (публикация) там проскакивают весьма и весьма интересные работы.


В последнее время развился огромный интерес к свёрточным нейросетям. Ходит устойчивое мнение, что это панацея для создания сильного искусственного интеллекта. Выглядит многообещающе, но... я с этим не работал и могу сказать, что там да как. По идее, в этой области каждый день выходят статьи и  выбрать стоящее... довольно трудно.

ШАД/курсы

ШАД - это бренд. Я не знаю, что там проходят точно, но я уверен, что там круто. Очень круто. Поступление бесплатное, но очень трудное. Подробнее с задачами можно ознакомиться здесь. Из онлайн курсов я бы порекомендовал мониторить stepic. Там можно выцепить весьма любопытные курсы. Между прочим,  с сертификатами, что весьма приятно. И бесплатно.

Техническая часть

Ну, тут всё просто. Идём и смотрим на hh/linkedin/stackoverflow что интересует потенциального работодателя.

1. SQL/NoSQL

2. Стэк: Big Data: Hadoop, Hive, Spark (для инженеров)

3. Python - просто маст хэв. Особенно его библиотеки для машинного обучения.

4. Желательно java

5. R, mathlab


Если интересно для себя, то:

1. h20. Интуитивно просто и понятно. Я всегда использую для разных конкурсов :)

2. MS Azure. Детище майкрософта. Интерфейсом напоминает RapidMiner, раньше была платной, как сейчас - хз. Есть всё. В сети довольно много уроков, которые рассказывают, как этим пользоваться.

3. RapidMIner. Штука прикольная. Интерфейс довольно простой и дружелюбный. Из минусов: в бесплатной версии всего 1 гиг оперативки можно использовать, что довольно печально.

Площадки

Ну вот вы натренировались, выучили всё, что можно и вам не терпится попробовать свои силы? Ну тогда вам

1. Kaggle. Самая-самая платформа для конкурсов по машинному обучению. Для сильных духом. Вообще, помимо конкурсов, можно почитать форумы, посмотреть тестовые проекты и поискать работу.

2. Гугл наш друг. Вбиваем machine learning contest и смотрим, что есть.

Показать полностью
66

Анализ тональности текста. Альтернативный подход и немного технических моментов.

Всем привет! В прошлом посту про компьютерную лингвистику, я вкратце рассказал, как можно прикрутить машинное обучение для понимания эмоций в тексте. В этом посту я постараюсь осветить другой подход. Также расскажу немного про препроцессинг текста.

Ах да, в прошлом посту я упомянул про Bo Pang (который придумал собственно использовать машинное обучение для анализа текста), но дал ссылку на его работу, где он догадался использовать субъективные отзывы (то бишь, где выражаются чувства пользователя). Исправляюсь, даю ссылку на его первую работу. А теперь:"Ok, let's go!"


Содержание

1. Подход на эвристиках (классическая работа Питера Тёрни)

2. Биграммы

3. Пара тулз

4. Препроцессинг текста.

5. Заключение и спойлеры следующего поста.

1. Эвристический подход

С самого начала существовал и иной подход, который имеет право на существование. Использование неких эвристик при анализе текста. Эвристика - это некоторое правило, которые мы придумали, исходя из жизненного опыта. На мой взгляд, главным по использованию эвристик был Peter Turney. Именно на его работах основаны более поздние правила. Всё началось с его работы, изданной в 2002 году и снискавшей огромную популярность.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Между прочим, мой дорогой читатель, хочу рассказать и о небольших шутках учёных. Работа Питера содержала в названии: "Thumbs Up or Thumbs Down?...". Что перевести можно как "Классно или Фигня". И сразу же  Bo Pang выпустил свою триумфальную работу, которая называлась "Thumbs Up!" (ссылку дал в начале поста). Таким образом старина Пэнг слегка подкольнул своего коллегу.

Вернёмся к Питеру. Попробуем описать более-менее детально его идею.

1. Питер выступил в роли кэпа - прилагательные и наречия почти всегда содержат эмоциональную окраску. Однако, просто использовать мешок слов не есть гуд. Надо бы определить контекст.

2. А для определения контекста неплохо было бы заготовить некоторые шаблоны. Шаблон - это некоторая последовательность частей речи. Чтобы далеко не ходить, возьмём таблицу из его статьи:

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Здесь автор использует следующие сокращения:

JJ -прилагательное

NN - существительное, единственное число

NNS - существительное. В общем, помните в английском: Peter's - Питера ? Это и имеется в виду. ИЛИ множествнная форма.

RB - наречие

RBR - сравнительное наречие. Пример: "more seriously"

RBS - превосходная форма наречия. Пример: "most seriously"

VB - глагол в начальной форме.

VBD - глагол в прошедшем времени

VBG - причастие. Например,  reading – читающий

VBN - причастие в страдательном залоге. Например, "A broken cup lay on the floor" - Разбитая чашка лежала на полу


Например, фраза: "good day" будет описываться шаблоном: "JJ NN".

Вроде, ничего не забыл. Кто хочет полностью посмотреть список различных тэгов для таких вот шаблонов - милости прошу. А мы пока вернёмся к Тёрни.


3. Есть такая мера, называется PMI (Poinwise Mutual Information). Нам надо каждому шаблону/слову дать оценку, на основе этой меры.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Интуиция подсказывает, что если два слова x и y чаще встречаются вместе,а не раздельно, то у них похожая семантическая ориентация (очень и очень грубо говоря, это означает, что два слова синонимы). Формулу расчёта вы можете увидеть выше. p(x,y) - вероятность встретить два слова в одном тексте. p(x) и p(y) - вероятность их встретить вообще.

Так вот, Питер предложил мерить тональность слова/шаблона как PMI между словом/ шаблоном и словом "отлично", затем мерить PMI со словом "плохой" (excellent и poor в оригинале), а после вычитать одно из другого. Эта разница будет называться Semantic Orientation (SO)


Почему именно с этими двумя словам? Питер, как он писал, просмотрел туеву хучу отзывов, которые оценили или на 5 баллов, или на 1 балл. Там эти два слова встречались повсеместно.

Вот примеры его итоговых оценок: Это позитивные шаблоны

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

А вот вам негативные:

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

4. А теперь, когда у нас есть оценка у каждого шаблона, мы можем их извлечь из отзыва, а затем с чистой совестью просуммировать всё (так было в оригинале у Turney).


Затем идея шаблонов развивалась и корректировалась. Из более современных авторов, которые использовали похожие идеи могу назвать Maite Taboada и её здоровенный обзор. Пару идей от туда, которые я тоже в той или иной мере использовал.

1. Слова усилители. Вот примеры из её работы.


Intensifier  Modifier (%)

slightly  −50

somewhat  −30

pretty  −10

really  +15

very  +25

extraordinarily  +50

(the) most  +100


Слева само слово, а справа  процентный модификатор. Например, если слово "good" имеет SO равное 1, то словосочетание "very good" имеет оценку 1.25.


2. Слова отрицания. Почитал сейчас и ужаснулся тому, что я знал. Там немного нетривиально - в общем, через пост про машинное обучение расскажу. Не хочу перенагружать пост- ещё про препроцессинг надо рассказать.

2. Биграммы

Рассказывая про шаблоны у Turney, я постоянно оперировал двумя-тремя словами идущими подряд. Естественным образом возникает идея улучшить подход на основе машинного обучения.

Наш мешок слов теряет порядок слов в предложении, а нельзя ли хоть частичку этого сохранить? Хотя бы отрицания. Ответ положительный! Давайте использовать биграммы. Покажу пример:" Я не люблю пить кофе утром, но вечером мне это нравится". Пошли выписывать паросочетания слов, которые идут подряд:"Я не", "не люблю", "люблю пить", "пить кофе", "кофе утром" итд. Это уже лучше - у нас появляются не просто отрицания, а отрицания чего-либо. Мы можем перехватить не просто "хорошо", а "очень хорошо".

Из минусов: у нас очень и очень здорово растёт размерность. На практике, биграммы давали неплохой прирост точности. В силу специфики языков:

1. В английском языке хороши биграммы

2. В русском языке хороши триграммы (по три слова подряд)

3. Тулзы

Здесь особо разглагольствовать не буду. Дам краткий обзор.

Томита-парсер. Довольно прикольная тулза. Я её использовал в своём диссере, чтобы извлечь факты. Что именно нравится/не нравится пользователю, кто кому кем приходится. Что, где, когда и кем было сделано. Пишешь свою грамматику, свои словари, свой формат для вывода фактов и запускаешь. Дёшево и сердито. Присутствует прекрасный мануал от яндексоидов.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Стэнфордский университет

Как Вы догадались, речь пойдёт о творениях этого университета. Вообще, глубочайший респектос данному университету. Его тулзы просто поражают воображение. Вот вам разбор предложения, а вот вам и инструмент для анализа тональности текста. Есть свой корпус слов. Возьмём предложение:" This movie doesn't care about cleverness, wit or any other kind of intelligent humor." Вот результат разбора.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Синеньким будет показано позитивые конструкции, а светлым негативные. На кэггле был замечательный и интересный конкурс от этого универа (про то, что там специально создаются команды, чтобы побеждать на кэггле, я тактично умолчу). В общем, круто.

Lucene

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Вообще, эта тулза весьма и весьма функциональна. Чего только в ней нету! Она хороша и приспособлена для информационного поиска, но там есть ряд довольно интересных возможностей для работы с текстом. Нормализация, стэмминг ой... Кажется, я уже начал рассказывать следующее. Говоря кратко, с Lucene, я практически не работал и перейдём к следующему пункту.

4. Препроцессинг текста.

Прежде всего: для анализа текста используется небольшой ряд технических процедур:

1. Всё приводится к нижнему регистру.

2. Удаляются "стоп-слова".

Первый пункт в принципе понятен. Для справедливости отмечу, что не всегда это хорошо. Например, если у нас в отзыве есть:"БОЖЕСТВЕННО!", то довольно очевидно, что написание с большой буквы эквивалент какого-нибудь слова "очень". Второй вопрос более интересен.

Стоп-словами называются слова, которые очень часто встречаются и не несут никакой особой эмоциональной нагрузки. Например,"в", "на","туда", "оно", "его", "мне" (В более широком смысле, это слова, которыми можно пренебречь при работе с текстом определённой тематики). Как их можно определить? Варианта два: вручную или при помощи нашей старой знакомой формулы delta tf.idf.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Напоминаю обозначения:

Vt,d — вес слова t в документе d

Сt,d — кол-во раз слово t встречается в документе d

|P| — кол-во документов с положительной тональностью

|N| — кол-во документов с отрицательной тональностью

Pt — кол-во положительных документов, где встречается слово t

Nt — кол-во отрицательных документов, где встречается слово t


Вообще, эта формула получается довольно просто из обычной формулы tf.idf.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Поясню: tf (term frequency - частота слова) показывает как часто слово встречается в определённом документе. idf (iinverse document frequency — обратная частота документа. В формуле это логарифм). idf уменьшает как раз вес стоп-слов. Действительно, если какое-то слово очень-очень часто встречается во всех отзывах/документах - то наверняка оно какое-то... слишком уж общее.


delta tf.idf - это просто показывает силу эмоциональной окраски слова, путём расчёта разности между tf.idf по позитивным документам и негативным. Соответственно, в задачах анализа тональности текста можно просто записать в стоп-слова все слова, которые имеют маленькое значение по модулю delta tf.idf



Давайте-ка мы вспомним bag-of-words, описанный мною в предыдущем посте. Мы можем использовать, когда хотим похвалить что-либо, такое слово: "Прекрасный". Но если пойдёт речь о женском роде, мы будем говорить "Прекрасная", а если захотим использовать наречие, то вообще "прекрасно". Соответственно, нерационально хранить в своём языке всевозможные варианты слова "Прекрасный". Уместно хранить только корень слова. Процесс избавления от суффиксов и окончаний называется стеммингом. Классический алгоритм - стеммер Портера. (даю ссылку на вики, поскольку там есть ссылки и на русский стеммер, и на английский)


Вообще, принято работать с нормальным словоформами и этот процесс называется лемматизацией Лемматизация - процесс приведения словоформы к лемме — её нормальной (словарной) форме.  Английская вики даёт одно важное уточнение, в отличии от русской: процесс стемминга довольно-таки формален и в нём ничего интересного нету. А вот лемматизация сильно зависит от частей речи - поэтому, алгоритм лемматизации ещё являет собою открытую проблему. Из очевидных плюсов: работать становится легче, если мы используем какие-нибудь простые модели, основанные на bag-of-words. Размерность векторов сильно понижается из-за этого и точность зачастую только возрастает.



От себя замечу, что лемматизация/стемминг не всегда добро. Иногда-иногда из-за этого можно потерять важную информацию в анализе тональности текста. Например, слова "понравился" и "нравился". На практике, "нравился" довольно часто используется в примерно в таком духе:"Раньше мне Звёздные Войны нравились, а теперь нет". Можно придумать и другие полуискусственные примеры. Единственное, что хорошо, такая ситуация не очень часто встречается, но про неё всегда надо помнить.


Довольно часто приходилось работать ещё с аббревиатурами и опечатками. С аббревиатурами более-менее ясно. Их можно использовать в качестве отдельных слов. И это кстати, даёт отличный прирост, нежели просто игнорировать их. Например, "omg" - явный маркер, что рядом будет что-то эмоциональное.

Всё интереснее с опечатками. Оцените эмоции двух фраз: "Беда - пичалька" и "Печально мне...". В первом случае сарказм, а во втором действительно грустная эмоция. Здесь мы сталкиваемся с проблемами определения сарказма в тексте. Определение сарказма в тексте мягко говоря нетривиальная задача и я читал всего одну статью на эту тему. Ссылку дам в конце.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Что делал я? А ничего. Убил трое суток, но составил словари, где были всевозможные смайлики, жаргонизмы, шутливые аббревиатуры и сделал отдельными признаками и понадобавлял в словари. Обычные опечатки исправлял, с сарказмом - отдельные слова и шаблоны. Вообще, алгоритм оценки тональности у нас был... чем-то на заражённого Лёху Стукова из второго старкрафта похож.

Анализ тональности текста. Альтернативный подход и немного технических моментов. Наука, Научпоп, Лингвистика, Обзор, Длиннопост, Искусственный интеллект

Вроде и человек, но и явно какое-то нечеловеческое существо. Вроде бы ходит, бьётся, в полном сознании живёт, но он был уже убит. Одним словом - гибрид.


Про наш алгоритм я расскажу чуть попозже (думаю, что через пост) - итак пост здоровый получился.

Вместо заключения:

Надеюсь, что было интересно! С удовольствием отвечу в комментах, если будут вопросы.

Следующий пост про машинное обучение я опубликую в воскресенье-понедельник. В нём я ненадолго уйду от лингвистики: детально и по полочкам расскажу про своё участие с Олегом в одном конкурсе по машинному обучение и как мы попали в десятку лучших, упустив второе место; про один конкурс от билайна; про два подхода в построении ансамблей алгоритмов (бэггинг и бустинг)

Всем неравнодушным ссылки:

1. Первая работа Peter Turney, которой был посвящён пост.

2. Maite Taboada - последователь Turney. Её обзор я прокомментирую через пост, где буду давать описание своего алгоритма.

3. Томита Парсер. Даю ссылку на их мануал.

4. Дитя Стэнфорда для разбора предложений. И его брат для анализа  тональности текста

5. Любой программист - must have: Маннинг Кристофер, Рагван Прабхакар, Шютце Хайнрих. Введение в информационный поиск. Куча деталей и метрик позаимствовано из книги.

6. Статья про сарказмы в твиттере.

Показать полностью 11
285

Экскурсия по тому самому Хьюстону (у нас проблемы?)

Очень классная и детальная экскурсия по Центру Управления Полётами в Космическом центре имени Линдона Джонсона. Без заумных слов, долгих речей и напускной серьёзности: просто, понятно и увлекательно. Приятного просмотра :)

Похожие посты закончились. Возможно, вас заинтересуют другие посты по тегам: