Как мы делали искусственный интеллект на комментариях к видео канала Вдудь и удивлялись Word2Vec.
О том, как мы делали сайт для Вдудя я писала в предыдущем посте: https://pikabu.ru/story/kak_myi_delali_sayt_dlya_vdudya_5676... . Но этого нам показалось мало)
Итак, по долгу службы у нас уже были комментарии к видео канала Вдудь (для сайта о котором я писала ранее). Оставалось придумать что с ними можно сделать еще. Так уж получилось, что обработкой естественного языка мы занимались давно и со времени последних экспериментов прошли годы. И вот за эти годы появилось нечто, которое хотелось пощупать - Word2Vec.
Конечно, можно было бы построить честного чат бота на каких-нибудь LSTM сетях, имитирующего средне-статистического комментатора к видео Вдудя, но нам это было не так интересно, как поэкспериментировать с Word2vec. За этим незамысловатым названием стоит довольно удачная попытка автоматически извлекать"смысл" слов из набора текстов и дать возможность этим смыслом алгебраически оперировать.
Концептуально Word2Vec стремится имитировать мышление - ведь наше сознание тоже занимается постоянным извлечением смыслов отдельных терминов и, манипулируя ими, порождает новые. Под смыслом в Word2Vec понимается вектор в многомерном пространстве, а под алгебраическими операциями - операции с векторами - сложение и вычитание. Магия Word2Vec - это когда хорошо обученной (не нашей:)) модели на вход подается формула, к примеру:
Лондон+Россия-Англия и модель не моргнув глазом выдает: "Москва"! И правда, Москва по отношению к России - это то же, что Лондон по отношению к Англии. Чудеса! Другой пример уже наш: что будет если из профессии программиста убрать магию?...... место для ответа.......
Спросим Word2Vec: программист-магия = ИНЖЕНЕР! Попробуйте поспорить! А теперь представьте себе, что этот вывод модель сделала изучив только комментарии к видео канала Вдудь и БОЛЬШЕ НИЧЕГО. Никаких словарей, онтологий, тезаурусов и т.д. Только 700к+ коротких комментариев, написанных в спешке, политизированных, неприличных, саркастических, восторженных и т.д. Разумеется никто в этих комментариях специально не отвечал на поставленный вопрос и главное явных обсуждений программистов в этих комментариях не было. То есть наша модель сумела схватить "смысл" слов программист и магия и даже смогла найти слово, которое лучше всего подходит если мы займемся "вычитанием" смыслов. Неплохо, да?
Технически построение модели осуществить было довольно просто:
1. Извлечь комментарии к видео с канала Вдудь. В этом прекрасно помогает Youtube api, мы использовали обертку для Java maven: com.google.apis:google-api-services-youtube:v3-rev193-1.21.0, полученные комментарии заботливо положили в файлик.
2. В теории Word2vec можно обучать на текстах никак их не преобразовывая, но мы все же решили отстемить (привести к начальным формам слов), поскольку выборка была небольшая и хотелось на выходе Word2Vec получать сразу то, что нужно. Для этого использовали яндексовский mystem. Внимание! Не используйте mystem для конкуренции с яндексом (это выжимка из их лицензии, подробнее читайте на сайте mystema :)
3. Для построения модели использовали deeplearning4j в которой Word2Vec есть из коробки и который очень просто использовать.
4. Перед построением немного фильтрации - слишком короткие комментарии убираем, слишком длинные тоже, убираем неактуальные части речи - союзы, частицы, предлоги, спасибо mystem.
5. Размерность итогового вектора выбрали 150, использовали негативное сэмплирование и скипграммы. Запускаем обучение!
Обучение производилось на GeForce GTX 980M и заняло несколько часов. Модель мы подключили к простенькому телеграм боту, чтобы можно было легко экспериментировать http://t.me/NeuroDudj_bot . Бот выдает не одно слово, а несколько наиболее близких к формуле на входе. Если хотите поразмять мозги - попробуйте к каждому слову, выдаваемому ботом на формулу придумать объяснение, то есть догадаться, что модель "имела ввиду". Для слов, которые модель не знает бот выдает забавные фразы, обозначающие отсутствие ответа. Интересные формулы и ответы на них присылайте в комментарии.
Ну и напоследок: на волне недавних попыток роскомнадзора заблокировать телеграм узнаем, что же думает по этому поводу наша нейронная сеть:
Мне кажется иногда нейросеть "умнее", чем мы думаем)
Тёплый ламповый MTV
Как же быстро мать его, бежит время. Быстро, неумолимо и безвозвратно. Ещё вчера казалось что вся жизнь впереди, а 30 лет это уже глубочайшая старость. Но всё течёт и всё меняется, неизменными остаются лишь самые яркие и тёплые воспоминания. Ими я и предлагаю проникнутся всем желающим и в первую очередь поколению MTV...
Пепси, пейджер, MTV а так же лучей бобра добра всем
Заставим Грудинина сбрить усы? #грудининбезусов
До выборов Грудинин давал интервью Вдудю, где обещал, что сбреет усы, если наберёт меньше 15% на выборах. Собственно, он набрал 11,81% (ссылку кидать не буду, гуглите).
Так вот, уже ночью Грудинин начал юлить, мол, всё куплено, подстава, судья, продажная!
Так вот, наткнулся в инстаграмме на данный пост, как думаете, стоит поддерживать и форс или всё равно Гарри Грудини сольётся?
Режиссерам посоветовали не снимать актеров с антироссийскими взглядами
Для режиссеров могут выпустить рекомендацию не приглашать сниматься в кино актеров с антироссийскими взглядами. Речь идет о фильмах, которые финансируются государством
Первый зампредседателя комитета Госдумы по развитию гражданского общества Иван Сухарев подготовил такой запрос министру культуры Владимиру Мединскому. «Получается странная ситуация, когда некоторые деятели культуры мало того, что поливают грязью русских, но делают это за их же счет. Конечно, запрещать ничего не надо, но обратить внимание на эту ситуацию следует», — цитирует RT слова депутата.
Актер Алексей Серебряков 20 февраля заявил в интервью блогеру Юрию Дудю, что национальная идея России заключается в «силе, наглости и хамстве», напоминает «Национальная служба новостей». Эти слова вызвали массу критики со стороны деятелей искусства и рядовых граждан. Однако, у Серебрякова нашлись и сторонники. Скандально известный актер Алексей Панин заявил, что мечтает сбежать из России от «грязи и злобы», пишет «Утро.ру»
Артист Серебряков, известный по ролям в фильмах «Левиафан», «Груз 200» и «Обитаемый остров», оформил канадское гражданство несколько лет назад. На родину он приезжает исключительно на съемки и по рабочей визе, уточняют argumenti.ru
Сможете найти на картинке цифру среди букв?
Справились? Тогда попробуйте пройти нашу новую игру на внимательность. Приз — награда в профиль на Пикабу: https://pikabu.ru/link/-oD8sjtmAi
"Серебряков" или кому в России можно зарабатывать "бабки"
Недавно произошел конфликт мнений, между актером Алексеем Серебряковым и его коллегами по цеху и не только.
А все из-за его фразы в интервью:
"Я думаю, что, если отъехать на 30, 50, 70 км от Москвы, много элементов 1990-х годов вы увидите. Так или иначе, до сих пор ни знание, ни сообразительность, ни предприимчивость, ни достоинство не являются прерогативой национальной идеи. Национальной идеей являются сила, наглость и хамство."
С ним можно соглашаться можно и нет. Как по мне, Серебряков даже немного приуменьшил сказав, что нужно куда-то уезжать из Москвы, чтобы увидеть этих элементов, в столице их с лихвой.
И тут всех как прорвало. Мне даже стал странно, что вдруг все на него набросились. Но все же.
Один из первых слова актера прокомментировал Первый заместитель председателя комитета Госдумы по культуре Владимир Бортко газете RT
«Я снимал его в двух фильмах, оба были предельно патриотичны. Тогда он не заявлял ничего подобного. Что с ним случилось сейчас, я не знаю. Национальная идея России — любить свою родину. И эта идея позволяла нам выживать на протяжении столетий, будучи, мягко говоря, в не сильно благожелательном окружении. Серебряков хороший артист, кстати. Но хороший артист не значит умный человек. Если он не желает любить свою родину, то и работать ему здесь не стоило, и деньги получать. С его стороны это не очень логично и подловато. Он может оставаться там, где царят «сила, наглость и хамство», — заявил Бортко.
Он не единственный так же высказался известный писатель Сергей Лукьяненко для газеты Комсомольская правда.
Конечно, это печальная ситуация, когда в целом неплохой актер зарабатывает в стране, которую публично ненавидит, презирает, выражает к ней негативное мнение. И еще более неприятно наблюдать за тем, что у нас в стране его приглашают, снимают, платят ему деньги и так далее. Я лично считаю, что человек после таких высказываний должен быть некой персоной нон грата, по крайней мере, для всех официальных деятелей и студий. Если в фильме, который снимается, есть хотя бы копейка государственных денег, то есть денег, идущих от народа нашей страны, то мне кажется, в этом фильме не должно быть господина Серебрякова. Если какой-то замечательный режиссер позовет его выступать, это его право. А если там хоть копейка от министерства культа или от «Фонда кино» есть, то, наверное, не надо. Пусть он снимается в Канаде, выступает на каких-нибудь елках для иммигрантов.
Режиссёр Карен Шахназаров в разговоре с НСН прокомментировал слова актёра так:
«Человек выбрал местом жительства Канаду. Это, безусловно, его право. Человек при этом постоянно работает в России и зарабатывает немалые деньги. Я не слышал, чтобы актёр Серебряков был востребован где-нибудь в Канаде, в США или других странах. Зачем же ты после этого выступаешь с такими заявлениями? Какая в этом нужда? Для того, чтобы получить какие-то плюсы на своей новой родине? Это некрасиво и бесчестно», — заявил режиссёр.
И еще одна якобы разгромная статья от Комсомольской правды.
В которой журналист рассказывает о своем путешествии по селам и деревням и какие там милые, добрые, работящие и самое главное не пьющие люди живут. Как избирательно попались ему на глаза именно эти люди. Я лично могу только порадоваться за него и за тех людей, которых он встретил. Но приторность и однобокость в статье зашкаливает. Почитайте и вы возможно меня поймете.
А теперь итог.
Во первых, каждый в праве жить там где он хочет. И если у него есть желание и возможность жить в Канаде пускай, и это к делу не имеет никакого отношения.
Cмотрите что получается каждый из деятелей кто высказывался по поводу этой ситуации говорил по сути одно и тоже. И вот от этого мне стало немного, совсем чуть-чуть но страшно. Они говорят:
В. Бортко: "... Если он не желает любить свою родину, то и работать ему здесь не стоило, и деньги получать. С его стороны это не очень логично и подловато."
К.Шахназаров: "... Человек при этом постоянно работает в России и зарабатывает немалые деньги. Я не слышал, чтобы актёр Серебряков был востребован где-нибудь в Канаде, в США или других странах."
С.Лукьяненко: "... И еще более неприятно наблюдать за тем, что у нас в стране его приглашают, снимают, платят ему деньги и так далее. Я лично считаю, что человек после таких высказываний должен быть некой персоной нон грата, по крайней мере, для всех официальных деятелей и студий."
Мне вот интересно, вы уловили суть? То есть получается если в стране есть проблемы, а проблемы есть в абсолютно любой стране. В частности, по мнению Серебрякова для России — это сила, наглость и хамство, то об этому говорить нельзя, да и о других проблемах как-то тоже лучше молчать. Почему? Да все очень просто и даже смешно, только это смех сквозь слезы. Молчи, только ради того, чтобы тебе дали зарабатывать в России бабки. Хочешь здесь работать тогда надень розовые очки и тверди как попугай что в России все хорошо не обращая на проблемы в стране. Лучше выложи фоточку в инстаграмм как ты хорошо живешь в России и благодаря России, а если ты решил подумать о тех кому плохо, о тех, кто не живет, а выживает...То ты просто лицемер и русофоб.
Знаете, те кто поют дифирамбы о России, в целом они молодцы, родину нужно любить, но не нужно себя обманывать и думать, что все у нас хорошо. Проблемы есть и их нужно решать. Но не путем замалчивания и убеждения себя в обратном.
p.s
«Разбудите меня лет через сто, и спросите, что сейчас делается в России. И я отвечу — пьют и воруют.» Михаил Салтыков-Щедрин 1826−1889