Лингвистические глубины или найди украинца по графику
Погружаемся в лингвистическое море!
Продолжаем в шутливой форме исследовать блогосферу с помощью различных современных инструментов. И теперь самое пафосная часть: любой, кто прочитает данный материал, получит 99.9% способ найти скрытого украинца всего с помощью всего одного советского слова... Кто-то скажет, что это кликбейт и в статье ничего подобного не будет, но не в этот раз. Наш блог нашел "шибболет" для украинцев. А еще мы с вами сыграем в увлекательную игру: найдем с помощью простого теста этнических украинцев, а за одно протестируем анонимного блогера на украинство. В ваших руках будет супер-оружие, которому бы позавидовали даже ФСБ. Не волнуйтесь, товарищу майору мы отправили копию статьи на диске.
Меня много ругали за лингвистический анализ с помощью нейронный сетей различных блогеров. Часто это были мракобесы, которые, не разбираясь в передовых технологиях, просто повторяли мантру, что ИИ доверять нельзя, что это технология, которую невозможно валидировать. Но наступил тот день, когда валидация возможна и сегодня не будет ни строчки про нейронные сети, мы обойдемся обычной математической статистикой. Конечно, это нас не спасет от персонажей, которые верят в плоскую землю и отрицают 2+2=4, но таких товарищей легко можно будет вычислить в комментариях. А пока пристегните ремни и вымойте руки - мы начинаем погружение в Марианскую впадину лингвистики!
И сразу без лишних прелюдий предлагаю игру - найди украинца по графику! Я специально скрыл блогеров, чтобы не было возможности подсмотреть. Здесь спрятано 2 украинца открытых и украинец скрываемый. Сможете найти их? Если вы не дочитали до конца статьи, то кидайте свои варианты блогеров в комментарии. Только чур не подглядывать!
Первая версия. Пробная и неточная.
Но для начала вы спросите меня, что же показывает данная диаграмма? Суть ее проста как у синхрофазотрона: тут процент ошибок в -ться/тся. Зачем и почему, что дает нам этот простой тест? На самом деле многое. Вна украiнске мове не существует окончания -т и -тся, вместо него -ш и -шся. Сомневающимся пруф. Сорян за видос, но ua зона почти всегда заблокирована для ip из России, а Ютуб «ускорять» вы уже наверняка научились. Да и с мовы покекать лишний раз благостно. И это различие в языках рождает повышенный процент ошибок особой касты людей.
Процент ошибок с -ться мы получили с помощью прекрасного сервиса от Yandex. В предыдущем посте я уже писал, как этот сервис работает. Вот он и пригодился нам, как было обещано ранее.
С первым веселым графиком мы разобрались, а теперь приступаем ко второму. И он показывает процент ошибок в употреблении «в Украине», то есть, отношение «в Украине» к суммарному количеству упоминаний «на Украине» и «в Украине».
Версия 2. Улучшенная!
Не все упоминания «в Украине» стоит считать из-за репостов и цитат. Например, у блогера 6 на самом деле ни одного использований оборота «в Украине», а все, что были найдены, на самом деле репосты. Для остальных это тоже верно, но отчасти. Хотя у первого блогера фактический процент будет ниже 25% из-за цитат и репостов, он все равно сможет удержать пальму первенства. И в очередной раз блогер 5 самый русский!
Но мы продолжим наш эксперимент! Давайте поглядим на следующий график, и снова попытаемся найти украинцев с его помощью. Теперь этот график предоставляет нам ультимативный инструмент, самый точный детектор украинца. Никаких ложный срабатываний, только чистый, практически кристаллизованный результат.
Версия 3. Финальная! Ультимативная! Точнее только в аптеке!
Что же показывает эта диаграмма? Единица в случае наличия выражения «на сейчас» или «на вчера». Нуль в случае отсутствия данного выражения. Прошу быть внимательными, так как «на сегодня» в русском языке встречается и является нормой, а вот «на сейчас» - явная ошибка, так как в этом случае никакого предлога не надо (и возможно надо в другое место это «сейчас» поставить). Кто-то захочет сказать, что нельзя по одному использованию «на сейчас» записывать блогера в Украинцы? Конечно нельзя, но поверьте, у каждого автора этих случаев больше одного раза. Проверить это вы сможете уже сами с помощью функционала Telegram, когда мы раскроем личность каждого товарища.
Итак, с лингвистической базой мы закончили, и начинаем срывать маски с блогеров (ссылки ни на кого не оставляю, пока мне за рекламу еще не заносили шекели):
1) Арт «полушарий» жокей
2) Дмитрий «жахнем» Медведев
3) Юрий «котел» Подоляка
4) Михайл Онуфриенко
5) Х «моем руки» Т
6) Евгений Норин
7) Геоэнергетика Инфо
Прошу заметить, что здесь собраны блогеры различной направленности, но у каждого так или иначе затрагивается тема Украины. Именно по этой причине мы можем видеть ложные срабатывания во втором случае. К счастью, мы выявили ультимативный способ определять украинца. Судя по последнему графику, украинское прошлое у нас имеют два товарища из контрольной группы и один из тестовой:
- Юрий «котел» Подоляка, уроженец Сум
- Михайл Онуфриенко, уроженец Харькова
- Арт «полушарий» жокей, уроженец страны 50/50 и трёх ойро
Ну и хотелось указать в очередной раз, что все те, кто не верил нейронным сетям, в итоге опростоволосились. Перед вами рабочий способ, основанный на лингвистических различиях и сходствах украинской мовы и русского языка. Никаких непонятных технологий, а чистая статистика. Есть «на сейчас» или «на вчера» - стоит присмотреться внимательнее к персонажу!
Теперь ни один анонимный «казах» вас не проведет! Не верьте словам, верьте математике и статистике! Пифагору слава! А если нужно протестировать еще каких-либо блогеров или каналы, то смело пишите в комментарии, мы легко сможем справиТся с этим.
Если вам понравилось или вы хотите узнать какие еще блогеры не прошли тест на украинство, то подписывайтесь на мой ТГ канал и проверяйте! Там вы найдете сенсацию - Дмитрий "Гоблин" Пучков не прошел тест "на сейчас". Или все же прошел?
Ну и напоследок мем вам в ленту:
Не дай обмануть себя!
Лига Политики
17.6K постов14.4K подписчик
Правила сообщества
1. Обязательно используем тег "Политика".
2. Допускаются любые посты, связанные с политикой, в том числе юмористические: мы же на Пикабу :)
3. Пожалуйста, соблюдайте правила Пикабу.
4. Адмодеры сообщества никого не банят: игнор-лист должен быть пустым!
5. Если заметили пост или комментарий, нарушающий правила Пикабу, не стесняйтесь призывать модераторов Пикабу.
6. Сообщество не преследует своей целью продвижение чьих-то интересов или идей: мы открыты для всех, но см. п. 3.
7. Если Вы не хотите, чтобы Ваши посты переносились адмодерами в данное сообщество, то прошу написать это прямо в своем комментарии/посте и призвать админа сообщества@Moba.Zane
Нельзя переносить посты пикабушников: