silentio.facto

Пикабушник
поставил 12282 плюса и 391 минус
отредактировал 0 постов
проголосовал за 0 редактирований
11К рейтинг 18 подписчиков 14 подписок 20 постов 8 в горячем

Стоматология тридцать лет спустя

Сходил к зубному на днях. Ничего не беспокоило, но свободное время выдалось. Давно не был. Надо.

Я вырос во времена Советской стоматологии. Основная функция которой – подготовить партизан, равнодушных к боли, людей, которые плюнут в лицо палачам, с усмешкой. И это всё, на что ты способен? Лох!

Помню кабинеты с бетонными стенами и тусклой лампой под потолком. Вибрация, которая пронизывает от пяток до темени, запах жжёной плоти, костная пыль покрывает, как саван, треск костей, отдающий в мозг... О боли не думаешь. Ты в ней растворяешься и мечтаешь об облаках. О Небе. Вечный город, я иду к тебе. Я возвращаюсь домой.

– Всё нормально. Вам нужно две пломбы заменить. Очень старые. Могут выпасть. Сегодня одну, завтра вторую.
– Меняйте сразу две. Второй раз не приду. Времени нет. Занят.
– У нас сильная анестезия. Может поплохеть с двух уколов.
– Никакой анестезии.
– Точно?
– Абсолютно.

Каждые пять минут она спрашивала о боли и норовила тыкнуть шприцем с обезболивающим. Успокаивал, как мог. Чувств никаких, вообще. Будто лазером. Доктор не верила и переспрашивала, продолжая работать. Ситуация откровенно забавляла.

На ресепшене стало ещё смешнее.

– Две пломбы. Запиши.
– Как две?! Ты нормальная?! Так, пациент, не отключаемся. Смотрим на меня. Сколько пальцев?
– Без анестезии. Вот так я могу! Сука...

Ушёл, мерзко хихикая. Всё-таки мы очень разные.

Показать полностью

Гомологические мыши

Мне никогда не снятся кошмары. Когда сплю, понимаю, что сплю. Всё происходящее воспринимается как фильмы: от мелодрамы до боевика. Но сегодня словил первый ночной кошмар за долгие годы.

Снилось мне... Впрочем, неважно, главное, проснулся. Открыл глаза.

Ночь, темно, огни за окном, потянулся к телефону посмотреть время. И увидел тень на полу. Присмотрелся. Мышь! Только этого не хватало. Вторая тень мелькнула. Прищурился в темноту... Ещё одна! Целый выводок, у меня в квартире, пятнадцатый этаж!

Тут мыши столкнулись посреди комнаты, обнюхались. Встали на задние лапки, поклонились друг другу и принялись танцевать вальс. Очень элегантно. Даже залюбовался.

– Вот и всё. Тот учебник по дифференциальной топологии был лишним. Попытки посмотреть за край Вселенной ничем хорошим не заканчиваются, – подумал я обречённо. – Снёс себе крышу. Но почему мыши? Метафора. Грызунов не останавливают стены. Они умеют проходить сквозь них, прогрызают пространство. Они...

Мыши прекратили танцевать. Посмотрели в мою сторону и синхронно поклонились.

Тут я и проснулся по-настоящему.

Их нравы

После работы наша бригада любила прогуляться до Серебряного бора. Взять магазинных салатиков, литр беленькой и вдумчиво распить под неспешную беседу и созерцание нудистского пляжа. Нудисты резвились на противоположном берегу. Мужикам из деревни подобные изыски были в диковинку. Мужики пристально всматривались.

– Москва, мать её, Столица... Поплыли? С девками погутарим. Малой, ты с нами?

Малой в моём лице разомлел на солнце и лениво отмахнулся.

– Вот молодёжь пошла, ничего не интересует. Я в твои годы, чтоб на сиську посмотреть в город ездил. На велосипеде, по сугробам, поленом от волков отмахивался. Пропащее поколение.

Два каменщика и штукатур резво сорвались с налёжанных мест, прыгнули в воду и с энтузиазмом погребли навстречу приключениям.

Приключения долго не продлились. Вернулись довольно скоро, своеобразной манерой.

Впереди, по водной глади аки посуху, скользил штукатур. Каменщики заметно отставали, вели себя странно: плыли кругами, погружались время от времени, пускали пузыри.

Штукатур добежал, плюхнулся на песок, мрачный и взъерошенный. На все расспросы злобно отмалчивался. Каменщики выползли из воды и стали кататься по берегу, подвывая от смеха, как гиены, разбрасывая вокруг слёзы, сопли и слюни.

– Да что случилось?! Что?! Рассказывайте уже!
– Толик наш... Толик... Не могу, сейчас сдохну! Всё. Спокойно. Спокойно. Приплыли мы, стоим, любуемся. К Толику подходит мужик, весь в мускулах, убийца-терминатор, болт до колена, в руках мячик, и говорит: «Давай дружить, ты такой симпатичный. Попка у тебя круглая, упругая». И мячик поглаживает. Толик как рванёт! С женой разводиться побежал.
– Что же мы Насте скажем... Не уберегли мы твоего мужа, Анастасия. Вдова ты теперь, как есть вдова.
– Просто я очень красивый, в отличие от вас, уродов.
– Только приехал, а уже мальчика себе нашёл. Вот что Москва с людьми делает. Был мужик и нет мужика.
– Меня все хотят. А вам даже жёны только по праздникам дают.
– Одумайся! У него хер, как у коня. Оно того не стоит!

Я зацепил немного винегрета пластиковой вилкой, задумчиво прожевал. Подумал, что навсегда запомню это лето. Не только тяжёлый труд, цемент и кирпичи. Но и пляж, солнце, реку. И этих ребят.

Показать полностью

Сила в знании

В школьной программе 90-х появилось много странных предметов и много странных учебников. Макулатура из какой-то параллельной вселенной. Но попадались среди бумажного мусора и забавные книжки.

Запомнилась история английского путешественника из брошюрки по философии и психологии общественного поведения и самосознания (или типа того). Путешественник путешествовал по лесам Амазонии вместе с гидом-аборигеном и записывал увиденное.

Наступила ночь, разбили лагерь.

Англичанин лежит у костра и не может заснуть. В джунглях шумно. Вокруг рычат, воют, прыгают по ветвям, напряжённо дышат в затылок. Кого-то с аппетитом пожирают заживо, так близко, что на лицо падают капли крови. И не видно ничего. Непроглядная тьма.

Белый человек не спит: вслушивается, вздрагивает, неприятно потеет. В отличие от аборигена. Тот уютно свернулся калачиком и посапывает.

Джентльмен не выдержал и зарядил дикарю сапогом.

– Тоже не спишь?

– А? Что? Где? Не сплю.

– Страшно?

– Нет.

– А почему?

– Кого мне бояться? Я здесь всех знаю.

И снова заснул.

В детстве меня этот рассказ впечатлил и мотивировал. Уж очень точно описывал окружающую на тот момент реальность.

Показать полностью

На пафосе

Поговорим о пафосе. Сейчас это слово несёт негативную окраску. Напыщенность, гонор, высокомерие, что-то неискреннее, наносное... Мне ближе трактовки Аристотеля и Гегеля. Пафос как страсть, страдание, воодушевление – проявление чувств, имеющее ярко выраженную  индивидуальную окраску. Эмоциональный почерк героя – трагический, героический, романтический, сентиментальный, сатирический – манифестация индивидуальности, стиля, эстетики на пике эмоционального подъёма.

О чём это я...

Понедельник и вторник прошли под знамёнами эмоционального кризиса. Днём страдал от бессмысленности жизни, собственной беспомощности и душевного раздрая. Вечером пил коньяк. Флягами по 250 грамм. Самая мерзкая тара: от неё несёт трусливым алкоголизмом и общественным порицанием. По-настоящему благородные напитки гнушаются подобного вместилища.

Поллитры гораздо респектабельнее. Её тоже можно выпить в одиночестве, занюхивая рукавом. Но она подразумевает хорошую компанию, обильную закуску, душевную беседу и яркие воспоминания. Четверть не оставляет простора для воображения. Четверть пьют на бегу, часто тайно. В лучшем случае – в будни после работы, опасаясь утреннего похмелья.

Не люблю пить в будни. Теряется присущий мне пафос.

Дедушка с татуировкой раздора

Обсуждали с коллегами татуировки. Спорили об их долговечности. Смысловой, а не физической.

Наши предпочтения и восприятие жизни меняются с годами. А татуировки остаются. Сделанное в молодости может сильно раздражать в более зрелом возрасте.

Коллеги возражали: это память. Воспоминания о юности не раздражают, а вызывают светлые чувства, ностальгию. Нужно принимать себя в комплексе, со всеми заблуждениями и совершёнными когда-то ошибками.

Мысль интересная. У меня даже есть отличная к ней иллюстрация – мой дед. Лет в четырнадцать с помощью сажи, чернил и пары швейных иголок он набил на руке восходящее Солнце и надпись «Вася + Тоня = Любовь». Очень романтично и трогательно, светлые воспоминания о первой любви.

Только вот жену его, мою бабушку, с которой он прожил всю свою долгую жизнь, звали Катя.

Размышлизмы о новой рекомендательной системе на Пикабу

Мне тут в рассылке интересная вакансия пришла.

Размышлизмы о новой рекомендательной системе на Пикабу Пикабу, Алгоритм, Настройки, Текст, Умная лента, Машинное обучение

Хочу заметить, "+10% просмотренных постов и +3% время на сайте/в приложении" -- это не есть положительный результат. Это народ котиков и смешные картинки проматывает, пытаясь найти что-нибудь действительно интересное, по старой памяти. Но человеческая память недолговечна.

На вашем месте, я бы на деятельную активность аудитории ориентировался, на количество оригинального контента -- авторских постов и комментариев.

Читателей оставить в покое, а писателей изучить. Степень их вовлечённости, динамику активности, отношение и реакцию на отдельные темы и друг друга, триггеры, лидеры мнений, группы влияния, сценарии и прогноз поведения...

И потом показывать одним пользователям нужные посты и комментарии от других пользователей. В оптимальное время и последовательности. Прогнозируя их реакцию. Модерируя, если потребуется, -- алгоритмами, а не модераторами. Чтобы драма. Чтобы интерес друг к другу не угасал. Не только к конфликтам относится. См. сценарий "Подписался. Жду", например. Уже работают боты, которые мотивируют человека рассказать о себе?

Это же форум. Людям нужно интересное общение, а не информационный пузырь для каждого.

Показать полностью 1

Телефонные мошенники. Загон #3

Когда пятый раз за день позвонили из службы безопасности банка, потом советник юстиции самой высшей категории и лично ЦБ РФ озаботился сохранностью моих сбережений, я решил изучить причины такой заботы пристальнее.


Выкачал с сайта Zvonili.com 160 тыс. нежелательных номеров и 426 тыс. комментариев к ним от неравнодушных граждан.


Кто звонит

Во-первых, меня сильно впечатлила динамика. Подобные схемы обмана существуют давно, но стремительный рост совпал с началом пандемии, когда произошёл расцвет сервисов для дистанционного общения и IP-телефонии в том числе.


Количество жалоб на сайте в 2020 г. выросло в 9 раз по сравнению с 2019 г., а в 2021 г. – почти в 2 раза по сравнению с предыдущим годом.

Телефонные мошенники. Загон #3 Длиннопост, Машинное обучение, Телефонные мошенники

Во-вторых, в базе около 9 тыс. групп, номера в которых отличаются только одной последней цифрой. Другими словами, кто-то массово – до 200 штук за раз – скупает номера, по порядку, особо не тратя время на выбор красивых комбинаций.


В-третьих, нежелательные номера в основном принадлежат крупнейшим федеральным операторам, которые занимаются разным, но в Топ-10 также вошли ООО «НВ КОММУНИКАЦИИ» и ЗАО «КантриКом», которые специализируются на услугах виртуальных АТС.

Телефонные мошенники. Загон #3 Длиннопост, Машинное обучение, Телефонные мошенники

В-четвёртых, в базе есть числа, которых там быть не должно – контакты реальных организаций и компетентных органов. Как выяснилось (я погуглил), можно не только купить виртуальную АТС, но и подменить сообщение, которое выводится на экран вызываемого абонента. Технологии SIP и современное законодательство позволяют это делать.


Если вы видите знакомый контакт, то совершенно не факт, что звонит знакомый вам человек. Никому не доверяйте – даже своему отражению в зеркале.


В-пятых, большинство телефонов имеют московскую прописку, но звонить с них можно из любой точки планеты.


Основной вывод: подобными афёрами занимаются не отдельные мелкие мошенники; это масштабный бизнес с крупными игроками, которые массово скупают виртуальные номера, базы данных с информацией о потенциальных жертвах, нанимают людей, организуют колл-центры по всему СНГ и запускают конвейеры по отъёму денег у доверчивых граждан.


О чём говорят

На сайте есть система тегов. 60% нежелательных звонков помечены как мошеннические, остальное приходится на рекламу, опросы, хулиганов и коллекторов.

Телефонные мошенники. Загон #3 Длиннопост, Машинное обучение, Телефонные мошенники

С помощью алгоритмов векторизации (USE), кластеризации (Kmeans и DBSCAN) и экстрактивной суммаризации (извлечение наиболее типичных для каждого кластера предложений) я изучил отзывы чуть детальнее.


У меня получилось выделить три основные группы: 1. немые прозвоны, когда после звонка сразу идёт сброс; 2. различные банковские «службы безопасности», которые хотят получить доступ к вашим счетам; 3. мошенники с авито и прочих интернет-магазинов.


Опросы, реклама, коллекторы, телефонные хулиганы беспокоят сограждан гораздо меньше. Хотя и не сильно реже: номера смотрят, но редко комментируют.


Некоторые вопросы заинтересовали меня из праздного любопытства. На основе подсчёта наиболее частотных лемматизированных слов, регулярных выражений и Word2Vec (определяет локальный контекст для каждого слова) я собрал что-то вроде примитивного алгоритма для распознавания именованных сущностей и любопытство удовлетворил.

Телефонные мошенники. Загон #3 Длиннопост, Машинное обучение, Телефонные мошенники

Чаще всего мошенники представляются сотрудниками Сбера, ВТБ, Альфа-банка, Газпромбанка, Совкомбанка, Тинькова, Райффайзена, РНКБ и ЦБ РФ. Последнее особенно забавляет, так как Банк России с физиками не работает.


По телефону рекламируют в основном финансовые услуги (привет Альфа-банку, горите в аду), медицинские клиники, стоматологию и массажные салоны.


Опросы – это соцопросы, вопросы о доходах, образовании, политических предпочтениях, какие телевизионные передачи смотрите, каким провайдером пользуетесь и т. д.

Телефонные мошенники. Загон #3 Длиннопост, Машинное обучение, Телефонные мошенники

Что делать

В США проблема с телефонным мошенничеством появилась гораздо раньше. По оценкам Федеральной торговой комиссии, ежегодно из-за подобных звонков американцы теряют около $3 млрд. В данный момент идёт ужесточение законодательства и назначение крайних – по умолчанию операторов связи. Пока не помогает, но обязательно поможет. На какое-то время.


Можно подделать не только номер. Можно подделать голос, лицо, подобрать нужные слова и факты из жизни, составить психологический портрет человека, изучить слабости и мотивы. Смотрите по сторонам, проверяйте окружающую реальность. Новые возможности приносят и новые угрозы.


Ссылка на данные

Показать полностью 5

Мой путь в профессию: из журналистов в программисты

По многочисленным просьбам моих многочисленных подписчиков написал небольшую инструкцию, как самостоятельно заняться разработкой искусственного интеллекта, машинным обучением, анализом данных и пр. Куда смотреть и с чего начать.


ОБ АВТОРЕ

Расскажу немного о себе, чтобы стало понятнее, как пришёл к тем выводам и рекомендациям, к которым пришёл.


Математикой и программированием я увлёкся довольно поздно, после тридцати лет. До этого все мои профессии так или иначе были связаны с написанием текстов. Профильного образования у меня не было, как и возможности получить второе высшее. Учиться пришлось без отрыва от основной работы, дистанционно.


Последние года четыре занимаюсь исключительно разработкой и внедрением коммерческого ПО – на основе алгоритмов машинного обучения – в российских и американских компаниях. Официально я Senior Data Scientist, по факту Machine Learning Engineer Middle.


МИНИМАЛЬНЫЕ ЗНАНИЯ И УМЕНИЯ

Свой путь в новую профессию я начал с составления учебного плана – на базе университетских программ, тематических курсов и рекомендаций с ютьюба. Поделюсь немного доработанной версией, с учётом нынешнего опыта.


Математика

Математический анализ. Хотя бы на уровне основных концепций и языка. Множества, функции, пределы, производные, интегралы… Без матана невозможно понять работу алгоритмов и даже прочесть нормальное описание к ним вы не сможете.


Линейная алгебра. Глубоких познаний не требуется, но нужно знать, что такое векторы, матрицы, базис, размерность, пространства и подпространства, отображения, уметь в основные операции с ними.


Комбинаторика, чтобы понять теорию вероятностей, и Теория вероятностей, которая используется вообще везде. Например, в математической статистике, на которой основаны классические алгоритмы машинного обучения. Да, Матстат тоже нужен.


Программирование и технологии

Датасаентисту пригодятся R, Python и Java/С++. Но для начала хватит пайтона и умения гуглить такие слова, как git, bash, ssh, conda, virtualenv, docker, sql, mongodb, jupyter… Список будет пополняться в процессе.


Использовать можно любую ОС, но лучше ubuntu, kubuntu и прочие mint. В дальнейшем сильно упростит жизнь.


Алгоритмы машинного обучения

Классические алгоритмы машинного обучение. Здесь математическая статистика плавно перетекает в ML. Работа с табличными данными, всякие линейные и логистические регрессии, случайные леса, градиентные бустинги и т.п. Начинать нужно с этого.


Компьютерное зрение. Классификация изображений, детекция объектов, сегментация, генерация... Область применения довольно широка: от спутникового наблюдения и диагностики заболеваний до фильтров в инсте и дипфейков. Рекомендую сначала освоить манипуляции с изображениями в numpy, потом изучить библиотеку OpenCV, затем перейти к нейронным сетям.


Обработка естественного языка. Имхо, сложнее двух предыдущих. Придётся пройти длинный путь от TFIDF, матричных разложений, Наивного Байеса и Скрытых Марковских Моделей до рекуррентных нейронных сетей и трансформеров. По-хорошему, понадобятся и базовые знания лингвистики.


Reinforcement learning (обучение с подкреплением). На данный момент ближе всего к собственно искусственному интеллекту. Применяется как для создания продвинутых NPC в компьютерных играх, так и для обучения полностью автономных боевых роботов. Кроме того, это совершенно отдельный подход к ML, который можно использовать вообще везде.


Есть ещё удивительный мир Big Data, но я с ним не особо знаком. Для интересующихся гуглите: hdfs, hadoop, pig, hive, hbase, cassandra, spark.


СТРАТЕГИЯ ОБУЧЕНИЯ

Изначально планировал освоить теорию, затем плавно перейти к практике. Каждый день после работы я тратил на учёбу минимум два часа. Но уставший мозг упорно отказывался понимать, зачем всё это нужно, и к пятнице успешно забывал то, что выучил в понедельник.


Поэтому я пропустил скучное и сразу перешёл к интересному. В моём случае – к некой разновидности data journalism – стал добавлять больше графиков и чисел в статьи, постепенно повышая их сложность.


Творил страшные вещи. Брал чужой код, методом научного тыка менял под свои нужды, запускал. Иногда получалось, чаще всего нет. Использовал алгоритмы как чёрные ящики. На вход данные, жмёшь кнопку… И любуешься результатом, в надежде когда-нибудь понять, что же всё-таки вышло.


Изучение матана и прочего пониманию весьма способствовало. Обучение пошло быстрее и веселее, так как теперь точно знал, что именно мне нужно в первую очередь, зачем нужно, где именно используется.


Поэтому совет: делайте что-то конкретное – сайт, приложение, ботов, парсеры, игры, алгоритмы для прогнозирования, рекомендательные системы, автоматизируйте ежедневную рутину, применяйте к вашей текущей работе – параллельно изучайте теорию. В результате получите: 1. готовый продукт – вторичный и довольно ублюдский; 2. настоящие знания – с удивительными пробелами, местами искажённые. Но с каждой итерацией будет получаться всё лучше, а картина нового мира будет проступать всё чётче и яснее.


Если самому трудно что-то придумать, для датасаентистов есть Machine Learning and Data Science Community Kaggle – там можно решать задачи любой сложности (от ученических до реальных бизнес-кейсов), читать обучающие материалы, изучать чужой код, участвовать в соревнованиях. Крайне рекомендую.


ПЕРВАЯ РАБОТА

Постепенно у меня скопился огромный массив говнокода. Я слепил из куском поприличнее несколько ml-проектов, загрузил на ГитХаб и начал искать работу стажёром. Удалённо, в нашем городе таких компаний отродясь не водилось.


Первое собеседование прошло бодро и, к моему удивлению, результативно:


- Математику знаешь?

- Скорее нет, чем да.

- Программирование?

- Немного могу.

- Машинное обучение?

- Поверхностно, но…

- Приемлемо.


Где-то год я занимался скучной рутиной за еду, в основном чистил и подготавливал данные. Потом добавил строчку в резюме и устроился джуном. Дальше началась обычная карьера в IT.


ГДЕ БРАТЬ ЗНАНИЯ

Платные курсы

Минусы: 1. сразу после их окончания на работу вас никто не возьмёт; 2. полученный сертификат никак не украсит ваше резюме – больше всего ценится релевантный опыт, а не сомнительные корочки; 3. уровень большинства преподавателей и качество подобного образования оставляет желать лучшего; 4. деньги просят за знания, которые есть в открытом доступе.


Плюсы: 1. помогут сделать первый шаг к профессии; 2. помогут структурировать процесс обучения; 3. потраченные средства обеспечат дополнительную мотивацию.


Полезные курсы и книги

Сам я изучал теорию на Stepik.org (#stepik), Coursera.org (#coursera), Youtube.com (#youtube) и по книгам (#book). Читал чужой код и решал задачи машинного обучения на Kaggle.com.


На Степике большинство курсов бесплатны, на Курсере лекции можно смотреть бесплатно, сертификат и практические задания – за деньги, на Каггле за победу в соревнованиях платят от 10 тыс. до 100 тыс. долларов.


1. Математика

Математика для анализа данных – ВШЭ #coursera

Mathematics for Machine Learning – Imperial College London #coursera

Математический анализ (часть 1 и часть 2) – CS центр #stepik

«Основы математического анализа. В 2 частях» – Фихтенгольц Г.М. #book

«Математический анализ. В 2 частях» – Зорич В.А. #book

Линейная алгебра – CS центр #stepik

Линейная алгебра (Linear Algebra) – ВШЭ #coursera

Основы перечислительной комбинаторики – CS центр #stepik

Теория вероятностей – CS центр #stepik

Основы статистики (часть 1, часть 2, часть 3) – Bioinformatics Institute #stepik

Математическая статистика – CS центр #stepik

dU / dV stud (прикладная математика и анализ данных) #youtube


2. Программирование и технологии

Алгоритмы: теория и практика. Методы – CS центр #stepik

Программирование на Python – Bioinformatics Institute #stepik

Python: основы и применение – Bioinformatics Institute #stepik

«Изучаем Python» – Лутц М. #book

«Программирование на Python 3» – Саммерфилд М. #book

Python для решения практических задач – CS центр #stepik

Автоматизация тестирования с помощью Selenium и Python #stepik

Введение в Linux – Bioinformatics Institute #stepik

Murad Aslanov (про GNU/Linux и IT) #youtube

Свободное погружение в СУБД – CS центр #stepik


3. Машинное обучение

Машинное обучение и анализ данных – МФТИ #coursera

Введение в Data Science и машинное обучение – Bioinformatics Institute #stepik

Машинное обучение – ОмГТУ #stepik

Deep Learning Specialization – DeepLearning.AI #coursera

Нейронные сети и обработка текста – Samsung Research Russia #stepik

Natural Language Processing (NLP) – DeepLearning.AI #coursera

Обработка изображений – ВШЭ #stepik

«Learning OpenCV 3 Computer Vision with Python» – Joe Minichino #book

Нейронные сети и компьютерное зрение – Samsung Research Russia #stepik

sentdex (python tutorials and machine learning) #youtube

Reinforcement Learning – University of Alberta #coursera

Machine Learning with Phil (deep learning tutorials & reinforcement learning) #youtube


Не всё из этого списка подойдёт именно вам. Получайте информацию из разных источников. Не понимаете Зорича – читайте Фихтенгольца, не нравятся лекции от ВШЭ – смотрите МФТИ. Гуглите, изучайте отзывы, пробуйте. Тут всё индивидуально.


Надеюсь, для кого-то этот гайд окажется полезным. В качестве напутствия: знать и уметь нужно действительно много, но отрасль стремительно развивается, специалистов не хватает. Если вы знаете и умеете хоть что-то – у вас неплохие шансы найти работу.


Аналогичные посты на Пикабу от других авторов:

Программа обучения Data science для самостоятельного изучения

Дорога в Data Science глазами новичка

Мой путь в data science

Показать полностью

Я живу. KillMePls!

Провёл небольшое исследование killpls.me. Выкачал около 30 тыс. постов с Главной. Изучил теги, лайки, динамику и сезонность публикаций, содержание текстов.


Весна – самое депрессивное время года

Ресурс был наиболее популярен в 2010-2013 гг. Затем количество публикаций стало плавно сокращаться, а количество лайков (вовлечённость читателей) в 2014 г. рухнуло и продолжает падать.

Я живу. KillMePls! Аналитика, Машинное обучение, Длиннопост, Kill me please

Динамика постов имеет ярко выраженную сезонность. На май приходится наибольшее количество жалоб, в январе-феврале наблюдается спад активности.


Деньги и Здоровье стали важнее, чем Секс и Внешность

Соотношение тегов и лайков со временем меняется. Десять лет назад больше всего волновали секс, внешность, отношения. Постепенно фокус сместился на семью, здоровье, родителей, деньги. Скорее всего, это связано с повзрослением аудитории сайта.

Я живу. KillMePls! Аналитика, Машинное обучение, Длиннопост, Kill me please

Повесть о Ромео и Джульетте не самая печальная

В 2021 году наиболее волнующие по совокупности темы: 1. деньги/техника (техника тоже про деньги: кредитные айфоны, разбитые машины, сломанные бытовые приборы и невозможность купить новые); 2. семья/родители; 3. здоровье.

Я живу. KillMePls! Аналитика, Машинное обучение, Длиннопост, Kill me please

Самые частотные теги и самый залайканные не всегда совпадают. Например, Отношения неизменно находятся на первом месте по количеству публикаций, но никогда не были в топе по лайкам. То есть подобные посты сочувствия у читателей обычно не вызывают.


Краткий пересказ содержания

Чтобы лучше понять, о чём всё-таки истории, я взял предобученную нейронную сеть от Гугла (universal-sentence-encoder-multilingual), векторизовал тексты и поделил их на кластеры (Kmeans). Всего получилось 6 тем.


К каждой группе применил простой алгоритм экстрактивной суммаризации: взвесил все предложения по количеству самых популярных значимых слов и выбрал с наибольшим весом, наиболее типичные для каждой группы.


1. Отношения

До этого жили вместе 5 лет, а знаем друг друга всю жизнь. И все это время у него есть девушка, они вместе уже 7 лет. Мужу боюсь сказать, это его лучший друг с 12 лет. Мне кажется это он все подстроил. И при этом я хотела бы всю жизнь провести с ними вместе… КМП.

И тут я понял, почему истории об отношениях вызывают меньше всего сочувствия. Сплошная обыденность.


2. Работа

Работаю с 17 лет, и всю жизнь с работой не везёт. Идёт третий год, как я работаю на нелюбимой работе. В принципе все это проходящее, но че-то так устала - КМП. Все это время пыталась найти более серьезную работу - везде отказ. 2020 год, апрель, осталась без работы, денег, все как всегда. При всем при этом - мне только 20 лет. Ни работы, ни дома, не парня, ни денег…

Сначала работа была адом, а потом уволили.


3. Здоровье

Скоро Новый Год, а все, что я хочу - это вылечиться. КМП, я просто хочу жить как все. 26 лет - это очень много, если человек постоянно болеет. Толком не ем, все что делаю - это просто сплю. Больше всего боюсь, что это в будущем может передаться моим детям. КМП, пока это не сделали врачи.

О долгих, часто хронических заболеваниях, когда сил терпеть уже не осталось.


4. Семья

Я очень хочу детей, с мужем пытались больше 5 лет и всё никак. Я давно хочу детей, муж об этом знал еще до свадьбы. Я всегда хотела жить в большом городе, и мой будущий муж это знал. КМП, я просто не могу понять, за что мне это и как жить дальше. КМП, я думала, это была наша мечта.

Самый сложный по структуре кластер. Большое количество проблем связано с детьми. Но в основном истории об обманутых ожиданиях.


5. Разное

В общем, я устала от этого, хочу нормально жить, ПМП. Я не понимаю, зачем я всё это делаю, ПМП. КМП - я очень так конкретно чего-то не понимаю в этом мире. ПМП, я не знаю, как с этим справиться. Но это еще не КМП. Это еще не КМП. Но это еще не КМП, нет.
Действительно, об очень разном, общее – КМП.


6. Секс

18+

Прямо с Главной невозможно скачать тексты этой тематики, а персонально ходить по каждой ссылке я посчитал нецелесообразным.


Большинство самых типичных историй написано девушками. Есть у меня некоторые предположения об основной аудитории этого сайта, но специально не проверял.


Ради эксперимента попытался ужать вообще весь контент до одной фразы – с помощью кастомной нейронной сети на основе трансформеров – идея сомнительная, но результат получился адекватный:

КМП. Я живу.

Возможно, когда всё-таки появится полноценный искусственный разум, это будут его первые и последние слова.


Ссылка на данные

Показать полностью 3
Отличная работа, все прочитано!