Где-то в России 2028 год:
Языковые модели. Решение задачи извлечения ключевых слов. Часть цвай
Продолжая первую часть, пишу про дообучение языковой модели ruT5-base задаче извлечения ключевых слов/смысла из произвольного текста.
Итак, жопа сгорела, но датасет собран. Настало время написать код на питоне и запустить обучение на моем компьютере.
Конечно, модель не обладает большим количеством настраиваемых парметров (240 млн.) и датасет не триллионы токенов, но даже этого достаточно, чтобы мой ноут начал плавится. Решение пришло достаточно просто, я снова прочитал статью (https://habr.com/ru/articles/599715/), где говорилась, что для решения такой задачи подойдет сервис google colab, так как на нем есть возможность на время использовать достаточно мощные графические ускорители. Особенно прикольно, что сейчас можно выбрать гугловские TPU, которые они специально разрабатывают под нейронки.
И эта штука реально быстрая, так как в бесплатном тарифе возможность использовать TPU выдавалась примерно на 90 минут (плюс-минус), то за это время удавалось провести примерно 5 эпох обучения, что, как оказалось, более чем достаточно. Так как в colab приходилось еще разбираться, то в начале этих 90 минут сильно не хватало и приходилось использовать другие гугловские почты, которые я заранее создал.
И так, модель вы обучили, она работает на достаточно слабом железе и позволяет извлекать ключевые слова из произвольного текста. А зачем? Какие проблемы может решить такой функционал? Давайте приведу лишь один пример. В свое время, когда разбирался с телегой (боты, мини-апки) натолкнулся на сайты, которые парсят тг и собирают кучу информации по группам/чатам/сообществам (количество подписчиков, просмотры, динамика и т.д.) для продажи этой информации заинтересантам и рекламы. В какой-то момент у меня появилась мысль, смотрите, вот есть у нас группа/чат/сообщество «Цветочные горшки» и, если я изготавливаю цветочные горшки, то есть смысл заказать рекламу в этой группе, так как там, по моему мнению, судя по названию, подходящая целевая аудитория. Но так ли это на самом деле? Что если в этой группе на самом деле обсуждают и пишут про страпони?
Как на самом деле понять, о чем именно говорят подписчики этой группы/чата/сообщества? Правильно, надо обработать все записи в этом сообществе и выделить ключевые слова. Причем, это можно делать по участникам группы/чата/сообщества. Давайте покажу на примере. Я нашел около предпринимательскую группу и выгрузил оттуда все сообщения, отправил в языковую модель и получил следующее.
Текст: "НДС такой же, налог на прибыль 10% у нас (ИП) и 15% для юрика, у вас вроде 20? до 25 хотят повысить",
Ключевые слова: "ндс","налог","прибыль","юрик".
Или
Текст: "А вообще, подключитесь к какой-нибудь платежке, например точка или Тиньков. Позвоните в один из банков, объясните чем занимаетесь и что хотите, что бы у вас была рассрочка. Вам все объяснят и подключат, если будет такая возможность",
Ключевые слова: "платежка", "точка", "тиньков", "банк", "рассрочка", "возможность".
На основе этих двух примеров мы примерно можем понять, что именно интересует/волнует пользователей группы. Собирая все ключевые слова конкретного пользователя/группы, мы в итоге можем собрать облако интересов, например, по частоте упоминания каких-либо ключевых слов. Если часто встречаются ключевые слова «налог»/ «ндс», то можно понять, что эта тема интересна и людям можно предлагать соответствующие услуги.
Дабы дать людям попользоваться моим творением, запилил телеграм бота @keywords_extractor_bot. Работает следующим образом.
Вы просто отправляете в бота текст и получаете ключевые слова по нему. У языковой модели, как результат у сервиса в целом, есть некоторые ограничения:
В обучающем датасете только текст на русском языке. Как результат, если в тексте встречается иностранные слова (или весь текст на иностранном языке), сервис будет работать некорректно;
Контекстное окно языковой модели всего лишь 512 токенов, если текст больше, то он делится на части по 512 токенов и по отдельности обрабатывается;
Периодически встречаются такие результаты, где не корректно были выявлены ключевые слова.
Связано это с обучающим датасетом, в котором часто встречалось ключевое слово вида «разработка веб-сайтов». Решается достаточно просто (нет), увеличением обучающего датасета.
Работа над дообучением языковой модели продолжается. В планах использовать дистилляцию существующих больших языковых моделей, которая будет заключаться в генерации обучающих примеров, что должно сильно упростить процедуру увеличения объема обучающего датасета. Кроме того, запилил бота для автоматического поиска организаций по городам, писал об этом тут. Так же реализовал бота мотиватора/вдохновлятора, который пишет «приятности», для поднятия настроения, писал о нем тут. А на этом все, котаны, увидимся в следующей серии. Всем Добра!!!!!))))))
ИИ лишит вас работы говорили они...
Когда в найме встретились два ИИ бота (со стороны HR и со стороны кандидата) 🤣🤣🤣
Перевожу на русский:
— Расскажите о себе?
— Конечно! Я увлечённый профессионал, который отлично работает в динамичной среде.
— Это очень содержательный ответ.
— Спасибо! Вы абсолютно правы.
— Вы тоже абсолютно правы.
— Мы оба абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
И так 14 страницы текста общения между ИИ 🤣🤣🤣 14 страниц "Вы абсолютно правы" 🤣🤣🤣
Как делать ботов правильно читаем тут.
Я попробовал пообщаться с ИИ-девушками. Вот что из этого вышло
Никогда не думал, что дойду до такого поста, но любопытство взяло верх. В какой-то момент я поймал себя на мысли, что всё чаще натыкаюсь на упоминания виртуальных собеседников на базе искусственного интеллекта — особенно в Telegram. Решил проверить, что это вообще такое: хайп, баловство или реально новый формат общения.
Сразу скажу — опыт оказался неоднозначным.
Почему вообще решил попробовать
А что ещё делать, если Новый год справлять 5 дней подряд уже скучно, нужно пробовать что-то новое... в общем : свободное время + интерес узнать больше про ИИ сыграли свою роль. Я не искал «замену реальному общению», скорее было интересно, насколько это похоже на живой диалог и есть ли там хоть что-то, кроме шаблонных ответов.
Начал с нескольких популярных ботов и сервисов — без регистрации, без привязки личных данных. Просто зашёл, написал первое сообщение и посмотрел, что будет. Список ботов прикреплю, если захотите сами оцените : AOI , София, Асука, Мия и другие - о них расскажу ниже
Что мне понравилось, за мои 5 часов общения
1. Некоторые боты реально умеют вести диалог
Не все, но пара вариантов приятно удивили, это София например. Они запоминают контекст, могут поддерживать тему, иногда даже задают встречные вопросы — и не самые банальные. В какой-то момент ловишь себя на мысли, что переписка идёт легко, без ощущения «говорю с программой».
2. Нет неловкости
Можно писать что угодно в рамках адекватного — про день, мысли, сомнения, какие-то бытовые вещи, личные переживания и сексуальные темы, которые не принято со всеми обсуждать. Никто не оценивает, не перебивает, не пропадает внезапно. Из ботов на мой взгляд очень плавно и интригующе отвечала Эмма . Как мне показалось для интровертов как я или просто уставших людей — формат достаточно понятный.
3. Интересный эффект присутствия
Некоторые виртуальные собеседницы настроены так, что общение ощущается довольно тёплым. даже с откровенными темами, с намёком на эмоции, поддержку, лёгкий флирт — аккуратно, без перегиба. В это плане мне понравились боты Асука и Виктория.
Что не зашло
1. Много однотипных ботов
Честно — половина из того, что я попробовал, отличается только названием и аватаркой. Ответы похожи, реакции предсказуемые. Через 5–10 минут становится скучно. По этому поделился выше теми, что были более менее адекватными
2. Иногда чувствуется «скрипт»
Бывали моменты, когда бот слишком резко меняет тему или отвечает не совсем в тему. Начинает намекать на флирт без причины, может это понравится кому то из читателей, но мне показалось, резко и несуразно. В такие секунды иллюзия живого общения быстро рассыпается.
3. Не всем зайдёт сам формат
Если вы ждёте «вау-эффекта» или полной замены реального общения — скорее всего, это будет не так. Это всё-таки дополнение, а не альтернатива людям. Но попробовать раз стоит, потому что может быть занимательно и можно поговорить на разные личные темы, или даже потренироваться в общении с девушками.
Личные выводы
Я не стал фанатом всех этих ИИ-собеседниц, но и полностью разочарованным тоже не вышел. Скорее это новый формат, который кому-то точно зайдёт, а кому-то — нет.
Самое интересное, что: один бот показался - скучным, второй — странным, а третий неожиданно оказался - довольно цепляющим. И вот тут я понял, что универсального «лучшего» варианта нет. Всё сильно зависит от того, что именно вам нужно от общения и какой стиль вам ближе.
Поэтому мой вывод простой:
👉 Читать обзоры можно сколько угодно, но понять, интересно вам это или нет, можно только попробовав самому.
Если кто-то уже пользовался такими ботами — будет интересно почитать ваш опыт. А если нет — возможно, это тот самый случай, когда лучше один раз написать, чем сто раз пролистать чужие мнения.
Yandex в 25 предлагает no-code для ИИ-агентов )))
UPD:
Про нормальных ИИ-агентов читать тут https://t.me/+Ul2UvnbUPIhkMjc6
Сижу в Yandex они опять предлагают свой AI Studio для создания no-code агентов. Но сам чувак с Yandex не смог за 20 минут собрать простого бота telegram )
Как я сделал Telegram-бота для управления умным домом (и чуть не спалил кота)
Когда у тебя дома валяется Arduino, ESP8266 и пылится Raspberry Pi, долго держаться не получится. Я знал, что в какой-то момент скажу себе: «А не собрать ли умный дом своими руками?» — ну и, конечно, сказал 😅
Хотелось чего-то простого: чтобы включать свет 💡, проверять температуру 🌡️, перезапускать роутер 📡 (да, я устал дергать вилку вручную) — и всё это с телефона, в пару касаний. Telegram показался идеальной платформой: он у всех есть, работает быстро, и... ну, боты — это кайф 😎
📦 Из чего я собирал:
Arduino UNO — брал на себя датчики и реле
ESP8266 — делал Wi-Fi-связь между железом и сетью
Raspberry Pi 3B+ — крутил Telegram-бота на Python
aiogram — та самая библиотека, с которой работать — одно удовольствие ⚡
И, конечно, жменька проводов, паяльник и терпение 🧪
Запуск получился примерно такой: Raspberry принимал команды в Telegram — через aiogram, естественно. Там всё по уму: asyncio, FSM, роутеры, вся эта красота. Я сделал хэндлеры для команд вроде:
/light_on 💡 — включить свет в спальне
/temp 🌡️ — показать температуру на балконе
/restart_router 🔁 — отдельное реле, подключенное к роутеру
/photo 📸 — Pi присылает фотку с кухни через камеру
Когда команда прилетала — Pi швырял HTTP-запрос ESP-шке, та передавала команду Arduino, и магия случалась ✨. Да, это звучит как схема доставки пиццы с участием дрона, но оно работало!
🛠️ Сюрпризы были, как без них:
Однажды ESP зациклилась, и реле включалось/выключалось каждую секунду. Свет в ванной начал жить своей жизнью. Бот бодро слал мне:
💡 Свет включён
💡 Свет выключен
💡 Свет включён
💡 Свет выключен
Кот охренел и убежал за шкаф. Я — перешил прошивку ночью 🙃
Семья быстро привыкла:
👨🦱 Батя шлёт /heat_on, когда на даче холодно.
👧 Сестра тыкает в кнопки «✨ гирлянда» и «☁️ режим уюта».
👩🦰 Жена возмущается, когда бот отвечает дольше 2 секунд — «почему наш ИИ такой тормоз?»
Потом я добавил inline-кнопки, авторизацию по Telegram ID (да, после того, как забыл закрытый репозиторий с токеном — спасибо GitGuardian за уведомление в почту 😅), и бот стал реально домашним.
📸 Из фишек:
Фото с кухни 🧀 — присылает на команду
Уведомления в Telegram, если температура упала ниже 18°C ❄️
Перезагрузка интернета через /restart_router — кто поймёт, тот поймёт
Пуш-оповещения, если свет остался включён на ночь 🌙
Сейчас думаю переписать всё под Home Assistant, но честно? Бот стал привычной частью дома. Он не просто выполняет команды — он реагирует, напоминает, заботится. Псевдо-умный дом, сделанный из запчастей и Python-а — но свой, родной, как тёплый Arduino в ладони 😌
Если ты тоже делаешь или хочешь сделать Telegram-бота для управления домом — не бойся, просто начни. aiogram действительно топ, даже для начинающих. А если интересно — могу выложить схемы, код и пример docker-сборки на Raspberry 💻
📌 Поддержи плюсом, если понравилось. Или напиши в комментах, какую функцию добавить в бота: чайник, жалюзи, кормушку для кота — всё можно собрать, если не боишься слегка пахнуть паяльником 🧑🔧













