Обучение на пикабушных заметках
Интересно, знает ли администрация Пикабу, но у них есть одна из ценнейших баз данных - "заметки о пользователе".
В принципе, несложно обучить ИИ и очень много можно выжать этих данных.
1. На них можно обучить ИИ для того, чтобы получить предсказание того как люди реагируют на разных людей и на разные высказывания - соответственно, улучшить ботов.
2. Всякие теоретические изыскания, которые позволяют составлять лучший психологический портрет пользователя и давать более подходящую таргетную рекламу.
Продолжая этот пункт, как бы я сделал: 1) сначала обучить LLM которая бы генерировала заметок о пользователе; 2) потом, дать этой LLM нагенерировать заметок; 3) сделать подобие метрического пространства и провести кластеризацию по полученной базе данных 4) понять почему не получилось, откуда мусор, каким образом лучше чистить изначальный массив, добавить веса исходя из того, для чего всё это делается и повторить всё это.
По хорошему, у одного Пикабу больше возможностей для социологических исследований, чем у всех психологов и социологов в России вместе взятых.
Сразу вопрос, вдруг кто-то знает, бд с заметками не утекала?
Edit: ручная разметка таких объёмов данных будет стоить десятки миллионов. И она производится и заказы есть и я лично сталкивался. И всё-равно она будет полной ерундой по сравнению с тем, что Пикабушники сами разметили через комментарии.
Искусственный интеллект
3.9K пост10.9K подписчиков
Правила сообщества
Здесь вы можете свободно создавать посты по теме Искусственного интеллекта. Добро пожаловать :)
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан