Меня зовут Игорь, работаю в Институте математики и механики УрО РАН.
Мне иногда в голову приходят странные идеи на статистику. И я не могу уснуть, пока не проверю. 6 лет назад заинтересовало: а какой длины должна быть тема диссертации? Собрал названия всех диссертаций на тот момент и проанализировал. Результаты публиковал на Пикабу.
Вышло, что в среднем — 10 основных слов и 2 служебных.
Сам, кстати, вышел за рамки: 3 служебных и 12 основных. В прошлом году защитил тему: "Разработка алгоритмического и программного обеспечения для обработки сигналов программно-аппаратного комплекса измерения и сопоставления движений".
Да, я знаю, что это длинно
А сейчас зацепило другое
Какие когнитивные искажения у людей, когда никто не знает, что их анализируют?
Обычно в психологических исследованиях люди приходят к психологу — и уже готовы. Напряжены. Ведут себя "правильно".
А если клиническая выборка — то там вообще люди явно считают, что с ними что-то не так. Они в больнице. Или на приёме у врача. Контекст давит.
А что если взять комментарии из интернета?
Люди пишут анонимно. Расслабленно. Никто не оценивает. Собрал 1.8 миллиона комментариев. За пару месяцев успел обработать около 250 тысяч — и обнаружил интересную штуку.
Там сеть. Устойчивая структура связей.
Что там нашлось
Вот как выглядит карта когнитивных искажений в русскоязычном интернете (первая версия, не утверждаю, что это всегда и везде так, только на строго ограниченной выборке при определенных моделях нейронок, делать выводы рано):
Стабильная сеть из 13 узлов, когда немного пошатал на устойчивость, осталось всего 13, и то с оговорками, но не суть
Искажения не работают поодиночке.
"Всё или ничё" (чёрно-белое мышление) в 67% случаев появляется вместе с катастрофизацией ("теперь всё пропало").
А персонализация ("это из-за меня") — центральный узел. Связана с 10 другими искажениями.
Как в эпидемиологии: есть суперраспространители, от которых идут цепочки заражений.
Только здесь — паттерны мышления.
Зачем это нужно?
В классических исследованиях люди заполняют опросники.
Проблема: они знают, что их оценивают.
Здесь другое. Человек пишет комментарий — и не думает про когнитивные искажения. Он просто думает вслух.
Представь: ты облажался на работе.
Включается сверхобобщение: "У меня НИКОГДА ничего не получается" (хотя вчера всё было нормально).
Следом катастрофизация: "Теперь меня точно уволят".
Потом персонализация: "Я полное ничтожество".
Один триггер — три искажения автоматом.
И эти цепочки — устойчивы. Повторяются у разных людей.
Психотерапевт знает эту карту. Видит, что у тебя активна персонализация — центральный узел.
Бьёт по нему — и разваливается вся связанная цепочка. Вместо 10 симптомов лечишь 2 центральных.
Статью отправил в Frontiers in Psychology, на рецензировании.
В процессе стало понятно, что данных достаточно на вторую и третью статью — паттерны оказались богаче, чем думал изначально.
В чём проблема
Нужно обработать все 1.8 миллиона комментариев заново с уточнённой методологией.
На моей RTX 5080 — 10,000 комментариев в сутки.
Хотелось бы ускориться. Данные интересные.
Что предлагаю
Разбил всё на куски по 5,000 комментариев.
Берёте файлик, обрабатываете у себя на компе, отправляете обратно.
Обещаю не майнить крипту. Код открытый на питоне
Что получишь
1. Участвуешь в исследовании
Огромная карта когнитивных искажений в естественной речи на русском языке. Масштаб — 1.8 миллиона текстов.
В открытом датасете, который будут использовать учёные по всему миру.
Каждый раз, когда кто-то будет работать с этими данными — увидит: "при поддержке [твой ник]".
3. Самые активные — в статье
В секции acknowledgements (благодарности). Индексируется в научных базах.
Твоя строчка в истории науки.
4. Узнаешь результаты первым
До официальной публикации.
Поможешь?
Пиши в комменты — отвечу, пришлю файл с инструкцией.
Если сложности с Ollama — помогу разобраться.
У тебя есть видеокарта с 12 ГБ и пара свободных вечеров?
Если у тебя 8 ГБ видеопамяти — тоже пиши.
Будет медленнее (модель начнёт использовать диск), но работать должно.