Ответ на пост «Разводилы на Пикабу»
Ответ на официальный ответ модератора))) @Moderator911 и все причастные, буду рад фидбеку и конструктивной критике, поскольку сам погружаюсь в сферу, в контексте которой пойдёт речь далее.
Не в курсе особенностей организации рабочего процесса в отделе разработки Пикабу, но вот рабочее предложение по фильтрации постов от мамкиных нативщиков - разводил, маскирующихся под экспертов в разных сферах.
Проблема возникает тогда, когда такие посты уходят в горячее и лучшее. Верно? Пока оно в свежем, наш пейсатель нативочек получит мало профита со своей деятельности и все его действия направлены на завоевание доверия и пропехивание своего пэррла вверх по социальной лестнице из плюсиков. Модерировать свежее вручную было бы нереально, да и невозможно в силу человеческого фактора, но вот в чем решение.
Действия по накрутке рейтинга постам реально отследить по ряду метрик. К примеру, доля лайков на новой публикации от аккаунтов, активность на которых свидетельствует о недобросовестных намерениях их владельца(ев) или особенности написания постов, характерные публикациям явно мошенническим - последние отслеживаются по собранной базе.
В среднем публикация получает некий процент лайков от новорегов, от старых акков, от акков по теме статьи и тп - это некие средние метрики, описывающие реакцию аудитории на пост, воспроизводимые для "адекватных" (всех, которые созданы не с мошенническими целями) постов на Пикабу. В ходе анализа "недобросоветсных" статей можно выявить метрики, по которым эти публикации можно отслеживать на момент выхода и далее по таймингам: 10 минут, 30 минут, час, 6 часов и тд. В разных тематиках эти средние показатели будут отличаться, а значит нужно сделать сегментацию по тематикам публикаций, по контенту: текст, фото, видео, длиннопост, а также по ряду других критериев: нужно выявить поведенческие закономерности и их допустимое отклонение от среднего, в рамках которого пост можно идентифицировать как "не отрицательный". Это работа биг дата специалистов, все эти данные можно выгрузить, обработать и использовать.
Таким образом, при выходе новой публикации явная накрутка будет отслеживаться на машинном уровне и статья будет незаметно уходить к модератору или напрямую в бан.
Конечно, со временем мошенники станут обходить эту защиту, но даже используя максимально положительный аккаунт для накрутки, за некий короткий период времени метрики по нему сильно поменяются, свидетельствуя о смене владельца / использовании в мошеннических целях, а значит такой аккаунт в рамках оценки новых постов будет уходить в базу "недоброжелательных".
Полностью не получится исключить всех мошенников. Но можно усложнить им жизнь до такого состояния, когда "нативочки" большинства из них перестанут быть экономически выгодными, тк для обхода системы защиты понадобится больше средств, чем извлекается из подобной деятельности, а также много сил. Огромных отделов для этой работы не нужно, достаточно нескольких специалистов в штате.
Анализ больших данных способен сильно улучшить качество контента в горячем, а значит пользовательский опыт, что есть ценность как для владельцев и ответственных лиц за этот проект, так и для всех нас
С любовью, ваш преданный читатель