Как поисковые системы определяют спам?⁠⁠

Как поисковые системы определяют спам и попадает ли под это генеративная литература?

Что такое спам в современном поиске?

Спам в поисковых системах эволюционировал от примитивного разбавления текста ключевыми фразами до сложных схем с искусственной генерацией контента и сетевыми структурами сайтов. Две главные угрозы последнего десятилетия:

Синонимайзинг. Автоматическая перезапись текстов с заменой слов на синонимы без понимания смысла, создающая более менее «читабельный мусор». Иногда не читабельный…
Сайты-прокладки или в народе дорвеи. Страницы-ловушки, оптимизированные под вкусные запросы с поисковиков, но перенаправляющие пользователей на коммерческие или рекламные ресурсы. Серое и чёрное SEO.

Эра ручных правил в 2015–2018 годах.

Google Panda. Борьба с «тонким контентом», но легко обходится через синонимайзеры типа «перефразировать текст онлайн». Сайты-прокладки маскировались под редиректы через мета-теги.
Яндекс АГС-40. Фильтр бил по «трафиковым» сайтам с неестественной морфологией. Для русского языка ключевым было выявление неестественных падежных конструкций «купить квартиру Москва» вместо «купить квартиру в Москве».

Нейросетевой прорыв 2019–2022 годов.

Google BERT от 2019 года научился анализировать контекстную связность предложений. Синонимайзерные тексты распознавались по нарушению логических связей через «кофе вкусный следует, что кофе аппетитный» и аномальной плотности синонимов в одном абзаце. Ключевой момент! Главное, не перебарщивать!
Яндекс Королев от 2020 года. Система выявляла сетевой спам через анализ IP, хостингов и ссылочных графов. Например, кластер из 50 сайтов о «ремонте холодильников», ведущих на один магазин, вычислялся за 2-3 часа.

Эра генеративного ИИ в 2023–2025 годах.

SpamBrain 4.0 от Google. Мультимодальная нейросеть, которая сравнивает семантические векторы оригинального и переписанного текста, обнаруживает «галлюцинации» AI и фактические ошибки в сгенерированном контенте, а также анализирует паттерны поведения пользователей через время на странице, коэффициент кликабельности и отказы, которые для дорвеев составляют более 95% за период менее чем 5 сек. Это ключевой критерий спама уже давно и решают это не алгоритмы, а пользователи, которые безошибочно видят спам.
YandexGPT-детектор. Для русского языка критично важна морфология и сочетаемость слов. Примеры нарушений — «Срочно чиним холодильники» и «Срочно чиним холодильные шкафы». Это неестественное сочетание! Или, «Купить диван» значит «Приобрести лежанку» — это смена семантики.

Культурные особенности русского и английского языков и морфологическая сложность.

В русском спам-текстах чаще встречаются ошибки в падежах и «ремонт стиральных машинок» вместо «стиральных машин» — это ключевой маркер для Яндекса.
Английский контент проверяется на естественность артиклей «a car» vs «the car» через BERT-контекст.

Семантические поля.

В Google акцент на топическую связность. Например, для запроса «микроволновка» ожидаются слова «тарелка», «подогрев», а не «электромагнитное излучение» в 90% текста.
Яндекс строже к локальному контексту, так для Москвы «ремонт окон» это «установка стеклопакетов», а для Ростова — «замена оконных рам». Интересно, сам об этом никогда бы не подумал…

Примеры из практики

Кластер сети «ремонтных» дорвеев в 2023 году:

412 сайтов с текстами, сгенерированными через синонимайзер на базе ChatGPT. Вычислены Google через:

Анализ редиректов JavaScript идёт через 302 редирект и на коммерческий сайт.
Совпадение семантических векторов с эталоном «спам-шаблона».

Фильтр «Баян» от Яндекса в 2024 году:

Заблокирован сателлитный кластер из 17 сайтов с контентом, переписанным через «перефразировать текст онлайн». Маркеры спама:

78% биграмм совпадают с исходником при норме менее 40%
Одинаковая структура H2-H4 на всех страницах.

Будущее борьбы и тренды 2025 года.

Проактивные системы от Google’s SpamBrain теперь генерирует спам-контент сам, чтобы тренировать детекторы.
Кросс-платформенный анализ и учёт данных из соцсетей, мессенджеров. Рассылки в Telegram маркируются как спам при более чем 60 сообщений в сутки.
Этическая экспертиза через запросы вроде «как сделать рассылку спама» попадают под фильтрацию, а их авторы — в группу риска. Жёстка! Теперь опасно спрашивать что-либо у поисковиков…

Выводы

Главный сдвиг десятилетия — это переход от поиска ключей к оценке смысловой целостности. Если в 2015 году спамер выигрывал за счёт объёма, то в 2025-м даже YandexGPT-сгенерированный текст распознается по аномалиям в сочетаемости слов. Технологии типа SpamBrain 4.0 или «Королев» делают массовый спам экономически невыгодным и стоимость обхода фильтров на 70% выше потенциального дохода по данным за 2024 год. Как сказано в Google Search Central: «Сайты, нарушающие политику, могут не появляться в результатах вовсе», — и это уже не угроза, а реальность.