О чём пишут на Пикабу?

Написал небольшую программку для анализа частоты встречаемости слов в тексте (понадобилось для одного псевдо-эксперимента) и решил, кроме прочего, испытать её на текстах из Пикабу.

Открыл поиск по тегу "текст", выставил рейтинг не меньше 500 (потому что неинтересные тексты, решил я, не отражают настроений трудящихся масс; подсчёт слов нужно проводить в текстах, которые понравились пикабушникам).


Сходу заметил одну занятную особенность: частоты употребления топовых слов сразу установились на  определённых значениях и далее почти не менялись от текста к тексту:

О чём пишут на Пикабу? Пикабу, Слова, Текст, Программирование, Анализ

На скриншоте слева -- результат обработки массива из пяти тысяч слов. Справа -- из 23 тысяч. Несмотря на более чем четырёхкратное увеличение количества слов (и соответствующее увеличение разнообразия текстов) общий словарь почти не поменялся.

Почти не меняется и частота употребления слов (крайний правый столбец -- частота на 1000 слов). Ещё одно открытие: с увеличением размера обработанного текста первые 8 слов медленно отрываются вперёд по частоте употребления.


Вы спросите меня, зачем я всё это сделал?

Дык, рейтинга-то дохера, можно и потратить чуток.

6
Автор поста оценил этот комментарий

Первое правило работы с текстом: "исключи шумовые слова!"

Какую информацию несёт то, что наиболее часто употребляемые в русском языке предлоги на первом месте?! Никакой!

Должен быть составлен словарь шумовых слов (его можно нагуглить) и в предобработке шумовые слова нужно исключить.


Затем, неплохо было бы прикрутить стеммер, например стеммер Портера или снежок snowball. Этим вы исключите разницу между словом "долбоёб" и "долбоёбы", которые суть одно и то же.

Автору долго курить обработку и поиск текста!

2
DELETED
Автор поста оценил этот комментарий

Хм, если соединить их воедино получится типичная ахуительная история из лучшего.

Автор поста оценил этот комментарий

Закон Ципфа. Гугл ит.

Автор поста оценил этот комментарий
16к рейтинга не так то и дохрена
раскрыть ветку
ещё комментарий