Как-то раз находясь в постели, согреваемый ноутбуком, под действием ОРВИ, лекарств и скуки я решил спарсить посты на каком-нибудь форуме да посмотреть частоты употребления разных слов.
Дело нехитрое, запускаю на ноуте Sublime Text и накидываю простенький скрипт-парсер на Python в связке с Beautiful Soup 4.
Целью был выбран небезызвестный женский форум, где женщины обсуждают жизнь и её аспекты.
На всякий случай прописал функцию лемматизации (приведение слова в начальную форму) чтобы точность была чуть выше чем полный ноль.
Проходит несколько часов за просмотром фильма, смотрю на результаты работы скрипта.
Осознав что я забыл про поставил обход примыкающих знаков препинания впадаю в небольшую грусть но продолжаю просмотр.
"Забавно" - думаю - ""я" на первом месте, а "мы" глубоко внизу...
Морали нет, просто делать было нечего.
Файл с данными прилагаю, мало ли кому будет интересно...