Какой длины должна быть тема диссертации?
Наступает ночь, а значит приходит пора получить порцию бесполезной информации, которая до этого момента никого особо не беспокоила.
Пару недель назад, я формулировал тему для своей диссертации. Вспомнил все рекомендации, которые давали раньше. Но меня не покидала обеспокоенность субъективностью вопроса. Ужимать все до 8 слов? Можно ли 12? А 15 слов кто-то защищал когда то?
Что делать?
Все защищенные диссертации для кандидатов и докторов наук размещаются на сайте Российской государственной библиотеке. Вы можете посмотреть кто, когда и с чем выходил на защиту. Там же можно найти алфавитный указатель. За это и цепляемся.
Собственно я аккуратно и неспеша (по ~10 названий в секунду) спарсил все до чего дотянулся мой скрипт. Скажу сразу, просто вытащить html не получится. Там вставки js. И при быстром переходе перекидывает не на нужную страницу. Поэтому пришлось немного повозиться.
В итоге собрал датасет на 896304 тем диссертаций.
Кто хочет поковыряться - welcome.
Каковы будут результаты?
При грубом анализе (просто считаем сколько слов для каждого названия, а потом берем среднее):
9.7086144879
А теперь построим гистограмму.
Но мы ведь собрались не для грубого анализа? Добавим немного элегантности.
Если кто-то не знал, то можно поучаствовать во второй утиной благотворительности прямо сейчас.
Убираем все служебные части речи. Код тут. Повторяем процедуру.
8.0402106874
Как-то неудобно по-отдельности сравнивать...
Какие выводы господа?
- В среднем в названии используется 2 служебные части речи.
- Общая длина названия примерно 10 слов (вместе с теми же предлогами).
- Без служебных частей речи разброс уменьшается и число слов будет чаще в районе 8.
Вот такие дела.