Какой длины должна быть тема диссертации?
Наступает ночь, а значит приходит пора получить порцию бесполезной информации, которая до этого момента никого особо не беспокоила.
Пару недель назад, я формулировал тему для своей диссертации. Вспомнил все рекомендации, которые давали раньше. Но меня не покидала обеспокоенность субъективностью вопроса. Ужимать все до 8 слов? Можно ли 12? А 15 слов кто-то защищал когда то?
Что делать?
Все защищенные диссертации для кандидатов и докторов наук размещаются на сайте Российской государственной библиотеке. Вы можете посмотреть кто, когда и с чем выходил на защиту. Там же можно найти алфавитный указатель. За это и цепляемся.
Собственно я аккуратно и неспеша (по ~10 названий в секунду) спарсил все до чего дотянулся мой скрипт. Скажу сразу, просто вытащить html не получится. Там вставки js. И при быстром переходе перекидывает не на нужную страницу. Поэтому пришлось немного повозиться.
В итоге собрал датасет на 896304 тем диссертаций.
Кто хочет поковыряться - welcome.
Каковы будут результаты?
При грубом анализе (просто считаем сколько слов для каждого названия, а потом берем среднее):
9.7086144879
А теперь построим гистограмму.
Но мы ведь собрались не для грубого анализа? Добавим немного элегантности.
Если кто-то не знал, то можно поучаствовать во второй утиной благотворительности прямо сейчас.
Убираем все служебные части речи. Код тут. Повторяем процедуру.
8.0402106874
Как-то неудобно по-отдельности сравнивать...
Какие выводы господа?
- В среднем в названии используется 2 служебные части речи.
- Общая длина названия примерно 10 слов (вместе с теми же предлогами).
- Без служебных частей речи разброс уменьшается и число слов будет чаще в районе 8.
Вот такие дела.
Наука | Научпоп
7.7K постов78.6K подписчика
Правила сообщества
Основные условия публикации
- Посты должны иметь отношение к науке, актуальным открытиям или жизни научного сообщества и содержать ссылки на авторитетный источник.
- Посты должны по возможности избегать кликбейта и броских фраз, вводящих в заблуждение.
- Научные статьи должны сопровождаться описанием исследования, доступным на популярном уровне. Слишком профессиональный материал может быть отклонён.
- Видеоматериалы должны иметь описание.
- Названия должны отражать суть исследования.
- Если пост содержит материал, оригинал которого написан или снят на иностранном языке, русская версия должна содержать все основные положения.
Не принимаются к публикации
- Точные или урезанные копии журнальных и газетных статей. Посты о последних достижениях науки должны содержать ваш разъясняющий комментарий или представлять обзоры нескольких статей.
- Юмористические посты, представляющие также точные и урезанные копии из популярных источников, цитаты сборников. Научный юмор приветствуется, но должен публиковаться большими порциями, а не набивать рейтинг единичными цитатами огромного сборника.
- Посты с вопросами околонаучного, но базового уровня, просьбы о помощи в решении задач и проведении исследований отправляются в общую ленту. По возможности модерация сообщества даст свой ответ.
Наказывается баном
- Оскорбления, выраженные лично пользователю или категории пользователей.
- Попытки использовать сообщество для рекламы.
- Фальсификация фактов.
- Многократные попытки публикации материалов, не удовлетворяющих правилам.
- Троллинг, флейм.
- Нарушение правил сайта в целом.
Окончательное решение по соответствию поста или комментария правилам принимается модерацией сообщества. Просьбы о разбане и жалобы на модерацию принимает администратор сообщества. Жалобы на администратора принимает@SupportComunity и общество Пикабу.