1017

Какой длины должна быть тема диссертации?

Наступает ночь, а значит приходит пора получить порцию бесполезной информации, которая до этого момента никого особо не беспокоила.

Пару недель назад, я формулировал тему для своей диссертации. Вспомнил все рекомендации, которые давали раньше. Но меня не покидала обеспокоенность субъективностью вопроса. Ужимать все до 8 слов? Можно ли 12? А 15 слов кто-то защищал когда то?


Что делать?

Все защищенные диссертации для кандидатов и докторов наук размещаются на сайте Российской государственной библиотеке. Вы можете посмотреть кто, когда и с чем выходил на защиту. Там же можно найти алфавитный указатель. За это и цепляемся.

Собственно я аккуратно и неспеша (по ~10 названий в секунду) спарсил все до чего дотянулся мой скрипт. Скажу сразу, просто вытащить html не получится. Там вставки js. И при быстром переходе перекидывает не на нужную страницу. Поэтому пришлось немного повозиться.


В итоге собрал датасет на 896304 тем диссертаций.

Кто хочет поковыряться - welcome.


Каковы будут результаты?

При грубом анализе (просто считаем сколько слов для каждого названия, а потом берем среднее):


9.7086144879


А теперь построим гистограмму.

Но мы ведь собрались не для грубого анализа? Добавим немного элегантности.

Если кто-то не знал, то можно поучаствовать во второй утиной благотворительности прямо сейчас.

Убираем все служебные части речи. Код тут. Повторяем процедуру.


8.0402106874

Как-то неудобно по-отдельности сравнивать...

Какие выводы господа?

- В среднем в названии используется 2 служебные части речи.

- Общая длина названия примерно 10 слов (вместе с теми же предлогами).

- Без служебных частей речи разброс уменьшается и число слов будет чаще в районе 8.


Вот такие дела.

Наука | Научпоп

9.1K постов82.5K подписчиков

Правила сообщества

Основные условия публикации

- Посты должны иметь отношение к науке, актуальным открытиям или жизни научного сообщества и содержать ссылки на авторитетный источник.

- Посты должны по возможности избегать кликбейта и броских фраз, вводящих в заблуждение.

- Научные статьи должны сопровождаться описанием исследования, доступным на популярном уровне. Слишком профессиональный материал может быть отклонён.

- Видеоматериалы должны иметь описание.

- Названия должны отражать суть исследования.

- Если пост содержит материал, оригинал которого написан или снят на иностранном языке, русская версия должна содержать все основные положения.


- Посты-ответы также должны самостоятельно (без привязки к оригинальному посту) удовлетворять всем вышеперечисленным условиям.

Не принимаются к публикации

- Точные или урезанные копии журнальных и газетных статей. Посты о последних достижениях науки должны содержать ваш разъясняющий комментарий или представлять обзоры нескольких статей.

- Юмористические посты, представляющие также точные и урезанные копии из популярных источников, цитаты сборников. Научный юмор приветствуется, но должен публиковаться большими порциями, а не набивать рейтинг единичными цитатами огромного сборника.

- Посты с вопросами околонаучного, но базового уровня, просьбы о помощи в решении задач и проведении исследований отправляются в общую ленту. По возможности модерация сообщества даст свой ответ.


Наказывается баном

- Оскорбления, выраженные лично пользователю или категории пользователей.

- Попытки использовать сообщество для рекламы.

- Фальсификация фактов.

- Многократные попытки публикации материалов, не удовлетворяющих правилам.

- Троллинг, флейм.

- Нарушение правил сайта в целом.


Окончательное решение по соответствию поста или комментария правилам принимается модерацией сообщества. Просьбы о разбане и жалобы на модерацию принимает администратор сообщества. Жалобы на администратора принимает @SupportComunity и общество Пикабу.

122
Автор поста оценил этот комментарий

Вот за такие посты и люблю пикабу

раскрыть ветку (1)
79
Автор поста оценил этот комментарий

Все мы любим иногда упороться за цифры :D

показать ответы
35
Автор поста оценил этот комментарий

А что с диссерами из 6 слов? Судя по гистограмме их не существует?

раскрыть ветку (1)
24
Автор поста оценил этот комментарий

Я не копал так глубоко, может просто артефакт разбиения по столбцам :) Если посмотреть, там видно и названия из 1го слова. Как говорится.. необходимы дальнейшие исследования вопроса.

показать ответы
42
Автор поста оценил этот комментарий
Для полноты картины необходимо учесть те диссертации, которые защищали за последние 10-15 лет. А затем из них те, которые содержат любое из 2-3 слов-маркеров вашей будущей темы.
раскрыть ветку (1)
22
Автор поста оценил этот комментарий

Точно!

4
Автор поста оценил этот комментарий
Так какова специальность и тема диссертации?
раскрыть ветку (1)
18
Автор поста оценил этот комментарий

Системный анализ. Управление и обработка информации.

На данный момент остановились на этом:

Развитие метода обработки данных для инерциальных сенсоров, расположенных на теле человека.

показать ответы
11
DELETED
Автор поста оценил этот комментарий
Комментарий удален. Причина: данный аккаунт был удалён
раскрыть ветку (1)
5
Автор поста оценил этот комментарий

Четко)

9
Автор поста оценил этот комментарий

бибка?

Иллюстрация к комментарию
раскрыть ветку (1)
3
Автор поста оценил этот комментарий

я мастер тегов просто

4
DELETED
Автор поста оценил этот комментарий

А какие слова используются в названиях чаще всего ? А реже всего? А соотношение прилагательных, глаголов и сущ-ных?? В такие моменты я жалею что не программист ..

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Мне лень было дальше ковырять :)

Если интересно, то могу в момент будущей прокрастинации посмотреть) Напишите, что интересует.


Ну либо это кто-то сделает раньше меня, датасет то открыт) может скачать любой)

показать ответы
0
Автор поста оценил этот комментарий

Пожалуйста, дайте несколько примеров диссертаций с названием из одного слова. Подозреваю, что это какой-то артефакт выкачки / OCR. Потому что мне даже сложновато представить себе диссер из одного слова в наше время.

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Глянул - это артефакт выкачки :) Скорее всего условие разбиения недостаточно точное. Хоть в целом и работает.

2058 тем

Часть из них:


[['Пенитенциарная'], ['Условно-патогенные'], ['Презумпция'], ['Нозокомиальный'], ['Рекламные'], ['Русский'], ['Медицинская'], ['Синантропизация'], ['Женское'], ['Судебная'], ['Рак'], ['Национальное'], ['Концептуальные'], ['Категория'], ['Незаконное'], ['Сепаратизм'], ['Камбоджийская'], ['Предменструальный'], ['Интеграза'], ['Бедность'], ['Филогенез'], ['Корпоративная'], ['Юридическая'], ['Воинская'], ['Прагматика'], ['Ишемический'], ['Правовое'], ['Тувинцы'], ['"Ландшафт'], ['Проза'], ['Ненцы'], ['Инвестирование'], ['Информационная'], ['Склеродермическая'], ['А.А.'], ['Перевод'], ['Углеводный'], ['Феномен'], ['Недвижимое'], ['Рак'], ['Ювенильная'], ['Муниципально-правовая'], ['Золотые'], ['Вертебрально-базилярная'], ['Первичный'], ['Педагогическая'], ['Сольпуги'], ['Юрий'], ['Философская'], ['"Беглые"'], ['Северный'], ['Клопы'], ['Багдад'], ['Волосатоклеточный'], ['Пресса'], ['Ван'], ['Новые'], ['Социальная'], ['М.Н.'], ['Условно-патогенные'], ['С1'], ['Жуки-листоеды'], ['Верхневолжские'], ['Естественные'], ['М.Д.'], ['Меланома'], ['Немецкий'], ['Дибензодипиррометены'], ['Экономика'], ['Банковская'], ['Система'], ['Обман'], ['Нелинейное'], ['Нехалкидонские'], ['Дьёрдь'], ['Лексика'], ['Телевизионные'], ['Педагогический'], ['Личность'], ['Межфирменные'], ['Понятие'], ['Левон'], ['Артериальная'], ['Концепт'], ['Целостность'], ['Правовой'], ['Социальная'], ['Религиозный'], ['Пограничная'], ['Удины'], ['Эстетическое'], ['Курды'], ['Эколого-безопасное'], ['Идиопатический'], ['Радиоуглерод'], ['Структура'], ['Хроническая'], ['Смеховое'], ['Внешняя'], ['Самоуправство'], ['Глицеральдегид-3-фосфатдегидрогеназа'], ['Малые'], ['Интернет-технологии'], ['З.Н.'], ['Чингиз'], ['Украина'], ['Картография'], ['Социальное'], ['Необходимая'], ['Государственная'], ['Политические'], ['Социальный'], ['Семиэлектрики'], ['Смертная'], ['ПРЕЖДЕВРЕМЕННОЕ'], ['Аппликативная'], ['Демократический'], ['Социальное'], ['Криминологическая'], ['Идиомы'], ['Гламурный'], ['Туркмены'], ['Бурнацком-Бурнардума'], ['Виктор'], ['Личность'], ['2-(Алкилсульфанил)-6-(2,6-дигалогенбензил)пиримидин-4(3H)-оны'], ['Двуязычие'], ['Поствампиловская'], ['Т.'], ['Теория'], ['Нижнее'], ['Псориатический'], ['Российская'], ['Экологическое'], ['Молодежная'], ['Арабские'], ['Правовая'], ['Обострение'], ['Налоговые'], ['Современное'], ['Ислам'], ['Культурная'], ['Клопы-щитники'], ['Малые'], ['Полимодальное'], ['Свекофенниды'], ['Саркоптоидозы'], ['Спорт'], ['Межмуниципальное'], ['Философское'], ['Иконопись'], ['Греки'], ['Социальная'], ['"Homo'], ['Социально-культурный'], ['Кредит'], ['Национальные'], ['Социальная'], ['Социальное'], ['Охрана'], ['Рынок'], ['Аналитика'], ['Джадидизм'], ['Социалистическое'], ['Хронический'], ['Манипулирование'], ['Местное'], ['Ферраты'], ['Утопический'], ['Граница'], ['Саят-Нова'], ['Реформирование'], ['Религиозная'], ['Стимулы'], ['Рак'], ['Неография'], ['А.В.'], ['Нисида'], ['Арсенал'], ['Уличная'], ['Бронхиальная'], ['Журнальная'], ['Социальное'], ['Робот-телескоп'], ['Государственно-частное'], ['Вынужденные'], ['Бластоцисты'], ['Гепиртоническая'], ['Инвестиционная'], ['Рэкет'], ['Условное'], ['Малые'], ['Аксиосфера'], ['Торги'], ['Современный'], ['Дисметаболические'], ['Концептуализация'], ['Шведская'], ['Феномен'], ['"Кашалот"'], ['Банкротство'], ['Чеченский'], ['Современная'], ['Сберегательная'], ['Гладиус'], ['Культура'], ['Пунктуационные'], ['Латинские'], ['Плеоморфные'], ['Экономические'], ['Григорий'], ['Психогенный'], ['Цирроз'], ['Экономика'], ['Фольклорная'], ['Легионеллезная'], ['Полиморфизм'], ['Религиозный'], ['Неогликоконъюгаты'], ['Население'], ['Феноменология'], ['Изучение'], ['Дискомицеты'], ['Эколого-литодинамический'], ['США'], ['"Русские'], ['Повседневность'], ['Наркотизм'], ['Возрастная'], ['Банковский'], ['Научно-популярный'], ['В.Г.'], ['Журналистский'], ['α-металлоценилалкилирование'], ['Статус'], ['Комбинированный'], ['Псориатический'], ['Информационно-сетевое'], ['Религиозные'], ['Человеческий'], ['Множественное'], ['Политические'], ['Гипертоническое'], ['Политическая'], ['Этнокультурное'], ['Эволюция'], ['Получение'], ['Карачаево-балкарская'], ['Радикальная'], ['Идентифицирующее'], ['Социальный'], ['Институционализация'], ['Налоговая'], ['Избирательное'], ['Гем-галогеннитроэтенфосфонаты'], ['Политический'], ['Противодействие'], ['Административная'], ['Криптоспоридиоз'], ['Этнические'], ['Форма'], ['Муниципальное'], ['Кипрский'], ['Российское'], ['Политика'], ['Диагностика'], ['Пародийная'], ['Пострадиационная'], ['Земельная'], ['КВН-хронотоп'], ['Административная'], ['Сап'], ['Экономические'], ['Уточняющая'], ['Гипертоническая'], ['Малый'], ['Куйбышевский'], ['Ароматические'], ['Сакральная'], ['Ювеноиды'], ['Факторинг'], ['Российское'], ['Гуситское'], ['Катынское'], ['Шмели'], ['Солидарность'], ['Постхолецистэктомический'], ['Феномен'], ['Врожденный'], ['Этика'], ['Агропромышленная'], ['Русские'], ['Научный'], ['Малые'], ['Гипертоническое'], ['Юридические'], ['Нейротоксин'], ['Болезнь'], ['Туркмены'], ['Туркмены'], ['Детское'], ['Внутригрупповая'], ['Артериальная'], ['Глобализация'], ['Внутрифирменное'], ['Фоностилистика'], ['"Мягкое'], ['Ацетил-СоА-карбоксилаза'], ['Европейский'], ['Этнический'], ['Проблема'], ['Дифосфид'], ['Томас'], ['Социальная'], ['Rh-антигены'], ['Государственно-правовые'], ['Налоговое'], ['Городские'], ['Современные'], ['Российско-британские'], ['К.Н.'], ['Сукцинатдегидрогеназа'], ['Районная'], ['М.К.'], ['Специальная'], ['"Образ'], ['Натуралистический'], ['Камнедробление'], ['Былички'], ['Лекционная'], ['Нуклеозиддифосфаткиназа'], ['Судебно-экономическая'], ['Силовое'], ['Местное'], ['Феномен'], ['Стихотворная'], ['Артериальная'], ['Сталинизм'], ['N-арил-1-аминометиладамантаны'], ['Косвенное'], ['Севернорусская'], ['Порфиринилфосфонаты'], ['Тантало-ниобаты'], ['Банковский'], ['Шеллак'], ['Центросома'], ['Феномен'], ['Острый'], ['Реклама'], ['Ценности'], ['Недифтерийные'], ['Герпетическая'], ['Идеократия'], ['САМОПРОИЗВОЛЬНЫЙ'], ['Юридическая'], ['Тетрагидропирроло[3,2-с]пиридины'], ['Язык'], ['Андрей'], ['Телевидение'], ['Народонаселение'], ['Похищение'], ['Гипертоническая'], ['Судейское'], ['Механическая'], ['Евроинтеграция'], ['Двусторонний'], ['Применение'], ['Современная'], ['Институт'], ['Страховое'], ['Транспозон'], ['Исключительное'], ['Философия'], ['Феномен'], ['Маргиналы'], ['Диабетическая'], ['Проективография'], ['Ureaplasma'], ['Правовое'], ['Пластическая'], ['М.П.'], ['Российский'], ['Гипертрофическая'], ['Экологические'], ['Институт'], ['Фатих'], ['Речевой'], ['Межреспубликанский'], ['Следственные'], ['Технизированное'], ['Порфирий'], ['N-алкилиденкарбамоилизоцианаты'], ['Апартеид'], ['Гамиль'], ['Идентификация'], ['Альберт'], ['Уголовно-процессуальная'], ['Хронический'], ['Летальный'], ['Синдром'], ['Гипертоническая'], ['Личные'], ['Социальная'], ['Логичность'], ['Малый'], ['Местное'], ['Болезнь'], ['Университетская'], ['Политические'], ['Паранаука'], ['Политическая'], ['Мировая'], ['Этнический'], ['Основания'], ['Судебная'], ['Преодоление'], ['Преступность'], ['Женская'], ['Символика'], ['История'], ['Обсессивно-компульсивное'], ['Межрегиональные'], ['Логико-категориальное'], ['Анемическое'], ['Информатизация'], ['Общественное'], ['СМИ'], ['Растительные'], ['Левоглюкозенон'], ['Доминирующая'], ['Рынок'], ['Электронные'], ['Философия'], ['Головин-портретист'], ['Судимость'], ['Политическая'], ['Реклама'], ['Метафизика'], ['Эндодонто-периодонтальная'], ['Фибрилляция'], ['Консерватизм'], ['Русский'], ['Б.В.'], ['Социальная'], ['Кардиальный'], ['Политический'], ['Речевые'], ['Социальный'], ['СИНДРОМ'], ['Рекламный'], ['Темпоральность'], ['Менструальная'], ['Консервативная'], ['Статистика'], ['Этническая'], ['Менталитет'], ['Местное'], ['"Красная'], ['Подростковая'], ['"Желтая'], ['Шугнанская'], ['Л.Н.'], ['Обвинительное'], ['Современная'], ['М.П.'], ['Федеральное'], ['Косвенное'], ['Интернационализация'], ['Пенсионное'], ['Правовая'], ['Историография'], ['Прагматика'], ['Золото'], ['Жанр'], ['Индуизм'], ['Лезгинский'], ['Нареквави'], ['Эмоциональный'], ['Государство'], ['Таиланд'], ['Национальная'], ['Пространство'], ['Социализация'], ['Индивидуализм'], ['Природа'], ['Социальная'], ['Интегральная'], ['Магнитопластический'], ['Курыканы'], ['Стронгилиды'], ['Серийный'], ['Единство'], ['Молодежная'], ['Демодикоз'], ['Урбанизация'], ['Периодическая'], ['Ревматические'], ['Парадигмы'], ['Анемии'], ['Ономастические'], ['"Византийская'], ['Эволюционная'], ['Эффективное'], ['Металлические'], ['Понятие'], ['Историческая'], ['Алучаткемали'], ['Медиастинальные'], ['Государственные'], ['Миграция'], ['Трансцендентальная'], ['Метаболический'], ['Общеправовые'], ['Образовательная'], ['Русское'], ['Новый'], ['Репутация'], ['ЕМ-пространства'], ['Муниципально-правовая'], ['ЧСФР'], ['Организационная'], ['Похищение'], ['Социология'], ['Этнокультурные'], ['Этническая'], ['Модернизационный'], ['Интернет-преступность'], ['Хозяйственные'], ['Инфекционный'], ['Космическая'], ['Онтологическое'], ['"Чарака-самхита"'], ['В.А.'], ['Судебный'], ['Нотариат'], ['Хроническая'], ['Динамика'], ['Сегнетоэластики'], ['Франк'], ['В.Ф.'], ['Поливинилсиланы'], ['Каузативные'], ['Изнасилование'], ['Импрессионизм'], ['Пароксизмальные'], ['Иноязычное'], ['Якутская'], ['Условное'], ['Ренессанское'], ['Имена'], ['Иоганн'], ['Франсуа'], ['Бронхолегочные'], ['Гестационная'], ['Ингушская'], ['Идея'], ['Хронический'], ['Трудовой'], ['Квартирные'], ['Пролювий'], ['Геополитическая'], ['Клиффорд'], ['Российский'], ['Адыгейская'], ['Адыгейский'], ['Стоглав'], ['Форма'], ['Транснациональные']

0
Автор поста оценил этот комментарий

А вы рассматривали темы кандидатских диссертаций или докторских?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Вы знаете, это было так давно) Но для Вас я раскопал скрипт


Там строка формата https://search.rsl.ru/ru/catalog#p=2&d=xdis&ltr=%D0%90&st=author

или my_url = 'https://search.rsl.ru/ru/catalog#p=' + str(i) + '&d=xdis&ltr=' + character + '&st=author'
где i-номер страницы, а character - буква алфавита

Там показывается, что все что отмечено тегом диссертация.

С моей памятью это совпадает, что я все на русском языке спарсил.


Натолкнули на мысль, что я тогда на английском не спарсил (а там такие тоже лежат)

Иллюстрация к комментарию
0
Автор поста оценил этот комментарий
Спасибо)
Я про парсер.
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

https://github.com/kocmocgim/disser_titles_parser

Присоединяйся. Парсер был на втором питоне, буду под 3 переписывать если что.

показать ответы
0
Автор поста оценил этот комментарий
А скрипт не продемонстрируете? Или хотя бы на чем написан?
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Парсер или анализ? Второй в статье есть. Python 3. Jupyter notebook.

показать ответы
0
Автор поста оценил этот комментарий

А посимвольно какая длинна?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Можете в датасете поковыряться :)

1
Автор поста оценил этот комментарий

А всё-таки оси лучше подписывать.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Ваша правда

0
Автор поста оценил этот комментарий

У кого-то дисер называется одним словом, судя по диаграмме.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий
6
Автор поста оценил этот комментарий
Хочу узнать что за темы в одно слово.
раскрыть ветку (1)
0
Автор поста оценил этот комментарий
0
Автор поста оценил этот комментарий

Пожалуйста, дайте несколько примеров диссертаций с названием из одного слова. Подозреваю, что это какой-то артефакт выкачки / OCR. Потому что мне даже сложновато представить себе диссер из одного слова в наше время.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Так что, что-то мне подсказывает, что если уточнить все, то разброс будет еще меньше.

1
Автор поста оценил этот комментарий

Кстати, темы докторских в среднем короче, чем кандидатских. И это логично, т.к. докторская подразумевает большую широту и общность (или общесть?) темы.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Новое направление для исследований в прокрастинирующей науке!