Магия против науки — сравнение книг о Гарри Поттере и диссертаций
Продолжаем анализировать русский язык при помощи математики! Предыдущие посты:
1. Частота букв в русском языке
2. Лев Толстой против Пикабу — статистика русского языка
В комментариях под прошлым постом предложили сравнить очень интересный материал — магистерскую и докторскую диссертации, написанные на одной кафедре. Этим мы сегодня и займёмся! А чтобы читать пост было интересно всем, сравним их с первой и последней книгами из серии о Гарри Поттере
Волшебник из книг Джоан Роулинг рос вместе с нами. Первая книга «Гарри Поттер и философский камень» написана простым языком, понятным и детям. В последней книге серии — «Гарри Поттер и дары смерти» герои взрослее, а проблемы серьёзнее
В науке исследования, как правило, ведутся в узком направлении. Но каждая работа должна быть уникальной, а магистерская и докторская диссертации отличаются по сложности. Итак, что по вашему мнению будет больше похоже: первая и последняя книги о Гарри Поттере или магистерская и докторская диссертации, написанные на одной кафедре? Ставки приняты, начнём анализ!
Тексты о волшебстве
Начнём с анализа книг о Гарри Поттере. Сперва, по традиции, посмотрим на топ 15 самых частых слов в книгах:
Да уж, нет никаких сомнений в том, кто главный герой серии. Забавно, что Гермиона обогнала Рона по частоте упоминаний в последней книге, хотя в первой уступала даже Хагриду. А ещё в серии неожиданно часто встречаются руки
Кстати, в этот раз я улучшил предобработку: теперь стоп-слова, наподобие частиц и предлогов, выбрасываются из текста, а остальные слова приводятся к одинаковой форме. Например, и «ответил», и «ответила» превращаются в «ответить», а «Рона», «Рону» и «Рон» считаются как одно слово. Это называется лемматизацией
Это делается автоматически и иногда приводит к казусам. Например «Малфой» превратился в слово «Малфа», а «Снегг» в «Снегга». Любители фанфиков, наверняка, останутся довольны
Вот визуализация топ 150 слов в текстах. Чем больше слово, тем чаще оно упоминается в книге:
В первой книге очень много имён, ведь она знакомит нас с новым миром. В последней речь больше идёт о главных героях и их действиях
Тексты о науке
Для анализа использовались две работы с кафедры электротехнологий, электрооборудования и автоматизированных производств Чувашского Государственного Университета. Большое спасибо за этот материал Фёдору Иванову (@fedor0804)
1. Магистерская диссертация «Индукционная установка для сквозного нагрева заготовок» Фёдора Иванова
2. Докторская диссертация «Исследование особенностей характеристик электротехнологических дуг в дуговых печах» Дениса Михадарова
Топ слов, конечно, совсем не похож на книги о Гарри Поттере. Главные герои здесь индуктор и дуга, а в тексте часто встречаются числа и специальные символы. Их, к сожалению, не удалось правильно обработать и на графиках они выглядят как прямоугольники. Скорее всего, это греческие буквы, например, β
Сравнение магии и науки
Итак, у нас есть 4 огромных текста. Как понять, насколько они похожи друг на друга? Для этого можно посчитать косинус угла между текстами или даже сам угол. Давайте разберёмся, как это работает
Представим два текста поменьше: по одному предложению в каждом. Первый текст — «Еле-еле ели». Второй текст совсем лаконичный — из одного слова «Едим». После лемматизации у нас будут уже такие тексты:
1. еле еле есть
2. есть
Теперь подсчитаем количество слов в них:
1. «еле»: 2, «есть»: 1
2. «еле»: 0, «есть»: 1
Мы можем нарисовать простой график, где по одной оси будет отложено количество слова «еле» в тексте, а по другой — количество слова «есть». Изобразим наши предложения на этом графике
Теперь не проблема посчитать угол между текстами! Можно, конечно, взять транспортир. Но для того, чтобы решить эту задачу для текстов с тысячами слов, это не поможет. Если конечно, вы не живёте в тысячемерном мире и у вас полно тысячемерных транспортиров
Мы представили тексты в виде векторов. В школе вы считали скалярное произведение между векторами и находили через него угол. Здесь можно сделать то же самое — и неважно, сколько всего уникальных слов в текстах – два или тысячи. Для текстов из примера — косинус будет равен примерно 0.44, а угол — 63 градуса
Чем меньше угол между текстами, тем больше они похожи. Если же угол равен 90 градусам, то тексты перпендикулярны — совсем разные. Например, такой угол был бы между текстами на русском и китайском языках — у них нет общих слов. Надеюсь, вы только что стали немного умнее :)
Вернёмся к нашим текстам. Больше всего оказались похожи книги о Гарри Поттере. Угол между ними — всего 26 градусов
Между магистерской диссертацией и книгами о Гарри Поттере оба угла составили 87 градусов. Эти тексты очень разные. Ещё менее похожими на книги Джоан Роулинг оказалась докторская диссертация — у неё получился угол 88 градусов с первой книгой и 89 градусов с седьмой
Что забавно, научные работы тоже оказались довольно разными. Угол между диссертациями — целый 71 градус
Так что, последняя книга о Мальчике, который выжил — почти то же самое, что и первая, но немного под другим углом. А читая научные работы, даже с одной кафедры, вы каждый раз изучаете новый труд
Заглядывайте в комментарии – там есть небольшой бонус. Пишите, анализ, каких текстов вам ещё бы хотелось увидеть
Моя группа ВК и телеграм-канал