Частота букв в русском языке

Буквы
Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.
Какая буква на каком месте?
Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Как буквы сочетаются?
«Ть, ть, ть», — повторило привычное эхо
Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.
В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

Nadya Andrianova

Вы смотрите срез комментариев. Показать все
4
Автор поста оценил этот комментарий

Мне одному кажется, что была проделана куча работы, получены интересные результаты, но из-за особо умных дизайнеров вся эта работа пошла коту под хвост? Нет никакой возможности сравнить буквы между собой... Серьезно, кто додумался частоту использования букв показывать цветом? Да и сами графики тоже хороши. Никаких осей не прописано, невозможно сравнить насколько чаще буквы используются в качестве первой и второй потому, что непонятно, какая точка графика соответствует второй букве и какая высота графика соответствует какому проценту...

раскрыть ветку (2)
Автор поста оценил этот комментарий

Ну предложи как бы ты это показал.
Да, мне тоже кажется что отображение так себе, но не знаю как бы я сам это показал

раскрыть ветку (1)
Автор поста оценил этот комментарий

Во первых, я бы сделал это не в виде инфографики. Но даже если и оставить инфографику - можно было бы хотя бы разделить статистику по частоте букв вообще и частоте букв в зависимости от места в слове на две разные графы - и бац, уже читаемо. Или, например, отсортировать буквы не по алфавиту, а по популярности.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку