Частота букв в русском языке

Буквы
Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.
Какая буква на каком месте?
Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Как буквы сочетаются?
«Ть, ть, ть», — повторило привычное эхо
Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.
В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

Nadya Andrianova

Вы смотрите срез комментариев. Показать все
1
Автор поста оценил этот комментарий

Было бы интересно на основе этих данных переставить буквы на клавиатуре.

раскрыть ветку (6)
Автор поста оценил этот комментарий
Не особо. Только если ты печатаешь словари. А в повседневной жизни надо такую статистику делать по корпусу того, что печатается чаще всего. Так что переставлять буквы не советую по этим исследованиям)
раскрыть ветку (5)
1
Автор поста оценил этот комментарий

Окей, собрать статистику по популярным словам, а не по всем, и после этого посмотреть на раскладку.

раскрыть ветку (4)
2
Автор поста оценил этот комментарий

А теперь вопрос.... Как ты думаешь, нынешнюю раскладку как придумали?:-)

раскрыть ветку (3)
2
Автор поста оценил этот комментарий

Развели часто встречающиеся буквы, чтоб при работе на печатной машинке они не цеплялись и не изнашивались быстрее. Дальше это переехало на клавиатуры

Автор поста оценил этот комментарий

А теперь вопрос: слышал что-нибудь про раскладку Дворака?)

раскрыть ветку (1)
Автор поста оценил этот комментарий
Не только слышал, но и пользовался с полгода. Не проникся)
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку