Частота букв в русском языке

Буквы
Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.
Какая буква на каком месте?
Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Как буквы сочетаются?
«Ть, ть, ть», — повторило привычное эхо
Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.
В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

Nadya Andrianova

Вы смотрите срез комментариев. Показать все
175
Автор поста оценил этот комментарий

Ничего общего с частотой повторения букв в русском языке данное исследование не имеет. Ибо исследовался не язык, а набор слов в словаре. Без учёта частоты использования их в разговорной практике. Сколько раз, например, можно услышать в типичном современном диалоге слово "скабрезный"? Уж гораздо реже, чем какой-нибудь "айфон"... Поэтому анализировать надо было не словарь, а, допустим, набор страниц Пикабу за последний год. Ближе к истине был бы результат.

раскрыть ветку (28)
86
Автор поста оценил этот комментарий

Тоже хуйня получилась бы

раскрыть ветку (8)
27
Автор поста оценил этот комментарий
Вот пикабу дало бы меньшую погрешность чем любой сайт в рунете, ибо:

1) Контент авторский, т.е. единого стиля нет

2) Контент усредненный - посты откровенных маргиналов и научные статьи встречаются одинаково редко.

Большую точность можно было бы получить, анализируя лички в вк и одноклассниках. Но это совсем другие затраты времени, денег, и вообще шиза.

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Вы штили-то не путайте

54
Автор поста оценил этот комментарий
49,5 сантиметровая хуйня
раскрыть ветку (4)
12
Автор поста оценил этот комментарий

Ага, самое частое сочетание цифр в русском интернете - 49

раскрыть ветку (3)
7
Автор поста оценил этот комментарий
С половиной!!
раскрыть ветку (1)
5
Автор поста оценил этот комментарий

А самые частые буквы:

Г,Е,И,Л,Р,Т

1
Автор поста оценил этот комментарий

а как же 42 и 69?

1
Автор поста оценил этот комментарий

Для этих целей есть корпус русского языка вообще-то

3
Автор поста оценил этот комментарий

Плюс не учтены падежи, числа, времена и тому подобные словоизменения.

3
Автор поста оценил этот комментарий

когда я увидел парные буквы то сразу вспомнил про криптоанализ, имхо эти таблички из этой оперы.

5
Автор поста оценил этот комментарий
так кто мешает науськать скрипт на текст.
18
Автор поста оценил этот комментарий
А причем тут частота использования слов? Ведь этот показатель очень субъективный!
а тут даётся статистика насколько часто среди слов встречаются буквы, их сочетания и т.д.
раскрыть ветку (3)
9
Автор поста оценил этот комментарий
> этот показатель очень субъективный

Что?
раскрыть ветку (2)
12
Автор поста оценил этот комментарий

зависит от статьи, выборки тематики и тд.

Так что тоже херовая идея

3
Автор поста оценил этот комментарий
Сильно коррелирует в зависимости от части общества, ведь даже просто в зависимости от профессий наиболее часто будут использоваться разные слова.
Автор поста оценил этот комментарий

Если учитывать частоту использования в разговорной практике, то лидерами бы стали сочетания: "азаза", "мамка", "пешите". Ну и в таком духе :)

Автор поста оценил этот комментарий

на сколько я знаю, буква "Е" самая распространенная в русском языке, а не "А"

раскрыть ветку (1)
1
Автор поста оценил этот комментарий
Даже слово есть с 3 е подряд. Длинношеее
Автор поста оценил этот комментарий

Так "П" и "Х" и так чаще всего встречаются по графикам... совпадение?

раскрыть ветку (1)
Автор поста оценил этот комментарий
Про "Н" забыли.
2
Автор поста оценил этот комментарий

Материалом для исследования является не словарь, а корпус (см. Корпусная лингвистика в википедии), коим, к слову сказать, может выступать любое издание, хоть российский плейбой хоть распаршенный ВК. По сему, Вы не правы.

раскрыть ветку (4)
Автор поста оценил этот комментарий

Корпусом является большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Проще говоря, специально созданный массив языковых данных, поэтому ни сайты, ни журналы без надлежащей обработки таковыми не будут.

раскрыть ветку (3)
Автор поста оценил этот комментарий

Ага, а словари, стало быть, по Вашему - будут, ммм?

Любой датасет требует определенной предобработки. По факту это отдельная от анализа на выходе задача. Но никак работа не связана со "словарями".

Говорю, как текст майнер. Вы, простите, кто?

раскрыть ветку (2)
1
Автор поста оценил этот комментарий

А я Вам, как корпусный лингвист)
Словари будут массив данных. но не корпус в его лингвистическом понимании. С обработкой Вы правы, но в данном случае сделать скидку стоит на то, что исследование проводилось для красивой инфографики.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Скажите, а Вам работа в стартапе не интересна?

Мне в команду нужен именно корпусный лингвист))

bantley at inbox dot ru - пишите, если интересна работа по Вашему направлению.

1
Автор поста оценил этот комментарий
Достаточно просто посмотреть на клавиатуру. Уже все давно просчитано за нас)
раскрыть ветку (1)
1
DELETED
Автор поста оценил этот комментарий
Когда составляли клавиатуру, пытались наоборот запутать буквы. Я до сих пор не помню точно, где в русской раскладке запятая, кавычки и точка
Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку