niso4ka

Частота букв в русском языке⁠⁠

Буквы
Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.
Какая буква на каком месте?
Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.

В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.

Как буквы сочетаются?
«Ть, ть, ть», — повторило привычное эхо
Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.
В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.

Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

Nadya Andrianova

208

Вы смотрите срез комментариев. Показать все

175

fdl1954

6 лет назад

Ничего общего с частотой повторения букв в русском языке данное исследование не имеет. Ибо исследовался не язык, а набор слов в словаре. Без учёта частоты использования их в разговорной практике. Сколько раз, например, можно услышать в типичном современном диалоге слово "скабрезный"? Уж гораздо реже, чем какой-нибудь "айфон"... Поэтому анализировать надо было не словарь, а, допустим, набор страниц Пикабу за последний год. Ближе к истине был бы результат.

раскрыть ветку (28)

DrugForDuck

6 лет назад

Тоже хуйня получилась бы

раскрыть ветку (8)

Vzayatz1

6 лет назад

Вот пикабу дало бы меньшую погрешность чем любой сайт в рунете, ибо:

1) Контент авторский, т.е. единого стиля нет

2) Контент усредненный - посты откровенных маргиналов и научные статьи встречаются одинаково редко.

Большую точность можно было бы получить, анализируя лички в вк и одноклассниках. Но это совсем другие затраты времени, денег, и вообще шиза.

раскрыть ветку (1)

nomandry

6 лет назад

Вы штили-то не путайте

joystik

6 лет назад

49,5 сантиметровая хуйня

раскрыть ветку (4)

0709191

6 лет назад

Ага, самое частое сочетание цифр в русском интернете - 49

раскрыть ветку (3)

RAWEN

6 лет назад

С половиной!!

раскрыть ветку (1)

ZlojVolk

6 лет назад

А самые частые буквы:

Г,Е,И,Л,Р,Т

elfiq

6 лет назад

а как же 42 и 69?

eugeny

6 лет назад

Для этих целей есть корпус русского языка вообще-то

BrideOfOctober

6 лет назад

Плюс не учтены падежи, числа, времена и тому подобные словоизменения.

movAXDEADBEAF

6 лет назад

когда я увидел парные буквы то сразу вспомнил про криптоанализ, имхо эти таблички из этой оперы.

alexkurzin

6 лет назад

так кто мешает науськать скрипт на текст.

arda0077

6 лет назад

А причем тут частота использования слов? Ведь этот показатель очень субъективный!
а тут даётся статистика насколько часто среди слов встречаются буквы, их сочетания и т.д.

раскрыть ветку (3)

error418

6 лет назад

> этот показатель очень субъективный

Что?

раскрыть ветку (2)

Stack.Over.Flow

6 лет назад

зависит от статьи, выборки тематики и тд.

Так что тоже херовая идея

arda0077

6 лет назад

Сильно коррелирует в зависимости от части общества, ведь даже просто в зависимости от профессий наиболее часто будут использоваться разные слова.

kleverwork

6 лет назад

Если учитывать частоту использования в разговорной практике, то лидерами бы стали сочетания: "азаза", "мамка", "пешите". Ну и в таком духе :)

kgemn00

6 лет назад

на сколько я знаю, буква "Е" самая распространенная в русском языке, а не "А"

раскрыть ветку (1)

Creaman

6 лет назад

Даже слово есть с 3 е подряд. Длинношеее

MOJIOYKO

6 лет назад

Так "П" и "Х" и так чаще всего встречаются по графикам... совпадение?

раскрыть ветку (1)

Kampah

6 лет назад

Про "Н" забыли.

C.czerniak

6 лет назад

Материалом для исследования является не словарь, а корпус (см. Корпусная лингвистика в википедии), коим, к слову сказать, может выступать любое издание, хоть российский плейбой хоть распаршенный ВК. По сему, Вы не правы.

раскрыть ветку (4)

Awada

6 лет назад

Корпусом является большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Проще говоря, специально созданный массив языковых данных, поэтому ни сайты, ни журналы без надлежащей обработки таковыми не будут.

раскрыть ветку (3)

C.czerniak

6 лет назад

Ага, а словари, стало быть, по Вашему - будут, ммм?

Любой датасет требует определенной предобработки. По факту это отдельная от анализа на выходе задача. Но никак работа не связана со "словарями".

Говорю, как текст майнер. Вы, простите, кто?

раскрыть ветку (2)

Awada

6 лет назад

А я Вам, как корпусный лингвист)
Словари будут массив данных. но не корпус в его лингвистическом понимании. С обработкой Вы правы, но в данном случае сделать скидку стоит на то, что исследование проводилось для красивой инфографики.

раскрыть ветку (1)

C.czerniak

6 лет назад