2780

Частота букв в русском языке

Буквы
Нам с коллегой Владимиром Терентьевым внезапно показалось любопытным узнать, как и как часто мы в русском языке используем те или иные буквы. Для этого был проанализирован Полный орфографический словарь русского языка.
Какая буква на каком месте?
Первая задача была в том, чтобы показать распределение использования буквы в разных частях слова.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
В качестве единиц измерения используется коэффициент: полученные данные были пересчитаны так, чтобы оценить положение буквы относительно слова, при этом не учитывая его длину. Кстати чаще всего в словаре встречаются слова из 9 и 10 букв, но попадаются и длиной в 29 знаков.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Как буквы сочетаются?
«Ть, ть, ть», — повторило привычное эхо
Еще нам показалось интересным узнать, как буквы сочетаются с другими, и какие пары используются в словах русского языка чаще.
В данном случае уже можно говорить о буквальной частоте встречаемости пар как о единицах измерения. Однако, я сохранила преемственность в легенде.
Частота букв в русском языке Русский язык, Визуализация, Интересное, Не мое, Длиннопост
Свой финальный выбор я остановила на хитмапе. Изначально идея была визуализировать размерами букв, получить, фактически, облако сочетаний знаков. Однако, из-за сложности форм она не сработала, читаемость как данных, так и самих букв была очень низкой. Естественно, я попробовала с более простыми формами и сделала пузырьковую диаграмму, но полученный результат эстетически меня не устроил.

Nadya Andrianova

Дубликаты не найдены

+327

Позвольте доебаться

Иллюстрация к комментарию
раскрыть ветку 27
+193

минуту искал ошибку. И правду говорят, что мозг сам слова додуымвает, а не читает их полонстью.

Иллюстрация к комментарию
раскрыть ветку 9
+97

Увидел только после вашей подсказки :D

раскрыть ветку 7
+2

не то, чтобы додумывает, а воспринимает целиком, а не по буквам

+51

Самые используемые буквы на клаве - это Ц,Ф,Ы,В !!!

раскрыть ветку 10
+29

У некоторых, возможно, Й, Ц, У, К.

раскрыть ветку 8
0

Точно! "Ц"! У меня на клаве эта буква уже давно стерлась.

+12

Всё же очепятка, а не офрографическая ошибка)

раскрыть ветку 1
+55
Афрографическая ошибка? Где?
Иллюстрация к комментарию
+3

Самое частое слово должно начинаться на П, кончатся на ть, и быть длиной 9-10 знаков, хмм... Проверить!

-1
Прикольно
-8
Иллюстрация к комментарию
раскрыть ветку 1
+4
Извини, но не в тему
ещё комментарии
+140

Хм

Иллюстрация к комментарию
раскрыть ветку 15
+142

Хм...

Иллюстрация к комментарию
раскрыть ветку 5
+19

Ну дя ....ещё  и ЛЯ от слова БЛЯ!

+41

Хммм...

Иллюстрация к комментарию
раскрыть ветку 1
+5
Я считаю, что на клавиатуре буквы "у", "й", "х" должны быть расположены ближе, а лучше подряд
раскрыть ветку 1
+17
Ну, помимо хуя, на Й еще большинство прилагательных мужского рода заканчивается. Хотя хуй да, хуй со счетов не сбрасываем. Только вот словаре он вряд ли больше одного раза появился.
раскрыть ветку 7
+10
Хуевый
+4

Чисто ради интереса, а можно пример прилагательных в мужском роде именительном падеже, не заканчивающихся на "й"?

раскрыть ветку 5
+3

у вас офрографическая очепятка.


не "м", а "у"

+33
В каком-то лохматом году такие же исследователи "Войну и мир" через программу пропустили, и выяснили, что самое повторяющееся слово у Толстого - "какать".
При детальном рассмотрении оказалось, что программа все слова "какая" (какая красивая и т.д.) приняла за деепричастие названного выше глагола.
Такие дела
раскрыть ветку 1
0
Круто👍. Есть ещё что-нибудь такое?
+30
Во времена Поля чудес цены не было бы этому посту 😁
раскрыть ветку 8
+21

Так Поле чудес вроде не закрыли ещё.

раскрыть ветку 6
+19
Ого! Но времена его в любом случае прошли)
раскрыть ветку 5
+1
На клавиатуре буквы расположены по частоте употребления, так что можно было пользоваться в поле чудес)
+29

А слово "Ёж" - оказывается рвёт шаблоны)

раскрыть ветку 5
+14

И "Яд" тоже

раскрыть ветку 4
+32

а слово "СТАТЬ" - самое типичное

раскрыть ветку 3
+166

Ничего общего с частотой повторения букв в русском языке данное исследование не имеет. Ибо исследовался не язык, а набор слов в словаре. Без учёта частоты использования их в разговорной практике. Сколько раз, например, можно услышать в типичном современном диалоге слово "скабрезный"? Уж гораздо реже, чем какой-нибудь "айфон"... Поэтому анализировать надо было не словарь, а, допустим, набор страниц Пикабу за последний год. Ближе к истине был бы результат.

раскрыть ветку 28
+83

Тоже хуйня получилась бы

раскрыть ветку 8
+26
Вот пикабу дало бы меньшую погрешность чем любой сайт в рунете, ибо:

1) Контент авторский, т.е. единого стиля нет

2) Контент усредненный - посты откровенных маргиналов и научные статьи встречаются одинаково редко.

Большую точность можно было бы получить, анализируя лички в вк и одноклассниках. Но это совсем другие затраты времени, денег, и вообще шиза.

раскрыть ветку 1
+50
49,5 сантиметровая хуйня
раскрыть ветку 4
+1

Для этих целей есть корпус русского языка вообще-то

+3

Плюс не учтены падежи, числа, времена и тому подобные словоизменения.

+3

когда я увидел парные буквы то сразу вспомнил про криптоанализ, имхо эти таблички из этой оперы.

+4
так кто мешает науськать скрипт на текст.
+8
А причем тут частота использования слов? Ведь этот показатель очень субъективный!
а тут даётся статистика насколько часто среди слов встречаются буквы, их сочетания и т.д.
раскрыть ветку 3
+5
> этот показатель очень субъективный

Что?
раскрыть ветку 2
0

Если учитывать частоту использования в разговорной практике, то лидерами бы стали сочетания: "азаза", "мамка", "пешите". Ну и в таком духе :)

0

на сколько я знаю, буква "Е" самая распространенная в русском языке, а не "А"

раскрыть ветку 1
0
Даже слово есть с 3 е подряд. Длинношеее
0

Так "П" и "Х" и так чаще всего встречаются по графикам... совпадение?

раскрыть ветку 1
0
Про "Н" забыли.
-2
Достаточно просто посмотреть на клавиатуру. Уже все давно просчитано за нас)
раскрыть ветку 1
-4
Когда составляли клавиатуру, пытались наоборот запутать буквы. Я до сих пор не помню точно, где в русской раскладке запятая, кавычки и точка
-3

Материалом для исследования является не словарь, а корпус (см. Корпусная лингвистика в википедии), коим, к слову сказать, может выступать любое издание, хоть российский плейбой хоть распаршенный ВК. По сему, Вы не правы.

раскрыть ветку 4
0

Корпусом является большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Проще говоря, специально созданный массив языковых данных, поэтому ни сайты, ни журналы без надлежащей обработки таковыми не будут.

раскрыть ветку 3
+12
Иллюстрация к комментарию
раскрыть ветку 4
+11

Zdarova bro bazar oncology ebal!

раскрыть ветку 1
+1
proSOSALO
tut EBANULSA
0

Что это? Словарь русского сегмента dota 2?)

0

zadrot ebaniy

+7

Не все поймут, но буква Ё самая нормальная.

раскрыть ветку 1
+22

напомнило

Иллюстрация к комментарию
+7

Да это читы на "Поле чудес"

+15

Все твои сверстники уже ипотеку взяли, по двое детей, жену бьют по четвергам, а ты графики рисуешь. Некрещеный поди?

+3

Мне одному кажется, что была проделана куча работы, получены интересные результаты, но из-за особо умных дизайнеров вся эта работа пошла коту под хвост? Нет никакой возможности сравнить буквы между собой... Серьезно, кто додумался частоту использования букв показывать цветом? Да и сами графики тоже хороши. Никаких осей не прописано, невозможно сравнить насколько чаще буквы используются в качестве первой и второй потому, что непонятно, какая точка графика соответствует второй букве и какая высота графика соответствует какому проценту...

раскрыть ветку 2
0

Ну предложи как бы ты это показал.
Да, мне тоже кажется что отображение так себе, но не знаю как бы я сам это показал

раскрыть ветку 1
0

Во первых, я бы сделал это не в виде инфографики. Но даже если и оставить инфографику - можно было бы хотя бы разделить статистику по частоте букв вообще и частоте букв в зависимости от места в слове на две разные графы - и бац, уже читаемо. Или, например, отсортировать буквы не по алфавиту, а по популярности.

+3

Ещё может представлять интерес сравнение диаграмм встречаемости букв друг с другом. Например, очень похожи диаграммы букв Д-Г-З, П-Ф-Х, С-Ц-К-Ч, У-Ю. И ведь в языках одной группы эти буквы часто взаимозаменяемы. Или, скажем, известно, что в старославянском буква Щ звучала как ШТ. И на диаграмме видно, что частота Щ как бы складывается из частот Ш+Т.

+3
Иллюстрация к комментарию
+5
Помню интересную рекламу Рамблера про то, как маленькая девочка догадалась спустить колеса у застрявшего под мостом грузовика и он смог проехать, самое длинное слово в русском языке "превысокомногорассматривающий".
раскрыть ветку 11
+8
превысокомногорассмотрительствующий
раскрыть ветку 9
+5
Контрпревысокомногорассмотрительствующий
раскрыть ветку 6
+4
Недопревысокомногорассмотрительствующий
раскрыть ветку 1
+3

четырестадевяностопятимиллиметровый

+2

Сделайте подобную работу для английского языка. Для брутфорсеров это неоценимая информация. К сожалению, на русском мало востребована в этом плане.

раскрыть ветку 1
0

Да это можно и самому скрипт накидать (не больше пары часов).

Но брутфорсерам это нифига не поможет, так как им нужна сводка не по всем словам, а по самым употребляемым.

+1
Еду на поле чудес.
+1

Знаете когда проверили аналог этого замечательного исследования? Когда составляли вашу клавиатуру, миллион лет назад.

+1
@L4rever, тебе пересчитали! Ответный ход будет?
+1

Льюис Кэролл однажды открыл для себя поразительное русское слово - Zashtsheeshtshayoushtsheekhsya (Those who protect themselves)

раскрыть ветку 4
+3

гжегож бженчишчикевич

0

Как оно читается? Я не осилил

раскрыть ветку 2
+2
Защищающихся.
Кэролл записал его старую форму, поэтому так сложно понять - т.е. вместо <<щ>> у него транскрипция <<шч>>.
+1
Защищающихся
+1

на основании этого в криптографии есть такое понятие как - частотный анализ

+1
Это все, конечно интересно... Но кто работать будет?
+1

Таки автор начинающий или практикующий Дата Сайентист с упором на текст майнинг? ))

+1

Было бы интересно на основе этих данных переставить буквы на клавиатуре.

раскрыть ветку 6
0
Не особо. Только если ты печатаешь словари. А в повседневной жизни надо такую статистику делать по корпусу того, что печатается чаще всего. Так что переставлять буквы не советую по этим исследованиям)
раскрыть ветку 5
+1

Окей, собрать статистику по популярным словам, а не по всем, и после этого посмотреть на раскладку.

раскрыть ветку 4
+1

Основа основ криптографии. Эх!

+1

Это ,случайно, не зовётся "частотные характеристики биграмм"? Или "марковостью" (Марков Андрей Андреевич)?

+1

Не смог добавить ссылку на исходник в пост. Может кто-нибудь помочь с этим?

раскрыть ветку 8
0
Позови модратора
раскрыть ветку 7
0

@moderator, вы не могли бы добавить ссылку на источник?

раскрыть ветку 6
0

Хуйня какая-то хули букава Х нахую находится? Охуели что ли? Хуйня крч.

0

ТЬ чаще всего встречается из-за того, что глаголы в словаре в инфинитиве.

0
Проанализирован был словарь, поэтому "ЫЙ" - частое сочетание, т.к. в словаре начальная форма слова, т.е. мужской род, именительный падеж, но если брать в целом, то сочетания "АЯ", "ЫЕ" получается почти такое же часто встречаемое, значит, нельзя считать абсолютно достоверным этот анализ. Правильно же я понимаю?
Но почитать было очень интересно!
0
Влияние количества пиратов на глобальное потепление
0
Инфографика любопытная. Но само исследование по словарю бессмысленное. Ибо в русском языке фразы ставятся не инфинитивом и не простыми формат слов по словарю. Распределение использования было бы совсем иным, а значит результаты бесполезные и не достоверные.
0

"ый" встречается часто, "ая" - почти никогда. Что за сексист подбирал выборку?!!!

0
Комментарий удален. Причина: данный аккаунт был удалён
0
Крутое исследование)
0

Как многие уже сказали, результаты про словарь совершенно не интересны. Интересно было бы, если бы этот анализ был бы проделан для каких-нибудь книг или для дампа того же Пикабу.

0
Чем визуализировать если не секрет?
0

Итого, если хочешь выиграть в игру "Слова",  нужно как можно чаще выбирать слова, заканчивающиеся на Й, Ц и Я. А вот слова, оканчивающиеся на "П" - дохлый номер.

0
Конечно очень интересно. Но теперь интереснее вот что: провести еще одну исследовательскую работу, только уже с произведениями, где текст имеет смысловую нагрузку, причем как с произведениями классической литературы(Пушкин, Толстой)так и с современными(Стругацкие например). И есть мнение что эти результаты будут отличаться. А так топ.
0

доказанно последняя буква русского языка это - Я

Иллюстрация к комментарию
0
Для меня это бесполезно, но я рад что есть и такие исследования. Спасибо
0

У Ё самое нормальное распределение

0

Инфа 100%, куча аналитических работ была проведена: Самая встречающаяся буква в русском языке - П

0
Еще бы интересно это наложить на частоту использования слов и посмотреть на частоту использования букв, звуков и сочетаний их в текстах.

Непонятна первая схема с волнами - ведь число символов в словах - целое число, и по идее, график для буквы должен бы выглядеть как график "какой длины слово" - то есть не ограничен сверху плавной кривой.

0

А можно ссылку на оригинал?

0

А я думал график соотношения децибел/герц

0

открыл полностью только для того, чтобы посмотреть на букву ы.

спасибо.

0

что за слова на Ы начинаются?

раскрыть ветку 3
0

Ыгыатта

0

Вы удивитесь

Иллюстрация к комментарию
раскрыть ветку 1
0

те график в небо сравнимый с буквой А это вот это все да?

0

Словарь это, конечно, хорошо, но слишком много там слов, которые фактически не используются. Взять бы пачку книг разных, да проанализировать.

0
Частенько играем в игру "на П")
0

почему в гистограмме распределения слов по длине исключили однобуквенные?

прям какая-то несправедливость...

0
спасибо, интересные данные. отдельно благодарю за инфографику.
0

Орфогистограммы

0

С буквой "Ы" не все понятно.На графике показано, что с нее много слов начинается.Не могу вспомнить ни одного.

Иллюстрация к комментарию
раскрыть ветку 4
+3

В графике видно, что слов на "Ы" нет, а вот второй и последующими достаточно много.

0

В русском языке есть слова на «Ы». Это названия российских городов и рек: Ыгыатта, Ыллымах, Ынахсыт, Ыныкчанский, Ытык-кюёль

0

Вики жи есть:

В Якутии в период с 1937 по 2008 годы существовал посёлок золотодобытчиков Ыныкчан.

раскрыть ветку 1
+3

А еще река Ыгыатта, село Ынахсыт, посёлок Ыллымах, посёлок Ыныкчанский, село Ытык-кюёль :)

0

А как и в чем делаются подобные исследовани?

раскрыть ветку 1
0

На самом деле думаю, что прогнали через не особо сложную программу какую-нибудь. Возможно на R с надстройкой для визуализации.

0
Я даже знаю благодаря какому слову,оканчивающемуся на "ть", это буквосочетание вырвалось на 1место
раскрыть ветку 4
+3

Гнать, держать, бежать, обидеть,

слышать, видеть, и вертеть,

и дышать, и ненавидеть,

и зависеть, и терпеть.

Речь об этом, надеюсь?)

раскрыть ветку 3
+2

У нас было более приятно на слух:

Гнать, бежать, терпеть, обидеть,
Слышать, видеть, ненавидеть
И зависеть, и вертеть
А ещё дышать, смотреть

раскрыть ветку 1
0
Да-да, именно об этом))
0

интересное исследование. У Вас работа с чем то подобным связана? Уж как то все приятно глазу и мозгу было

0
из разряда - а на кой это исследование было необходимо или я никогда не пойму филологов
раскрыть ветку 3
+5
Это ни разу не филологическое исследование. Чистой воды статистика.
+3

тем более такие исследования давно проведены, и на результатах этих исследований мы каждый день печатаем

0
внезапно показалось любопытным узнать
-1
Простите, а нухуа мне это?
-1
Реально визуализация полный шлак
-1
Вот людям делать нехер))) зачем вот это все выяснять и считать? Лучше б полезное подумали чего нибудь.
-2

Теперь понятно!

Иллюстрация к комментарию
раскрыть ветку 1
0

Ну да не плохая шпора для поле чудес.

-2
Такое ощущение, что это работа британских учёных...
-4
Вот кому то делать то нечего. Кому нужна эта информация?
раскрыть ветку 4
+2

Вы не поверите. Сначала изучают частоту гласных и согласных, потом их двойные сочетания, потом тройные, потом двойные и тройные окончания. И т.д.


С вами была книга "Шифр простой замены".

раскрыть ветку 2
0
Штирлиц так никогда не был близок к провалу?
раскрыть ветку 1
0

например криптографам

-28
Иллюстрация к комментарию
раскрыть ветку 1
+11

у кого что болит...

ещё комментарии
Похожие посты
Похожие посты закончились. Возможно, вас заинтересуют другие посты по тегам: