График частоты букв в русском языке

График частоты букв в русском языке Статистика, Русский язык, Научпоп, График, Человек наук

На первом месте – "О", она встречается в русскоязычных текстах чаще, чем 14 самых редких букв в сумме! Самая распространённая согласная – "Н", что для меня было неожиданно. А мягкий знак далеко не такой редкий, как я думал – он встречается чаще, чем целых 15 букв


На последнем месте грустит "Ё". Её нещадно вытесняет из письменности "Е", чтобы удержать своё второе место


Если вы читаете достаточно длинный текст, то его 50% составляют всего 7 букв!


Мой телеграм-канал
15
DELETED
Автор поста оценил этот комментарий

Какие тексты брались?

раскрыть ветку (1)
16
Автор поста оценил этот комментарий

Национальный корпус русского языка :)

показать ответы
1
DELETED
Автор поста оценил этот комментарий

Смысл?

раскрыть ветку (1)
22
Автор поста оценил этот комментарий

Это важно, например, для эффективного кодирования символов на компьютерах. Если самый частый символ обозначать малым количеством нулей и единиц, а самый редкий – большим, то файл займёт меньше места. Примерно так работают архиваторы :)

показать ответы
1
Автор поста оценил этот комментарий

Не знаю. Чаще в глаза бросается.

раскрыть ветку (1)
6
Автор поста оценил этот комментарий

Это забавно: в вашем комментарии и правда больше букв «А», а в комментарии выше – «О»

Может, это личные предпочтения :)

показать ответы
11
Автор поста оценил этот комментарий

буква Ё хоть и встречается редко, зато во многих словах, где можно применить вместо неё Е смысл меняет координально

раскрыть ветку (1)
11
Автор поста оценил этот комментарий

«В ближайшие дни страна передохнет от холода»

показать ответы
DELETED
Автор поста оценил этот комментарий

То есть, если в юникоде под кириллицу выделены коды U+0400 - U+052F,  U+2DE0 - U+2DFF и т.д то этот поможет уменьшить обьем при архивировании?

раскрыть ветку (1)
10
Автор поста оценил этот комментарий

В юникоде у каждого символа одинаковая длина. По-разному, в зависимости от частоты символов в конкретном файле, текст кодируют архиваторы (например, zip)

показать ответы
2
Автор поста оценил этот комментарий
Однажды Остап обходил окрестности огорода. Он обнаружил обнаженную Ольгу. "Ольга, отдайся. Озолочу, особняк отгрохаю". Ольга и отдалась. "Отдавай обещанное". "Отойди, обоссу, околеешь". Ольга огребла Остапа оглоблей. Остап окочурился.

Light-версия для ЛЛ.
раскрыть ветку (1)
1
Автор поста оценил этот комментарий

«и»

Автор поста оценил этот комментарий

Поздравляю, вы открыли мощность алфавита

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Спасибо, но мощность алфавита – это количество символов в нём. Для русского языка – 33

Автор поста оценил этот комментарий

А в каком-то наглядном виде, типа графика можно сочетания вывести?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Да :) Сделаю следующим постом

Автор поста оценил этот комментарий

Вот статистика по вашему тексту :

'е' - 39,

'с' - 29,

'т' - 29,

'а' - 28,

'о' - 28,

'н' - 25,

'м' - 15,

'в' - 14,

'к' - 14,

'р' - 12,

'я' - 12,

'ч' - 11,

'д' - 11,

'и' - 11,

'л' - 10,

'ы' - 9,

'у' - 8,

'х' - 5,

'б' - 5,

'г' - 5,

'п' - 4,

'ё' - 4,

'й' - 4,

'з' - 3,

'щ' - 3,

'ж' - 2,

'ь' - 2,

'ц' - 1,

'ю' - 1,

раскрыть ветку (1)
Автор поста оценил этот комментарий

Любопытно, спасибо!

DELETED
Автор поста оценил этот комментарий

Байеса это просто наблюдение гонки Ахиллеса и черепахи. Нет на практике рабочее применение формулы. Ну не зачем эти формулы в макромире, где не понятно когда может сработать случайность. С одной стороны атом урана может распасться мгновенно, но слиток будет 4500 лет. С другой, эффект бабочки и турбулентные потоки, которая может на всю систему воздействия оказать. Дело в том что я не физик, а просто интересующийся свободой воли. Все знания с Вики, Ютуб и подкастов.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Погуглите «Байесовский классификатор». Долгое время именно благодаря теореме Байеса ваш почтовый ящик определял спам. Потом появились более эффективные инструменты


Я занимаюсь биоинформатикой и за последний год встречал теорему Байеса в статьях минимум трижды. Она используется, например, для более точного построения филогенентических деревьев


Осторожнее с категоричными утверждениями, тем более если это не факты, а чьи-то мнения с ютуба/подкастов :) Математика работает отлично

1
Автор поста оценил этот комментарий

Воот... А покажешь такое математику, а он: нормальное распределение, что ты, со всеми так, что ни возьми - буквы, слова, ноты, цвета, имена, даже, плотность населения... С зарплатами только не кореллируется (

раскрыть ветку (1)
Автор поста оценил этот комментарий

Это какой-то неправильный математик

Автор поста оценил этот комментарий
@Vladimir98, а вы не заметили, что буквы "У", "Й", "Х" по частоте встречаемости стоят рядом? Я ни на что не намекаю, конечно, так, наблюдение))))))))
раскрыть ветку (1)
Автор поста оценил этот комментарий

Это «Ч», а не «У» :) Она просто маскируется

показать ответы
DELETED
Автор поста оценил этот комментарий
Напомнило про мужика который спички считал
раскрыть ветку (1)
Автор поста оценил этот комментарий

Я ж не вручную считал: тут программа на десяток строчек всего :)

Автор поста оценил этот комментарий

Какое же это ТВОЁ? Еще в 2009 году Ольга Ляшевская из HSE опубликовала Частотный словарь современного русского языка. А она принимала и принимает непосредственное участие в развитии НКРЯ

http://dict.ruslang.ru/freq.php?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Я уверен, что ещё во время мировых войн это кто-нибудь делал. Пост мой, потому что я снова обработал данные, построил график и написал текст


Так никому нельзя ставить тег «моё», ведь авторы пишут посты на языке, придуманном не ими

показать ответы
Автор поста оценил этот комментарий

А что такое национальный корпус русского языка?

раскрыть ветку (1)
Автор поста оценил этот комментарий

Легко гуглится по «НКРЯ» :)

Иллюстрация к комментарию
показать ответы
DELETED
Автор поста оценил этот комментарий

Законы математики не работают нифига. Ципфа, Баесса, нормальное распределение. Всё это херня в сложных системах.

раскрыть ветку (1)
Автор поста оценил этот комментарий

Закон Ципфа – это эмпирическое наблюдение, он не про математику. А что не так с законом Байеса?

показать ответы
Автор поста оценил этот комментарий
пиздëж)) чистой воды
раскрыть ветку (1)
Автор поста оценил этот комментарий

Пересчитайте сами :)

Автор поста оценил этот комментарий

Где буква Ё?!!

раскрыть ветку (1)
Автор поста оценил этот комментарий

Прячется в самом низу

4
Автор поста оценил этот комментарий
Когда ты картавый , то складывается такое впечатление что , русский алфавит состоит преимущественно из одних рррр
раскрыть ветку (1)
Автор поста оценил этот комментарий

У меня проблемы с шипящими и я вас прекрасно понимаю :)

Автор поста оценил этот комментарий
Лига зануд спешит сообщить, что на графике нет буквы Ч, зато две Е.
раскрыть ветку (1)
Автор поста оценил этот комментарий

В самом низу - "Ё", просто точки закрыты другой буквой :) А "Ч" примерно в нижней трети графика, между "Б" и "Й"

показать ответы
1
Автор поста оценил этот комментарий

Я лет в 10-12 сам считал, брал разные по количеству символов тексты из разных источников, результаты были примерно такими же, также искал наиболее частые для русского языка сочетания символов. Был под впечатлением произведения "Золотой жук" Эдгара По, выводил закономерности) К слову потом поражал всех тем, что простые шифры, где один символ соответсвует одной букве алфавита щелкал как семечки. Эх, давно это было

раскрыть ветку (1)
Автор поста оценил этот комментарий

При составлении азбуки Морзе тоже вручную считали частоты букв из книг, если я правильно помню :)

показать ответы
9
Автор поста оценил этот комментарий

У Конан-Дойла есть история (в главной роли ктобывыдумали), в которой ШХ успешно разгадывает шифр, благодаря утверждению, что в английском языке чаще всего встречается буква "е", ну и далее уже было проще. Мне было лет 12-14 наверное, когда я дочитал этот рассказ. И понеслось. Я начал изучать всю доступную литературу о шифровании, подстановки, цезарь, Я.И. Перельман, математика с простыми и не очень числами, открытые и закрытые ключи (или это было уже в техникуме?). Короче это было оОООочень интересно и необычно. Одноклассники, конечно не разделяли... Через пару лет снова наткнулся на то, о чём собственно пост, о частоте букв в родном языке. Почему-то это было уже не так интересно, видимо чем старше становлюсь, тем менее увлекательными кажутся всякие загадки, авантюры.

Да, вот ещё, у Конан-Дойла были ещё плящущие человечки, помните?

раскрыть ветку (1)
Автор поста оценил этот комментарий

Помню, я даже пытался разгадать их шифр :) Точно понял, как обозначается пробел, про остальное – не уверен

8
Автор поста оценил этот комментарий
а если с пикабу обработать текстовых постов побольше, то настолько будет отличаться результат?)
раскрыть ветку (1)
Автор поста оценил этот комментарий

Хех, интересная идея, как-нибудь попробую :)

DELETED
Автор поста оценил этот комментарий

Не, как именно проезжает-то? Есть какая-то сильно оптимизированная функция сравнения строки с каждым элементом массива, или как дела обстоят?

раскрыть ветку (1)
Автор поста оценил этот комментарий

Тут не нужно слишком много оптимизировать, в любом случае понадобится линейное время от количества символов. И это неплохо: сортировать слова пришлось бы дольше


Сами строки, конечно, сравниваются не полностью. Например, если первый символ строк не совпадает, то дальше проверять нет смысла - понятно, что они не равны. Благодаря этому считать длинные подстроки будет даже быстрее, чем единичные символы

DELETED
Автор поста оценил этот комментарий

Интересно. А как проверяется соответствие буквы? Ну, чтобы увеличить счетчик конкретной буквы/сочетания, нужно проверить текст текущего проверяемого символа на совпадение с заданным. По буквам если еще ладно, но сочетаний-то больше тысячи. Как это оптимально делается?

раскрыть ветку (1)
Автор поста оценил этот комментарий

Точно также: берётся «окошко» длиной в два символа и постепенно проезжает по словам. Смотрим, какие 2 символа сейчас в окошке и увеличиваем их счётчик на единицу


Тысяча – это немного для компьютера :)

показать ответы
DELETED
Автор поста оценил этот комментарий

Ну, на первую сотенку по популярности я бы взглянул =)


А на чем вы это делаете?

раскрыть ветку (1)
Автор поста оценил этот комментарий

Язык программирования python :)

показать ответы
1
DELETED
Автор поста оценил этот комментарий

Какая методика подсчета? Тупо валим все символы текста в кучу и считаем, или как?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Да, всё так

Можно посчитать количество разных сочетаний символов, если интересно

показать ответы