Лингвистическая аналитика: какой слог чаще встречается

Доброго дня.
На волне постов о возрождении авторских постов, решил раскопать материалы, чтоб внести свои 5 копеек. Анализ начал делать год назад, собрался силами и наконец-то завершил и подготовил материал.

Итак.
Примерно около 3 лет назад, когда я водил своего сына на подготовку к школе и логопеду, заметил, о том, что детей обучают читать сразу по слогам. То же самое я слышал и от других людей. Любо это действительно лучше для обучения или это веянье моды, не этот вопрос мы будем сейчас решать. Воспримем эту информацию как действительность.
А зададимся другим вопросом.
Если учить по слогам, то в русском языке 10 гласных и 20 согласных (те которые участвуют в формировании слога, т.е "й" не будем учитывать). И того имеем 200 вариантов возможных взаимодействий. Учитывая правила русского языка (всякие ЖИ-ШИ, ЧА-ЩА и т.п.) у нас остается 178 слогов.
Так с каких слогов лучше начать обучение? Какие слоги в тексте встречаются чаще всего?
Ведь начинать обучение со слогов ФЮ, РЭ, НЭ,  ВЮ будет нецелесообразно. Из частых слогов, на память, вспомнилось только НО, НА, ПА, МА.

По этому наш анализ начнем с первой гипотезы: "Слога, которые приходят на ум, являются ли самыми распространёнными слогами в русском языке?"

Проанализировав этот вопрос, пришла идея о том, что все буквы расположены у нас под рукой. Да-да, то самое устройство для ввода текста в компьютер или на экране телефона. Клавиатура, которая унаследовала раскладку "ЙЦУКЕН" от печатной машинки.

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

ЙЦУКЕН раскладка

И так, на ней имеется две гласные буквы "А" и "О" на указательных пальцах (основа слепой печати). Полагаю, что раскладку создавали неглупые люди, по этому данные буквы были выбраны как наиболее встречающиеся в словах. И если учесть, что львиная доля людей правши, то, делаем вывод, самая частая буква русского языка "О".
Ближайшие клавиши по вертикали и горизонтали это буквы "Г", "Р", "Л", "Т" (при этом буква Т смешена вправо). Возможно это говорит о том, что смещение вправо наиболее легче осуществить, и тогда можно сказать, что частым слогом должен быть РО. Во круг буквы "А" соседствуют "К", "В", "П", "С", "М", при этом две последние смещены нижним рядом на середину, для равнозначного доступа к клавишам.
По этой раскладке можно сделать вывод, что, с большей вероятностью, распределение часто встречающихся слогов будет примерно таким: РО, ЛО, РА, ЛА, ГО, ТО, ГА, ТА, ПО, ВО, ПА, ВА, МО, СО, МА, СА. Как-то так.

Гипотеза вторая: "Соответствуют ли слоги созданные ближайшими клавишами от ключевых самым чаще встречающимися слогами?"

Вопрос для анализа поставили, с гипотезами определились. Осталось только проверить на данных.
Вот только где взять эти данные?
Мы можем взять любой словарь русского языка (хоть орфографический) и перебрав все слова найдем слоги, которые встречаются чаще всего. Но это не подходит, мы уходим от основы исследования, как мы помним, у нас ребенок учится читать, и уж точно, дети не зачитываются словарями. Да и одни и те же слова могут встречаться больше одного раза, что увеличит появление слога в тексте.
Значит для анализа нам нужен текст/произведения. Думаю, подойдет и не детская литература, главное, чтоб было по больше текста, чем больше исходных данных, тем вероятнее анализ.
Какая самая большая книжка из русской литературы? Конечно же, произведение Л.Н.Толстого "Война и мир".

Что ж. С источником данных определились. Идем в библиотеку, берем книги, подготовим таблицу со слогами и начнем ставить палочки при каждой встречи слогов.
Ох, если бы я так делал, то пост вы бы смогли прочитать только лет через 5. Как же хорошо, что рутинную работу можно отдать на обработку компьютеру. Как говорится "Что можно автоматизировать, нужно автоматизировать".

Книга "Война и мир", все ее 4 тома, нашлись в свободном доступе в интернете. С помощью языка программирования Python пишем скрипт для обработки текста и подсчета слогов в словах. Выводим результаты и смотрим результаты, подтверждаются ли наши гипотезы.

Перед тем как мы посмотрим выводы скрипта, давайте узнаем некоторые данные и небольшие факты по роману "Война и мир".
В произведении насчиталось чуть больше 460 тысяч слов, какая-то часть на французском, конечно они не учитываются в подсчете русских слогов. Считаю, что для анализа объем более чем достаточен.
Много слов имеют символы, так же возможно, что перенос слов система восприняла как два слова. Так же в тексте используются сокращение числительных, например 1808-м либо использование римских цифр для обозначения дат. По этому посчитаем сколько слов имеют символы и введем, так называемый, коэффициент погрешности измерений.
Получилось чуть более 5 тысяч таких слов. Получается, что погрешность может составить чуть более 1%, возьмем для расчетов 2% (пусть будет очень грубо).
Самые длинные слова в романе состоят из 28 символов, т.е. из 27 букв. Это: сверхъестественно-прекрасное, сверхъестественно-утонченное, непреодолимо-обворожительным. Красивые слова.
Интересное ироническое слово, которое содержит, аж, 4 дефиса: хофс-кригс-вурст-шнапс-рат.

Весь текст романа "Война и мир" я разделил на 2 подсчета:
- Полный текст
- Сокращенный текст (убрал из учета союзы, предлоги, местоимения, частицы, все то, что не относится к словам как таковым).

Пока вы читали весь этот длинный текст, скрипт уже завершил работу и построил графики. Давайте посмотрим.
Возьмем 30 наиболее встречающихся слогов из обоих вариантов текста.

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Топ 30 чаще встечающихся слогов.

Числовые данные:
ТО: 39641/37330
НА: 28610/21853
ГО: 24155/24149
НЕ: 24092/15338
НО: 23335/20560
ПО: 23285/21514
РА: 22284/22284
КО: 22141/22029
НИ: 21110/20217
ВО: 20205/19620
КА: 19364/19364
ЛА: 18203/18203
РО: 17817/17817
ЛИ: 17054/16531
ЛО: 16440/16440
РЕ: 16056/16056
ТА: 14869/14727
ВА: 14793/14793
ЗА: 14097/12272
РИ: 13696/13696
ДЕ: 12124/12124
ВЕ: 11895/11895
ТЕ: 11801/11560
ДА: 11613/10682
ЛЕ: 11085/11085
БЫ: 10885/9371
ЖЕ: 10063/не вошло в топ
ДО: 9954/9276
СЕ: 9442/9442
ТИ: 9386/9386
МО: не вошел в топ/9385

По анализу в ТОП 30 вошли слоги ТО, НА, ГО, НЕ, НО, ПО, РА, КО, НИ, ВО, КА, ЛА, РО, ЛИ, ЛО, РЕ, ТА, ВА, ЗА, РИ, ДЕ, ВЕ, ТЕ, ДА, ЛЕ, БЫ, ЖЕ, ДО, СЕ, ТИ, МО.
Слог ТО даже за вычетом погрешности уверенно лидирует среди всех. В топ вошли так же слоги НЕ и НО, которые на раскладке находятся по диагонали и мы их не учли во второй гипотезе.
Слог ЖЕ вошел в топ как частица, но не как вхождение в слово.

Бонусом, длина слов где встречаются 6 самых частых слогов:

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог ТО

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог НА

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог ГО

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог НЕ

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог НО

Лингвистическая аналитика: какой слог чаще встречается Лингвистика, Русский язык, Слова, Война и мир (Толстой), Аналитика, Слоги, Чтение, Первое чтение, Этимология, Гистограмма, Анализ данных, Сбор данных, Длиннопост

Слог ПО

ВЫВОДЫ:
Моя первая гипотеза частично подтвердилась. Слоги НО и НА действительно входять в часто используемые. Но то, что слог ТО опередит их с количеством больше 10 тысяч было для меня удивлением.
Раскладка клавиатуры ЙЦУКЕН вполне полностью имеют самые частые строки под указательными пальцами.

И главный вопрос анализа, в каком порядке изучать слога располжил ниже под сполером с разбивкой по 10 слогов.

1 группа: ТО, НА, ГО, НЕ, НО, ПО, РА, КО, НИ, ВО;
2 группа: КА, ЛА, РО, ЛИ, ЛО, РЕ, ТА, ВА, ЗА, РИ;
3 группа: ДЕ, ВЕ, ТЕ, ДА, ЛЕ, БЫ, ЖЕ, ДО, СЕ, ТИ;
4 группа: МО, МИ, НЫ, ЧЕ, ВИ, СЯ, СО, РУ, МЕ, МА;
5 группа: НЯ, ВЫ, ДИ, ПЕ, КИ, МУ, ШЕ, НУ, БО, ХО;
6 группа: БЕ, ЧА, ШИ, ЛЯ, ДУ, РЫ, ША, СИ, СА, ЧИ;
7 группа: КУ, ТУ, ТЫ, ЖИ, ЖА, ЩЕ, ЛУ, ПА, ЛЮ, БУ;
8 группа: ЛЫ, РЯ, БА, ГА, ЦЕ, ХА, МЫ, ВУ, СУ, ПИ;
9 группа: ЩИ, БИ, ГИ, ПУ, ГУ, ЗО, ЧУ, ДЫ, ЦА, ЗЫ;
10 группа: ФИ, ТЯ, ГЕ, ЦУ, ЗЯ, МЯ, БЯ, ДЯ, КЕ, ЩА;
11 группа: СЫ, ЗИ, ПЯ, ЦО, ШУ, ЗУ, ПЫ, ШО, ЗЕ, ЦИ;
12 группа: ВЯ, ЖУ, ЦЫ, ХИ, НЮ, РЮ, ФА, ФЕ, СЮ, ХУ;
13 группа: ЩУ, ФУ, ЗЮ, ФО, ЧО, ТЮ, ДЮ, ЖО, СЁ, ХЕ;
14 группа: ЖЮ, МЮ, ФЫ, КЮ, БЮ, ФЮ, ЦЯ, ТЁ, ЛЁ, ТЭ;
15 группа: ПЭ, ВЭ, ДЁ, КЁ, МЭ, НЭ, РЭ, ЩО, БЭ, ВЮ;
16 группа: ДЭ, ЖЭ, ЛЭ, НЁ, РЁ, СЭ, ФЭ, ЧЭ, ЩЭ, ЩЯ.

Благодарю всех кто дочитал до конца. Я надеюсь, что пост будет полезен как родителям, так и людям, которые занимаются профессионально обучениям детей.

P.S. Есть еще несколько идей для аналитики, но если у вас будут идеи оставляйте их в комментариях.
P.P.S. Анализ проведен полностью мной, скрипт разработан мной, пост написан мой, по этому тег МОЁ по праву. Копирование, распространение полного поста или его частей, только с письменного моего согласия. Первое издание поста на Пикабу.