Начало истории о том, как читают генетический код было тут: https://pikabu.ru/story/kak_chitayut_geneticheskiy_kod_56254...
[Продолжение]
Мы получили строчку текста, в которой не знаем, где начало, где конец, но в которой, возможно, записан ген. А может быть и нет.
Почему строчка ДНК не обязательно содержит ген?
Давайте посчитаем. В геноме человека почти три миллиарда пар оснований (то есть букв на каждой из двух цепей ДНК).
В одном генетическом слове 3 буквы. Итого получили миллиард возможных слов (закодированных аминокислот).
Сколько нужно слов, чтобы записать белок? От 2х до нескольких сотен. Давайте округлим в большую сторону и примем, что длина белка 1000 аминокислотных слов.
Делим 1 000 000 000 на 1000 и получаем 1 000 000(!) возможных белков.
Вот только... по оценкам на сегодняшний день в ДНК человека белков всего... чуть более 20 000!
То есть 20 000 / 1 000 000 = 2/100 = 0,02 или 2% (а на самом деле ещё меньше, около 1%)
Представьте, вы получили кусочек непрерывного текста, в котором надо найти что-то, у чего неизвестно начало, непонятна его длина, а ещё и вероятность найти хоть что-то в довольно небольшом «отрывке» общей «ДНК-книги» мизерная!
Примерно, как разделить текст этого поста на произвольные кусочки, вставить эти кусочки в текст двухтомника Майн Рида, положить в измельчитель и попробовать восстановить исходный текст поста, содержимое которого мы только примерно представляем:)
Но и это не конец условий задачи: гены ядерных организмов (к которым мы с вами относимся) состоят из нескольких кодирующих частей - экзонов, разделённых длинными кусками «белиберды» - интронов. То есть: кусочек гена, «мусор», снова кусочек гена, «мусор» и так много раз. (прим.: автор текста в курсе, что "мусор" это давно уже не мусор, но об этом в простых примерах он расскажет в другой раз)
Крутая задачка? Дзен-пазл нервно курит в сторонке:)
В общем, вновь время звать биоинформатиков.
Задача предсказания генов ещё одна проблема, в которой нужен мозг математика и навыки программиста.
P.s.
И еще одно примечание. Меня упрекнули в прошлых постах, что я рассказываю элементарщину, которую все должны помнить со школы. Но, к сожалению, мой опыт популяризации показывает, что помнят это всё лишь те, кто и сам интересовался темой впоследствии.
Я пишу для тех, для кого школьная биология была "непонятной и скучной", для тех, у кого (как, кстати, у автора) школьную биологию вел некомпетентный преподаватель (у автора ее вел священник. В обычной школе, да).
Для тех, кто открыт воспринять новое, когда оно рассказано просто и, надеюсь, понятно.
А еще я пишу для тех, кто сам занимается популяризацией, и для тех, у кого есть дети-школьники.
В общем, если вам очень хочется поставить минус и в очередной раз написать "автор, ты что нашел школьный учебник и решил поделиться?", знайте, вы не первый:) Но есть те, кому это нужно и интересно. Пройдите мимо и прочтите что-то более подходящее для вас:)