Как читают генетический код?⁠⁠

Книги мы читаем с начала. Открываем первую страницу и вперёд. Здесь ясно, какая буква первая, с какого слова начинается глава, абзац или предложение.

А теперь вспомним, как выглядит текст генетического кода: ААТГЦАГЦТТТАГЦТГАТЦЦТАА... И вспомним, что в каждом генетическом слове ровно три буквы: ТТТ, или АГЦ, или ГГГ, например.

Казалось бы, бери, да читай также с первой буквы. А нельзя! Почему?

Когда аппарат для чтения геномов - секвенатор - читает положенный в него образец ДНК, он сначала режет молекулу ДНК на маленькие фрагменты в 100-200 букв (размер фрагмента зависит от модели секвенатора, но остановимся на самом популярном от фирмы Illumina, см картинку).

Затем с каждого фрагмента делается множество его копий, чтобы повысить надежность прочтения.

Машина прочитывает каждый из фрагментов (и копий) и отдаёт результат в виде множества коротких кусочков текста (их называют «риды» (read) или «прочтения»).

На этом этапе легче всего представить, что роман «Война и мир» запихнули в шредер и превратили в салат. Много ли тут прочитаешь?:)

А дальше в бой вступают биоинформатики. С помощью разных математических подходов и алгоритмом они «склеивают» вместе кусочки прочтений, пытаясь восстановить исходный текст.

Но есть проблема: целиком текст восстановить нельзя, в нем обязательно будут отсутствующие куски (их называют «пробелы» или «гэпы» от gap).

Причин для пробелов много.

Например, этот отсутствующий кусочек ДНК находился у самой центромеры в хромосоме (центромера - это кусочек почти в центре хромосомы, его проще всего увидеть в одной из фаз деления хромосомы, тогда он та самая перемычка буквы Х). Вблизи центромеры ДНК туже всего скручена и при расплетении может повредиться.

Или ещё вариант ситуации ведущей к пробелу: по какой-то причине для этого фрагмента ДНК было сделано слишком мало копий (а чем больше у нас копий фрагмента, тем мы увереннее, что читаем его правильно) .

Итак, первая проблема, почему мы не знаем, с какой буквы надо начинать читать: у нас нет целого текста.

Есть лишь собранные из коротких ридов фрагменты (они называются "контиги"). И неизвестно, с какой буквы в контиге начинается "предложение".

Посмотрим пример: что пропущено в «...али они здесь уже давно»?

«бегАЛИ» давно? «спАЛИ»? или «кино снимАЛИ» уже давно?

Вот эта проблема и тут.

Вторая причина, почему с прочтением будут проблемы: а есть ли там вообще ген? И если есть с какой буквы он начинается?

Продолжим разбираться завтра.:)

P.S.: В роли "секвенатора" выступает "заряжалка". :)

7.9K поста15.5K подписчиков

Добавить пост

Правила сообщества

‣ Правила сайта никем не отменялись.

‣ Будьте вежливы и сдержаны.

‣ Не разводите политоту, не тащите спам.

‣ Пост-определялка. Если хотите определить представителя флоры или фауны, можете спросить там, я обязательно постараюсь помочь.

‣ Выносятся посты содержащие антинаучные и другие сомнительные идеи. Их авторы караются на месте.

‣ Так как в сообществе отключена премодерация, могут проходить посты по тем или иным причинам не подходящие под формат сообщества. Такие посты переносятся в общую ленту.

‣ Администратор иногда переносит в сообщество посты подходящей тематики, которые ей особенно понравились, не серчайте, считайте комплиментом.

‣ Если в пост закралась грубая ошибка, не удивляйтесь, если администратор попросит её исправить.

‣ Вбросы антинаучных идей и попросту различная глупость в комментариях расцениваются как развлечение для публики. Такие сообщения отдаются на растерзание толпе, как и их авторы, будь то тролли, адепты всех мастей или просто недальновидные личности.

‣ Политика сообщества не предусматривает раздачу банов направо и налево, однако, если вы нарушаете покой пользователей, и на вас пожаловались – не обижайтесь.