Как читают генетический код?⁠⁠

Книги мы читаем с начала. Открываем первую страницу и вперёд. Здесь ясно, какая буква первая, с какого слова начинается глава, абзац или предложение.

А теперь вспомним, как выглядит текст генетического кода: ААТГЦАГЦТТТАГЦТГАТЦЦТАА... И вспомним, что в каждом генетическом слове ровно три буквы: ТТТ, или АГЦ, или ГГГ, например.

Казалось бы, бери, да читай также с первой буквы. А нельзя! Почему?

Когда аппарат для чтения геномов - секвенатор - читает положенный в него образец ДНК, он сначала режет молекулу ДНК на маленькие фрагменты в 100-200 букв (размер фрагмента зависит от модели секвенатора, но остановимся на самом популярном от фирмы Illumina, см картинку).

Затем с каждого фрагмента делается множество его копий, чтобы повысить надежность прочтения.

Машина прочитывает каждый из фрагментов (и копий) и отдаёт результат в виде множества коротких кусочков текста (их называют «риды» (read) или «прочтения»).

На этом этапе легче всего представить, что роман «Война и мир» запихнули в шредер и превратили в салат. Много ли тут прочитаешь?:)

А дальше в бой вступают биоинформатики. С помощью разных математических подходов и алгоритмом они «склеивают» вместе кусочки прочтений, пытаясь восстановить исходный текст.

Но есть проблема: целиком текст восстановить нельзя, в нем обязательно будут отсутствующие куски (их называют «пробелы» или «гэпы» от gap).

Причин для пробелов много.

Например, этот отсутствующий кусочек ДНК находился у самой центромеры в хромосоме (центромера - это кусочек почти в центре хромосомы, его проще всего увидеть в одной из фаз деления хромосомы, тогда он та самая перемычка буквы Х). Вблизи центромеры ДНК туже всего скручена и при расплетении может повредиться.

Или ещё вариант ситуации ведущей к пробелу: по какой-то причине для этого фрагмента ДНК было сделано слишком мало копий (а чем больше у нас копий фрагмента, тем мы увереннее, что читаем его правильно) .

Итак, первая проблема, почему мы не знаем, с какой буквы надо начинать читать: у нас нет целого текста.

Есть лишь собранные из коротких ридов фрагменты (они называются "контиги"). И неизвестно, с какой буквы в контиге начинается "предложение".

Посмотрим пример: что пропущено в «...али они здесь уже давно»?

«бегАЛИ» давно? «спАЛИ»? или «кино снимАЛИ» уже давно?

Вот эта проблема и тут.

Вторая причина, почему с прочтением будут проблемы: а есть ли там вообще ген? И если есть с какой буквы он начинается?

Продолжим разбираться завтра.:)

P.S.: В роли "секвенатора" выступает "заряжалка". :)

Лига биологов

7.9K постов15.6K подписчиков

Добавить пост

Правила сообщества

‣ Правила сайта никем не отменялись.

‣ Будьте вежливы и сдержаны.

‣ Не разводите политоту, не тащите спам.

‣ Пост-определялка. Если хотите определить представителя флоры или фауны, можете спросить там, я обязательно постараюсь помочь.

‣ Выносятся посты содержащие антинаучные и другие сомнительные идеи. Их авторы караются на месте.

‣ Так как в сообществе отключена премодерация, могут проходить посты по тем или иным причинам не подходящие под формат сообщества. Такие посты переносятся в общую ленту.

‣ Администратор иногда переносит в сообщество посты подходящей тематики, которые ей особенно понравились, не серчайте, считайте комплиментом.

‣ Если в пост закралась грубая ошибка, не удивляйтесь, если администратор попросит её исправить.

‣ Вбросы антинаучных идей и попросту различная глупость в комментариях расцениваются как развлечение для публики. Такие сообщения отдаются на растерзание толпе, как и их авторы, будь то тролли, адепты всех мастей или просто недальновидные личности.

‣ Политика сообщества не предусматривает раздачу банов направо и налево, однако, если вы нарушаете покой пользователей, и на вас пожаловались – не обижайтесь.

Вы смотрите срез комментариев. Показать все

stasik1993

6 лет назад

один лишь вопрос: зачем резать войну и мир и пытаться ее собрать, когда можно читать ее целиком? зачем секвентатор режет молекулу?) тема не раскрыта

раскрыть ветку (2)

thornni

6 лет назад

Режет, чтобы распараллелить задачу. Когда на стыке 20-21 веков запустили проект Геном человека, к нему подошли с двух сторон. С одной стороны ученые разделили между странами хромосомы и каждой стране доверили читать одну из хромосом. Нить каждой хромосомы пытались читать без нарезки, последовательно, буква за буквой. Так прошло много лет. С другой стороны к задаче приступил учёный, бизнесмен, личность неординарная и даже скандальная Крейг Вентор. И за короткое время объявил, что у него и его команды уже почти все готово. И даже попытался получить патент на геном человека:) его рекордные сроки объяснялись распараллеливанием задачи: поделить хромосомы на частички и читать и собирать кусочки. С тех пор компьютерные технологии шагнули далеко, скорость прочтения увеличилась в разв. Сейчас в зависимости от оборудования, прочитать человека займёт от 1 до 3х дней, а не 13 лет. Но до сих пор технология распараллеливания остаётся более быстрой и самое главное, более надежной: так как при такой технологии мы делаем множество копий каждого рида и результат прочтения рида в том, что бОльшая часть копий фрагмента была прочитана одинаково. То есть менее страшны ошибки.

раскрыть ветку (1)

stasik1993

6 лет назад

спасибо за развернутый ответ!)

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку