Как учёные генетический код взламывали⁠⁠

Заранее извиняюсь перед теми, кто и без моих напоминаний знает принцип синтеза белка, потому что в этом посте я снова (раз в четвертый наверно) буду писать о кодонах и рибосомах. Будем считать, что повторение всё-таки мать учения, да и в рамках подготовки к следующему циклу постов будет не лишним. Всем моим подписчикам привет и поехали.

1. Клетки, белки и слово из трёх букв

Дарвин открыл эволюцию видов в 19 веке, однако ещё целых сто лет учёные не могли понять, где и как записаны наследуемые признаки. Только с развитием технологий удалось найти в клетках сложные органические молекулы - белки, и разобрать их по кирпичикам.

Как учёные генетический код взламывали Наука, Генетика, Биология, ДНК, Нуклеоитд, Длиннопост

(Картинка для привлечения внимания, ибо по данным статистики если пост начинать с фото живого существа, а не схемы, то его прочитают на 146% больше человек. И белочка такая: чо?)

На самом деле вот они, белкИ:

А вот из чего белки состоят, где каждый кружок это отдельная аминокислота:

Оценивая сложность молекул-белков, а также универсальность их строения, учёные где-то в середине 20 века начали всерьёз задумываться - а не они ли те самые переносчики наследственной информации и основа строения генов? (сами гены на тот момент никто не наблюдал, они были открыты чисто теоретически). Предположение казалось не лишённым смысла, пока...

...вот этим ребята, Уотсон и Крик, не обнаружили в самом сердце клетки структуру, во всех отношениях подходящую под носителя наследственности - дезоксирибонуклеиновую кислоту или ДНК.

У этой длинной спиральной молекулы оказалось свойство, сделавшее её идеальной основой жизни: две разделённые половинки двойной спирали сами катализировали образование двух копий исходной молекулы за счёт простейшего принципа.

Оказалось, что генетический код представляет собой последовательность "букв" (их более строгое наименование — "азотистые основания" или "нуклеотиды"). Таких букв в ДНК-алфавите всего четыре: А, Т, Г и Ц. Их полные названия — аденин, тимин, гуанин и цитозин, но эти химические термины для нас здесь не важны. Важно то, что в связи с ограничениями, накладываемыми формой молекул ДНК и структурой связей в них, А может образовывать пару только с Т, а Ц — только с Г.

Если оторвать цепочки двойной спирали одну от другой, на каждой из них будут рядком торчать неспаренные буквы. С каждой буквой А может связаться только Т, а с каждой буквой Ц — только Г, и так далее.

Азотистые основания не только дополняют друг друга, но и испытывают настоящую потребность найти себе пару. Только одно может сделать тусклую химическую жизнь буквы Т светлее — постоянная близость с буквой А. Стоит их совместить, и все их связи запоют в чудесной гармонии.

Это химическое явление — настоящий "основной инстинкт", неотъемлемое свойство азотистых оснований. Оно делает из цепочек ДНК нечто большее, чем пассивные матрицы: каждое основание обладает своего рода магнетизмом, притяжением к своему "альтер эго". Стоит разделить цепочки, и они самопроизвольно сольются снова или, если им помешать, смогут послужить матрицами, обладающими неодолимой тягой к соединению с другой "второй половиной", неотличимой от прежней.

2. Задача для криптологов!

Молекулы ДНК состоят из последовательностей, составленных из всего четырех букв, расположенных на первый взгляд в случайном порядке.

Было не так уж сложно догадаться, что этот порядок должен каким-то образом кодировать белки.

А ключевое слово здесь - двадцать. Двадцать разных молекул, называемых аминокислотами, использует любая форма жизни для формирования белков. Если хотите, это можно назвать одним из ключевых характеристик земной формы жизни.

Когда количество нуклеотидов и аминокислот определилось (опять же, спасибо Уотсону и Крику), задача сразу стала ясной. Все свелось к математической головоломке: четыре буквы в молекулах ДНК (А Г Т Ц) должны были кодировать двадцать аминокислот:

Это позволяло отбросить возможность прямой транслитерации, при которой одна ДНК-буква соответствовала бы одной аминокислоте.

Дублетный код (АА, АГ, АТ, АЦ, ГА, ГГ и т.д.) тоже был невозможен, потому что кодировал бы не более шестнадцати аминокислот: 4^2 = 16.

Аналогия из мира компьютеров: чтобы получить 256 разных символов (стандартная кодировка), при наличии двух "букв" (0 и 1), нужна длина, равная восьми (2^8 = 256) - то есть классический байт.

Получается, минимальное число букв было три, то есть код мог быть триплетным (ААА, ААГ, ААТ, ААЦ, АГА, АГГ, АГТ и т.д.).

Каждая группа из трех ДНК-букв могла кодировать одну аминокислоту. Но такой код казался очень уж расточительным. Из четырех букв можно составить шестьдесят четыре триплета (4^3 = 64), а значит, потенциально триплетами можно было закодировать шестьдесят четыре аминокислоты. Так почему же аминокислот было только двадцать?

Секрет этого фокуса должен был объяснить смысл 4-буквенного "алфавита", организованного в 64 3-буквенных "слова", кодирующие 20 аминокислот. И за неимением экспериментальных данных о реальной природе кода, учёным пришлось проявить смекалку.

Попытка номер РАЗ

Не случайно, наверное, первым, кому удалось дать хоть какой-то ответ, стал не биолог, а энергичный американский физик российского происхождения Георгий Гамов, больше известный своими теориями, касающимися Большого взрыва.

Гамов считал ДНК в буквальном смысле матрицей для синтеза белков. Он полагал, что аминокислоты вкладываются в ромбовидные борозды между оборотами спирали. Но его теория генетического кода была в основе нумерологической, и когда он узнал, что белки вообще не синтезируются в ядре, а значит, в ходе синтеза не могут непосредственно контактировать с ДНК, это не произвело на него особого впечатления. Этот факт лишь делал его идею более абстрактной.

Суть его предположения состояла в том, что код перекрывается. Это дает большое преимущество, которое обожают криптографы: максимизация плотности информации.

Представьте себе последовательность АТЦГТЦ. Первое слово, или, если использовать более строгий термин, первый кодон, будет АТЦ, второй — ТЦГ, третий — ЦГТ, и так далее.

Здесь важно то, что перекрывающиеся кодоны всегда ограничивали бы число аминокислотных последовательностей. Например, если АТЦ кодирует определенную аминокислоту, за ней может следовать только аминокислота, кодон которой начинается с букв ТЦ, а следующей аминокислоте должен соответствовать кодон, начинающийся с буквы Ц. Если изучить все возможные варианты, окажется, что очень многие триплеты просто недопустимы: они не могут входить в состав этого перекрывающегося кода, потому что в нем буква А всегда должна стоять рядом с Т, Т — рядом с Ц, и так далее. И сколько триплетов у нас останется для кодирования аминокислот? Ровно двадцать! — сказал Гамов с торжеством фокусника, вынимающего кролика из шляпы.

Эта остроумная идея была первой из многих, безжалостно опровергнутых фактами. Перекрывающиеся коды оказались невозможны из-за накладываемых ими самими ограничений. Во-первых, они предполагают, что некоторые аминокислоты в белках должны всегда стоять рядом. Вторая серьезная проблема состояла в том, что при перекрывающемся коде любая точечная мутация (в которой одна буква заменяется другой) неизбежно приводила бы к изменению больше чем одной аминокислоты в белке, а экспериментальные данные свидетельствовали о том, что при таких мутациях меняется лишь одна аминокислота.

Стало ясно, что генетический код не перекрывается. Предположение Гамова о перекрывании кода было опровергнуто задолго до того, как стал известен настоящий код. Криптографы начали подозревать, что мать-природа упустила возможность воспользоваться некоторыми известными им трюками.

Попытка номер ДВА

Следующую попытку разгадать загадку кода предпринял Крик (да да, тот самый который несколько абзацев назад ДНК открывал).

Он высказал идею настолько красивую, что ее немедленно все приняли, хотя самого автора и смущала нехватка доказательств. Крик воспользовался новыми открытиями, сделанными в нескольких молекулярно-биологических лабораториях.

Итак, неактивная ДНК сидит в ядре. Когда нужно синтезировать какой-либо белок, соответствующий участок ДНК используется для создания молекулы-матрицы. Она физически выходит из ядра и достигает ожидающих ее снаружи специальных молекул-рибосом, синтезирующих этот белок, используя матрицу (называемую матричной РНК или мРНК или иРНК).

Крика теперь интересовало вот что: как точная последовательность букв молекулы матричной РНК переводится в последовательность аминокислот в белке?

Крик крепко задумался. Он предположил, что матричная РНК транслируется с помощью набора особых молекул — адаптеров, по одной на каждую аминокислоту. Адаптеры тоже должны состоять из РНК, у каждого из них должен быть антикодон, способный узнавать соответствующий кодон матричной РНК и связываться с ним. Принцип этого связывания, как считал Крик, должен быть точно таким же, как в ДНК: Ц образует пару с Г, А — с Т, и так далее. Адаптеры действительно были открыты несколько лет спустя, и оказалось, что они действительно состоят из РНК, как и предсказывал Крик. Теперь их называют транспортными РНК (тРНК).

(на картинке растущая полипептидная цепь это белок, и вас не должна смущать появившаяся буква У (урацил) - в матричной РНК она заменяет Т (тимин) и имеет то же ключевое свойство присоединять А (аденин))

Но здесь Крик пошел по ложному пути. Крик представлял себе, что матричная РНК просто сидит в цитоплазме, а ее кодоны торчат, как соски свиноматки, и к каждому из них может "присосаться" транспортная РНК. Рано или поздно молекулы тРНК свяжутся с мРНК по всей длине, расположившись одна за другой, и с каждой из них будет связана, как хвост поросенка, соответствующая аминокислота, готовая соединиться с соседними аминокислотами и образовать белковую цепочку.

На фото формирование полипоросячей цепочки на основе свиноматрицы: соски это кодоны, поросячьи рты - антикодоны, сам поросёнок - тРНК, хвостики - аминокислоты. Давайте представим что соски именные, и их 20 видов для 20 видов поросят. А поросячью хвостики тоже разные и их можно связывать. (Уииии!)

Но вернёмся к нашим баранам (белки, свиньи, бараны, просто не могу остановиться...). Итак, ключевая проблема, по мнению Крика, состояла в том, что тРНК будут прибывать в случайном порядке, по мере их появления рядом с мРНК, и связываться с ближайшим соответствующим кодоном.

Однако если не начинать с начала и не заканчивать в конце, как они узнают, где начинается и где заканчивается один кодон? Как они смогут найти правильную рамку считывания?

Если последовательность содержит фрагмент АТЦ ГТЦ, то одна тРНК может связаться с кодоном АТЦ, а другая — с кодоном ГТЦ, но что помешает соответствующей тРНК узнать кодон ЦГТ в середине этого фрагмента и тем самым транслировать совсем не то, что нужно?

Предложенный Криком ответ на этот вопрос предполагал категорический запрет подобных вещей. Раз матрица в целом должна читаться однозначно, значит, не все кодоны должны иметь смысл. Какие же из них требовалось запретить? Ясно, что последовательности, состоящие только из А, только из Ц, только из Т или только из Г, должны были оказаться под запретом: в цепочке АААААА нельзя найти правильную рамку считывания.

Затем Крик проверил все другие трехбуквенные комбинации. Он рассуждал примерно так: если АТЦ имеет смысл, то все циклические перестановки этих трех букв (ТЦА и ТАЦ) должны быть под запретом. Сколько возможностей это нам оставляет?

(барабанная дробь)

Иииииииии снова двадцать! (Из шестидесяти четырех возможных кодонов AAA, ТТТ, ЦЦЦ и ГГГ исключаются. Остается шестьдесят. Из каждых трех вариантов циклических перестановок допустим только один, значит, делим шестьдесят на три.)

В отличие от перекрывающихся кодов Гамова, код Крика не накладывал никаких ограничений на порядок аминокислот в белке и не предполагал, что точечная мутация будет непременно менять две или три аминокислоты. Когда была выдвинута эта гипотеза, казалось, она дает прекрасное решение проблемы рамки считывания и при этом сокращает число кодонов с шестидесяти четырех до двадцати, что соответствует числу аминокислот в белках. Эта гипотеза ничуть не противоречила всем имеющимся на тот момент данным.

И все же она оказалась ошибочной ¯\_(ツ)_/¯

Генетический код как он есть

Спустя несколько лет выяснилось, что искусственно полученная РНК, состоящая из кодонов ААА ("запрещенных" Криком), все же кодирует аминокислоту лизин и может транслироваться в белковую цепочку, состоящую исключительно из лизина.

(фото лизина в молодости)

К середине 60-х годов, когда были усовершенствованы экспериментальные методы, нескольким исследовательским группам удалось шаг за шагом выяснить, что на самом деле представляет собой генетический код. После всех попыток расшифровать его открывшаяся картина вызывала глубочайшее разочарование. Оказалось, что никакого изящного нумерологического решения не было, а код просто вырожден (это значит, что в нем полно излишеств).

Три аминокислоты кодируются шестью разными кодонами каждая, в то время как другие кодируются лишь одним или двумя. Все кодоны идут в дело: три кодона означают “стоп” (конец трансляции), а все остальные кодируют ту или иную аминокислоту.

Выходило, что в генетическом коде нет никакого порядка, никакой красоты. Этот пример может служить наглядным опровержением мысли, что красота может служить проводником к научной истине. На первый взгляд, в основе кода не было и никакой структурной логики: между аминокислотами и соответствующими им кодонами не было ни особой химической, ни особой физической связи...

...продолжение следует

P.S. Первоисточник - книга "Лестница жизни" Ника Лейна.

Наука | Научпоп

7.7K постов78.5K подписчиков

Добавить пост

Правила сообщества

Основные условия публикации

- Посты должны иметь отношение к науке, актуальным открытиям или жизни научного сообщества и содержать ссылки на авторитетный источник.

- Посты должны по возможности избегать кликбейта и броских фраз, вводящих в заблуждение.

- Научные статьи должны сопровождаться описанием исследования, доступным на популярном уровне. Слишком профессиональный материал может быть отклонён.

- Видеоматериалы должны иметь описание.

- Названия должны отражать суть исследования.

- Если пост содержит материал, оригинал которого написан или снят на иностранном языке, русская версия должна содержать все основные положения.

Не принимаются к публикации

- Точные или урезанные копии журнальных и газетных статей. Посты о последних достижениях науки должны содержать ваш разъясняющий комментарий или представлять обзоры нескольких статей.

- Юмористические посты, представляющие также точные и урезанные копии из популярных источников, цитаты сборников. Научный юмор приветствуется, но должен публиковаться большими порциями, а не набивать рейтинг единичными цитатами огромного сборника.

- Посты с вопросами околонаучного, но базового уровня, просьбы о помощи в решении задач и проведении исследований отправляются в общую ленту. По возможности модерация сообщества даст свой ответ.

Наказывается баном

- Оскорбления, выраженные лично пользователю или категории пользователей.

- Попытки использовать сообщество для рекламы.

- Фальсификация фактов.

- Многократные попытки публикации материалов, не удовлетворяющих правилам.

- Троллинг, флейм.

- Нарушение правил сайта в целом.

Окончательное решение по соответствию поста или комментария правилам принимается модерацией сообщества. Просьбы о разбане и жалобы на модерацию принимает администратор сообщества. Жалобы на администратора принимает @SupportComunity и общество Пикабу.

DELETED

7 лет назад

Давным давно, я прозябая в одном гиблом месте одного из университетов, развлекался тем, что доставал из большого пыльного шкафа накопившиеся там за десятилетия книжки и читал их. Среди прочего была там книжка по патанатомии, 30-х годов. Книжка радовала изысканной речью старой закаклки вроде "такие изменения часто можно увидеть у девиц и почти никогда у старух".

Так вот, одна из глав, посвящённых строению и химическому составу клеток гласила: "ДНК находится в ядре клетки, функция этого вещества не понятна. Возможно оно служит как депо фосфора"

раскрыть ветку