Интервьюер: Что такое биоинформатика?
Гельфанд М.С.: Биоинформатика – это раздел биологии, который состоит в том, что люди работают с данными, которые уже лежат в компьютере. То есть, они их не получают непосредственно экспериментально, а пользуются экспериментальными данными, которые кто-то сделал. Причём, обычно речь идёт о массовых экспериментальных данных: то есть, когда у нас этих данных много-много-много и без компьютера просто физически невозможно ничего разумного из них извлечь.
Традиционно есть несколько областей. Есть такая чисто алгоритмическая биоинформатика, когда, скажем, вы собираете полные геномы из фрагментов. Вот они из прибора выходят в виде отдельных фрагментов, а вас интересует полный геном. Вот есть большая наука: как из маленьких фрагментов, за разумное время, с учётом ошибок собрать полный геном. Такая типичная задачка. Она практически чисто алгоритмическая, там биологии как таковой нет, но надо знать особенности приборов, какие ошибки они делают.
Есть, наоборот, другой фронт – это такая классическая молекулярная биология, просто другими средствами. Когда вы сравниваете геномы и пытаетесь предсказать функции генов. Такая классическая биологическая задача. Во-первых, у вас есть последовательность ДНК – вообще, где там гены, то есть участки, которые кодируют белки? А после того, как вы их нашли, определили, следующая задача – а белок, который кодируется этим геном, что он делает? Задача немножко следующего уровня сложности: как регулируется работа этого гена? В каких условиях он включается, какие факторы транскрипции, то есть какие регуляторные белки в этом задействованы? Вот оказывается, что на довольно много таких классических молекулярно-биологических вопросов можно искать ответы, просто сравнивая последовательности. И это очень хорошо для молекулярных биологов, потому что это существенно облегчает их экспериментальную деятельность. Потому что, если у вас есть белок, который делает неизвестно что, в общем, довольно трудно понять, что именно он делает. Или ещё хуже, когда у вас есть какая-то функция, вы знаете, что клетка умеет это делать, и не знаете, какой белок за это отвечает. Тоже, в общем, сильно нетривиальная задача. А если у вас есть конкретное предсказание, которое вам биоинформатик принёс, вы его просто проверяете. И если это был хороший биоинформатик, то оказывается, что всё правильно, и – ура! – вот вы написали статью. Быстро и, не скажу, что легко, но, во всяком случае, существенно легче, чем при чисто классическом подходе.
И ещё в последнее время есть такая отдельная наука, которую называют «системная биология» или «-омиксы», есть много модных слов про это. Это анализ больших данных. Потому что классическая молекулярная биология была наука редукционистская. Вы, так сказать, изучали один ген, один белок, и в 70-80 годы была популярна критика молекулярной биологии вообще, исследовательской программы молекулярной биологии, которая говорила, что это чистый редукционизм: «Вы изучаете шестерёнки, считаете, сколько у них зубчиков, и никогда не поймёте, как работают часы». А вот теперь оказывается, что экспериментальные методы позволяют смотреть, как работают часы в целом, как эти шестерёнки крутятся и друг за друга цепляются.
Но в этих данных очень много ошибок. Классическая молекулярно-биологическая статья – это такая аккуратная работа с одним белком, с контролями. И серии экспериментов с этим белком будет посвящена одна статья в приличном журнале. А здесь все эти эксперименты делает робот, и там просто очень большой уровень шума. Во-первых, надо научиться работать с этим. Во-вторых, в принципе, в классической молекулярной биологии не было языка для описания того, как работает клетка в целом, как работают все гены. Скажем, в разных тканях, или в развитии эмбриона, или при раке, или как угодно ещё. Как ДНК упакована в клетке, тоже, в общем, только в последнее время становится понятно. Вот есть масса задач такого сорта – и это биоинформатика, такой хороший классический анализ больших данных.
Интервьюер: Что может биоинформатика принести миру, далёкому от науки?
Гельфанд М.С.: Как любая биология… А что биология может принести миру, далёкому от науки? Биоинформатика – часть биологии. Биоинформатика, во-первых, позволяет, как я сказал, классическую биологию делать проще и быстрее, а во-вторых, позволяет ставить какие-то биологические вопросы, которые раньше мы ставить просто в принципе не могли. Ну, и пытаться на них получать ответы. Если мы договоримся, что биология полезна, значит, и биоинформатика полезна.
Вообще, это не очень хорошая формулировка вопроса. Когда вы обсуждаете более или менее фундаментальную науку, не надо в ней искать немедленной пользы. Потому что иначе получается как в анекдоте про чукчу, который картошку посадил, а на следующий день выкопал, потому что очень кушать хотелось. Из того, что мы сейчас занимаемся биоинформатикой, ни завтра, ни даже на следующий год лекарства от рака не получится. А с другой стороны, жизненный опыт показывает, что наука в целом, как общественный институт, страшно полезна. Сэр Майкл Фарадей окупил затраты на фундаментальную науку на много сотен лет вперёд. Занимался ерундой. Электричество – кому оно было нужно? Был раздел физики безо всяких немедленных применений.
Никто не знает, на самом деле, что именно в классической фундаментальной науке, в биологии в частности, выстрелит. Мой любимый пример, из свежих: вот люди изучали просто последовательности бактерий и обнаружили в них такие повторы специального вида. И какие-то теории строили, зачем эти повторы нужны. Потом другие люди показали, что это такой бактериальный иммунитет, защита от бактериальных вирусов, бактериофагов. Это само по себе было безумно интересно, потому что существование адаптивного иммунитета у бактерий никто не предполагал. А теперь ферменты, которые участвуют в этом процессе, используют для редактирования геномов, и там перспектив довольно много и в генной инженерии, и даже в генной терапии, если осторожно про это говорить. И это случилось буквально за десять лет. Бабах и выстрелило. Последовательности изучали и раньше, на самом деле. А вот экспериментальная часть случилась у нас на глазах.
Ну да, чего-нибудь хорошее вырастет. Если бы я знал, чего, я бы занимался не биоинформатикой, а венчурными капиталовложениями.
Интервьюер: Десять лет для фундаментальной науки – это очень немного.
Гельфанд М.С.: Ну, CRISPR-Cas всё-таки геномы редактирует, но так, чтобы какие-то сорта появились – ещё пока нет. Но я думаю, что они уже вот-вот... Это быстро, я поэтому и привёл этот пример.
Интервьюер: Как вы считаете, заменит ли искусственный интеллект биоинформатиков в ближайшее время или вообще когда-нибудь, может быть, заменит?
Гельфанд М.С.: Про «когда-нибудь» я не отвечаю. Опять-таки, если бы я знал, что будет когда-нибудь, у меня была бы другая профессия. А в ближайшее время – нет, не заменит, потому что, всё-таки, ключевая вещь – это постановка задач. А этого искусственный интеллект не очень умеет. Да, сейчас есть очень красивая наука, очень свежая – это использование как раз методов искусственного интеллекта, а именно нейронных сетей глубокого обучения, в разных биологических задачах. Там действительно получаются очень красивые, ранние, но хорошие результаты, из них вылезает какая-то новая биология. Но всё-таки, это не принципиально новая биология. Это новые примеры того, что мы, в принципе, уже знали. Придумать такую нейронную сеть, чтобы она новую биологию вытащила – ну, я пока примеров не видел. Ну, и в любом случае, её надо будет сначала придумать. Это всё равно человеческий интеллект, а не искусственный. Когда мы построим нейронную сеть, которая будет строить другие нейронные сети, тогда можно будет ещё поговорить.
Интервьюер: Скажите, пожалуйста, что нужно делать, если хочешь стать биоинформатиком? Чему учиться, куда идти, особенно в России?
Гельфанд М.С.: Есть несколько хороших мест, где биоинформатиков готовят. Есть факультет биоинженерии и биоинформатики в Московском университете, есть магистерские программы в Питере, в Санкт-Петербургском университете, и, по-моему, в ИТМО, если я правильно помню. Есть магистерская программа в Сколтехе с большим биоинформатическим компонентом. Есть магистерская программа на факультете компьютерных наук в Высшей школе экономики, есть программа по информатике в Новосибирске. Это такие, которые заведомо сильные.
Есть несколько программ послабее, но люди оттуда приходят иногда очень хорошие. В Казани, где-то ещё, я не помню.
То есть, во-первых, можно просто учиться. Причём, если говорить про магистерские программы, то их много разных для людей с разным бэкграундом. Сколтеховская скорее для биологов, хотя туда физики и математики тоже приходят. А в Высшей школе экономики скорее для людей с бэкграундом в компьютерных науках, но, опять-таки, туда биологи тоже приходят.
Есть такой классический пример. Не классический, просто я его очень люблю. Одна из моих лучших учениц, которая сейчас в очень хорошей лаборатории в Германии, она вообще по образованию экономист. Бывает.
Если вы живёте в глухом селении и у вас нет денег, чтобы доехать до университета, но есть интернет. Во-первых, есть хорошие онлайн-курсы и есть такой сайт blastim.ru, на котором приведён список хороших курсов. И если вы такой страшный интроверт, что вы не можете ни с кем общаться (потому что полезно общаться, полезно, чтобы вам поставил задачу кто-то, кто немножко в теме), если у вас и это не получается, то возьмите, прочитайте некоторое количество статей в хороших журналах (что такое «хороший журнал», всё-таки, понятно), выберите какую-нибудь, которая вам понравится, попробуйте её просто повторить. Сначала на том же самом материале, потом на каком-нибудь другом. Во-первых, вы приобретёте вкус, вы научитесь техническим вещам. А, кроме того, на самом деле, если вы повторяете какое-то исследование, но на другом объекте, то это вполне самостоятельная и ценная вещь. Потому что никто не сказал, что рыбки устроены так же, как птички, а птички так же, как мышки. Вы можете сделать то же самое, получив, вообще говоря, другой результат.
Есть хорошие конференции, на которые можно приехать, послушать доклады, во-первых, и, во-вторых, просто там поговорить с людьми, посмотреть, что люди делают, и пообщаться, и тоже, может быть, прибиться к какой-нибудь группе.
Из личной жизни. Был студент из Киева, который на одной из таких даже не конференций, а школ ко мне подошёл, мы немножко поговорили, и потом я ему придумал задачку, мы её за пару лет сделали просто по скайпу, опубликовали статью. Сейчас он тоже, кстати, в Европе, тоже в хорошем месте. Такие случаи тоже бывают, но нужен некоторый драйв.
Надо знать базовую молекулярную биологию, иначе вы просто не будете понимать, о чём речь. Нужно немножко уметь программировать, необязательно очень хорошо, но какие-то скрипты надо уметь писать. И нужно знать какие-то основы статистики и теории вероятности, потому что иначе вы просто не сможете оценить, насколько хорошо то, что у вас получилось.
Интервьюер: Обработка результатов экспериментов? Базовые вещи, в общем.
Гельфанд М.С.: Ну да. Никаких чудес нет. Вся биоинформатика в каком-то смысле не наука. Это ремесло, это вы сидите и клацаете. За что я её люблю – она очень эластична по усилиям. Конечно, бывает, что везёт, бывает, что не везёт, как в любой науке. Но, в общем, в ней не бывает таких «озарений»: вот яблоко упало – бабах! – закон всемирного тяготения. Она очень эластична. С очень хорошей точностью – сколько просидели, столько и получили.
Интервьюер: А есть какие-то предпочтения по языкам программирования?
Гельфанд М.С.: У меня нет. Обычно скрипты на Python'е, статистика на R’е. Если что-то совсем глубокое, если вы хотите интерфейсы писать или программы с очень тяжёлыми вычислениями, где надо оптимизировать, то там какие-то специальные языки. Кроме того, в последнее время люди активно учат языки, связанные с нейронными сетями.
Интервьюер: Горячая такая тема. Хорошо, спасибо. Скажите, зачем изучать геномы древних людей и животных, если их уже нет? Не всё ли равно вообще, что там было? Любопытство?
Гельфанд М.С.: Во-первых, действительно интересно. Если мы говорим про древних людей, то зачем изучать историю? Тоже все померли. А оказывается, что изучение древних геномов очень сильно меняет наши представления, во-первых, о недавней истории, просто о миграциях, кто куда бегал. Наконец отождествили индоевропейцев, тех людей, которые говорили на праиндоевропейском языке, с конкретной археологической культурой через генетику. А это, в общем, некоторое вполне содержательное достижение. Вопрос, который пару веков людей занимал. Общие предки германцев, греков, людей, которые говорят на романских языках, индоиранцев, славян, прибалтов индоевропейских (не угро-финских), кельтов, армян, – вот они вообще кто были, эти люди? Ну а теперь известно. Это ямная культура степной зоны. Вроде бы показали.
Про неандертальцев, денисовцев, если дальше в древность уйти, тоже фантастически интересно, на самом деле, что несколько десятков тысяч лет назад по Евразии бродило несколько ветвей человечества, они встречались, романы заводили, у них детки были. Ну, просто интересно само по себе. Немножко изменяет наши представления о нашем месте в действительности. Почему денисовцев и неандертальцев не осталось, а мы остались? Но при этом у нас есть их гены, немножко.
Тоже очень хорошая область, очень интересная – история одомашнивания нынешних культурных растений и животных, откуда они взялись. Это как бы такая историческая часть, ну, и археологическая.
С другой стороны, я говорил, что биоинформатика – это ремесло, такое обслуживающее, как электронная микроскопия. На самом деле, это не совсем правда, потому что в биоинформатике есть содержательный теоретический, фундаментальный аспект – это молекулярная эволюция. Понимание тех современных, молекулярных механизмов развития, клеточной дифференцировки чего угодно, которые есть в современных живых существах. Как они возникли, как они развивались. Например, когда я учился в школе, была такая очень хорошая система мира. Были простые бактерии, потом простейшие – одноклеточные, но уже с ядром, потом появилась многоклеточность, потом появились низшие растения, какие-то грибы, водоросли, а на другой ветке животные. Оказалось, что всё неправда. Многоклеточность появлялась несколько раз. Многоклеточность у животных и многоклеточность у зелёных растений появились независимо. Грибы – это никакие не низшие растения, они, скорее, эволюционно ближе к нам. Если уж вы хотите называть их кем-то низшим, то называйте низшими животными. Полностью поменялось наше представление о систематике. И таких историй довольно много.
Но опять-таки, это фундаментальная наука. Ну, может быть, появятся какие-то диетические запреты. Если считать, что грибы ближе к животным, а не к растениям, может быть, вегетарианцам не надо есть грибов...
С другой стороны, есть известное высказывание, самая затасканная цитата из Феодосия Добжанского, великого генетика российского происхождения, жившего в Штатах, что «Ничто в биологии не имеет смысла, кроме как в свете эволюции». На самом деле, очень правильно и опять-таки, то, что мы видим в повседневной практике. Потому что, когда я говорю, что эти методы предсказания функций белков или регуляции работы генов – они на самом деле основаны на эволюционных соображениях. Просто сами техники. Мы к этому настолько привыкли, что люди, с этим работающие, этого не замечают, это просто самоочевидно. Но если начать кому-то подробно рассказывать, как ты это делаешь, там немедленно возникают достаточно глубокие эволюционные соображения. Это полезно понимать.
Интервьюер: Про митохондриальную Еву, может, мы не будем? Там какой-то дурацкий вопрос.
Гельфанд М.С.: Ну, давайте отвечу. Это вопрос про митохондриальную Еву и Y-хромосомного Адама…
Интервьюер: Жили ли они в одно время? Может быть, они знали друг друга?
Гельфанд М.С.: Нет, не жили и не знали. Вообще, с митохондриальной Евой – это очень несчастный выбор метафоры. Митохондрии – это такие органеллы внутри наших клеток. Они, кстати, по происхождению бактерии, которые когда-то в нашего одноклеточного предка заселились, и с тех пор очень сильно изменились, естественно. Они стали органеллами. Замечательно то, что у них свой собственный геном, и он наследуется строго по материнской линии. Что удобно, потому что вы можете прослеживать строго материнскую генеалогию. Митохондрии есть у всех, естественно. Это очень важная органелла, такая энергоподстанция. Там как раз со школьных времён ничего особенно не изменилось. Как учили в школе, что митохондрии делают АТФ, в общем, так и есть.
Если посмотреть всех людей, живущих сейчас, если пройти строго по материнской линии, в какой-то момент обнаружится общая прапрапрапрапрабабушка. И вот её обозвали митохондриальной Евой. Почему это плохая метафора? Во-первых, потому что она не была первой женщиной современного человека. До неё были какие-то другие женщины, а потом – бабах! – и вот она теперь Ева. Во-вторых, она была совершенно не единственной женщиной, которая в это время жила. И на самом деле, понять это довольно просто на следующей метафоре. Вот представьте себе: сейчас уже нет, но раньше было довольно много деревень, особенно где-нибудь в Белоруссии, где у всех была одна и та же фамилия. Как такое могло возникнуть? Первая гипотеза понятная, что был первый носитель этой фамилии, который собственно основал деревню. Не очень вероятно, на самом деле, потому что был бы страшный интербридинг, очень близкородственные браки, не проканало бы. Второе объяснение такое: в восточнославянской традиции фамилия наследуется от отца, это мы знаем. Представим себе, что пришло несколько семей, поселилось и образовалось начало этой деревни. У какой-то из семей не было сыновей. Фамилия пропала, на одну фамилию стало меньше. Прошло ещё много лет, у носителей какой-то другой фамилии тоже ни в одной из семей не оказалось сыновей. Дочери были, у кого-то вообще детей не было, и сыновей, в общем, не было. Ещё одна фамилия пропала. Этот процесс довольно легко описывается математическими формулами, это называется теория коалесценции. Можно посчитать, через какое время при заданном количестве фамилий в самом начале и при постоянном размере популяции, фамилия останется только одна. Просто за счёт этих случайных колебаний. Теперь, что мы наблюдаем? Мы наблюдаем, что все люди имеют одну и ту же фамилию. «О! – думаем мы, – вот это фамилия основателя деревни». Ничего подобного. Вот с митохондриальной Евой случилась ровно та же самая история.
Теперь Адам. То же самое, только с Y-хромосомами. Y-хромосомы передаются строго по мужской линии, у тётенек их нет, ну и Бог с ними; но, тем не менее, мужскую генеалогию мы тоже можем проследить. Та же самая история – митохондрии коалесцируют к Еве, Y-хромосомы коалесцируют к Адаму, никто не сказал, что они должны были жить в одно и то же время. Более того, скорее всего, не жили. Y-хромосомный Адам, если я правильно помню, заметно моложе митохондриальной Евы, и это тоже можно математически показать. Потому что у женщин распределение количества потомков примерно равномерное. От нуля до десяти, больше уже вряд ли, в среднем – какой-то пик разумный в середине. У мужчин распределение количества потомков очень широкое. Может быть очень много. Поскольку, опять-таки, размер популяции постоянен, то если у какого-то сверхмужика очень много потомков, это означает, что у большого количества мужиков, наоборот, потомков существенно меньше среднего. А дальше математически можно показать, что в этой ситуации общий предок всех мужчин по мужской линии жил позже, чем общая «праматерь» всех вообще по женской линии. Всё, это теорема. Поэтому, скорее всего, они не встречались.
Ну и если кто-то любит романы, то истории про неандертальцев, кроманьонцев и денисовцев гораздо более животрепещущие. Дети от смешанных браков неандертальцев и кроманьонцев могли жить с кроманьонцами, и из-за этого у нас в геноме есть неандертальские варианты генов. А, скажем, у алтайского неандертальца, наоборот, в геноме есть кроманьонские варианты генов, и это означает, что эти дети могли жить и с неандертальцами тоже. Тут можно любую «Санта-Барбару» рисовать.
Интервьюер: LUCA – Last Universal Common Ancestor – это первый организм на Земле?
Гельфанд М.С.: Нет. Опять та же самая история. LUCA – это то, до чего мы можем дотянуться. Это то, что мы видим, сравнивая существующие геномы. Ясно, что у него тоже были какие-то предки. Просто мы их не видим, потому что от них не осталось никакого разнообразия. В лингвистике есть такая известная вещь, что вы, скажем, можете реконструировать довольно хорошо индоевропейский язык, потому что есть много современных носителей разных индоевропейских языков. Вы их сопоставляете и видите, как был устроен предок. Или даже ещё глубже залезают. А есть какие-то изолированные языки типа баскского, у которых никаких похожих языков нет, и что с ним делать непонятно. Он такой один торчит, и как там выглядел прабаскский язык две тысячи лет назад, никто не знает, и понять невозможно.
Так же и здесь. LUCA – это последний общий предок ныне живущих живых существ. Мы можем про него что-то сказать, мы знаем, какие гены у него были, потому что эти гены унаследовали его потомки. Но, во-первых, он был, очевидно, уже не первый, потому что он был довольно сложный. А во-вторых, рядом с ним мог жить кто-то, кто просто не оставил потомков. Но вообще есть такое упражнение – представить себе, как LUCA был устроен, люди этим занимаются. Ясно, что у него была мембрана. Ясно, что у него были рибосомы. Соответственно, у него наследственность была в ДНК, а такая «оперативная память» – в РНК. А до этого был большой чудесный РНК-овый мир, про который мы почти ничего не знаем, кроме того, что он, скорее всего, должен был быть.
Интервьюер: Ну тогда следующий вопрос про то, знаем ли мы какие-то подробности о LUCA, про то, когда он жил, как выглядел, какой геном, какой метаболизм?..
Гельфанд М.С.: Он был одноклеточный, у него были рибосомы. Как метаболизм был устроен, честно говоря, не знаю. Просто это не совсем моя область, я подробно этих работ не знаю, но что-то про него можно сказать.
Интервьюер: Не совсем всё-таки скрытый гражданин, что-то можно про него сказать.
Гельфанд М.С.: Ну опять-таки, если у всех ныне живущих существ есть рибосомы, то, наверное, у их предка тоже были рибосомы. Генетический код у всех примерно одинаковый. Наверное, такой же он был у общего предка.
Интервьюер: Хорошо. Скажите, почему у разных видов разное число хромосом? Есть ли какое-то «хорошее» число хромосом? Какое идеально?
Гельфанд М.С.: Нет. Вообще хромосомные перестройки – это довольно частая вещь, в этом ничего удивительного нет. У человека и шимпанзе разное число хромосом, хотя мы ближайшие родственники. Более того, есть виды каких-то грызунов, у которых даже у представителей одного вида может быть разное число хромосом. И они нормально спариваются, у них потомство бегает. Ничего удивительного в числе хромосом нет, это немножко второстепенная вещь.
Интервьюер: А почему всё-таки их разное количество, даже внутри вида?
Гельфанд М.С.: Рвутся хромосомы, сливаются. Реконструировать историю этих хромосомных перестроек, как хромосомы обмениваются фрагментами, или сливаются, или разрываются, и понять, как был устроен хромосомный набор, скажем, у предковых млекопитающих – вот этим люди занимаются. Ну как-то был устроен. Это немножко техническая вещь, на самом деле.
Интервьюер: Скажите, пожалуйста, насколько точны генетические анализы на этническую принадлежность, и какие факторы они учитывают? Вообще, они показывают хоть что-то?
Гельфанд М.С.: Это вопрос не ко мне, на самом деле, а к популяционным генетикам. Вопрос о том, с каким уровнем точности эти анализы даются. Вот что точно можно сделать (я видел хорошую статью, где было прямо показано, довольно убедительно), – это можно про современного европейца сказать, не было ли среди его бабушек и дедушек евреев-ашкеназов. С большой, хорошей точностью. Надо радоваться, что этого не умели делать на мехмате в 70-е годы или в Третьем рейхе.
То есть, какие-то вещи вполне точны. А то, что сейчас во всех этих генетических компаниях выдают с точностью до процента или с точностью до деревни, из которой происходят предки, – скорее всего, ерунда и проверить это, на самом деле, очень легко. Надо просто взять свой геном, послать в несколько компаний и сравнить результаты. Собственно, люди это делали, и получалось по-разному.
Интервьюер: То есть, спорная точность. Больше маркетинга здесь, видимо.
Гельфанд М.С.: В медицину им запретили лазать, они теперь через это лазают.
Интервьюер: Почти как сканирование, определение талантов по отпечаткам пальцев.
Гельфанд М.С.: Определение талантов по отпечаткам пальцев – это просто ерунда. Определение талантов по геномам, чем тоже занимаются, – в очень значительной степени ерунда. Там, можно сказать в некотором приближении, будет человек скорее стайером или скорее спринтером. Есть варианты генов, которые предрасполагают к одному или к другому. Но должен ли он быть бегуном, или пловцом, или велосипедистом марафонским… Скорее всего, это всё-таки лажа.
Интервьюер: Выходит, всё придётся решать самим, никаких подсказок…
Спасибо большое, Михаил Сергеевич, это было очень интересно.