ДНК человека*
Тело человека массой 70 килограмм содержит 40-46 килограмм воды, 12 килограмм углерода. Упрощенно говоря, основным отличием тела человека от вертикальной лужи служит наследственная информация, которая хранится в нем, в виде дезоксирибонуклеиновой кислоты (ДНК). ДНК представляют в виде двойной спирали, элементы которой связаны между собой попарно. ДНК хранится в ядре клеток человека, митохондриях. От папы как и от мамы люди наследуют только часть ядерной ДНК определяющей цвет глаз, волос, форму носа и т.д., митохондрийная ДНК наследуется только от мамы и содержит информацию о выработке энергии в клетках. Получается, мужчины это природный эксперимент, а женщины - закрепление наиболее удачных результатов. В дальнейшем будет приводиться информация только о ядерной ДНК человека. На сегодняшний день ДНК прочитана почти полностью (см. проект геном человека). Непрочитанными остаются примерно 4-6% ДНК, прочитать которые с помощью современных технологий не представляется возможным. Некоторые ученые прозорливо назвали их ненужными, чтобы побыстрее заявить о решении этой сверхважной задачи. |
Базовые сведения о ДНК
ДНК имеет сложную структуру и правила написания. Базовыми элементами ДНК являются четыре вида азотистых оснований: аденин (A), гуанин (G), тимин (T) и цитозин (C). Иногда тимин одобначается (U). Эти элементы связаны между собой попарно, т. е. аденин одной спирали может соединятся только с тимином другой спирали, а гуанин одной спирали — только с цитозином другой спирали и наоборот. В одной спирали последовательность элементов может быть любой. Генетический код состоит из трехбуквенных «слов», называемых кодонами, состоящих из трёх нуклеотидов (то есть ACT CAG TTT и т.п.). Существуют кодирующие кодоны, которые переносят информацию, а также «старт» (ATG) и «стоп» (TAA, TGA, TAG) кодоны, определяющие начало и конец белка. ДНК синтезирует рибонуклеиновую кислоту (РНК), её подвиды, за счет копирования последовательностей ДНК в последовательности РНК, которые реализуют процесс транскрипции, и принимают участие в биосинтезе белков т. е. процессе трансляции. Помимо кодирующих последовательностей, ДНК клеток содержит последовательности, выполняющие регуляторные и структурные функции. Кроме того, в геноме клеток с ядрами часто встречаются участки, принадлежащие «генетическим паразитам». |
Основная информация о ДНК в ядре клетки человека находится в свободном доступе в сети Интернет. Используя 38 сборку проекта ensembl.org мы решили попробовать узнать немного больше о том, что нас отличает от других биологических объектов на уровне биологии, подойдя нестандартно к этой задаче. Нестандартность заключается в отказе от знаний о ДНК, за исключением знания о базовых нуклеотидах, и применение к данным ДНК различных математических методов. Целью работы является поиск алгоритмов и математических эвристик для выполнения сборки ДНК человека из информации о ДНК полученной одним из методов секвентирования.
Секвентирование ДНК
Анализ ДНК проводится в несколько этапов: 1. Молекулу (спираль) разделяют на куски и отмечают каждый флуоресцентными ферментами.
Они отличаются по степени свечения. |
|
Обычно длинна секвентируемого участка измеряется в парах нуклеотидов, имея в виду, что процесс секвентирования состоит в присоединении парного нуклеотида к каждому элементу читаемой спирали ДНК. Размеры секвенируемых участков ДНК обычно не превышают 100 пар нуклеотидов (более дешевые способы) и 1000 пар нуклеотидов (дорогие способы). Методы секвентирования быстро совершенствуются и эта информация может скоро устареть.
Первое знакомство с данными о ДНК
Вначале исследования была собрана общая статистика о количестве данных в файле.
Количество элементов
тимин (T) - 862048031
гуанин (G) - 596141805
аденин (A) - 860094921
цитозин (C) - 594749083
нерасшифрованные элементы (N) - 186717298
общее кол-во элементов (All) - 3099762993
Графически это выглядит так:
Этим расчетом демонстрируются правила полученные группой биохимика Эрвина Чаргаффа в 1949—1951 гг.
Через 73 года стало возможно подтвердить результат их исследования за 5 минут на самой посредственной ПЭВМ.
Правила Чаргаффа:
Количество аденина равно количеству тимина, а гуанина — цитозину: A=T, G=C.
Количество аденина+гуанина равно количеству тимина+цитозина: A+G=T+C.
Количество оснований с шестью аминогруппами равно количеству оснований с шестью кетогруппами: G+T=A+C.
Соотношение (A+T):(G+C) может быть различным у ДНК разных видов. У одних преобладают пары AT, в других — GC.
В 1952 году Джеймс Дьюи Уотсон и Фрэнсис Крик стали работать над моделированием структуры ДНК. Благодаря правилам Чаргаффа им удалось построить двухспиральную модель ДНК.
В нашем случае получаем:
862048031-860094921=1953110 (T=A), 596141805-594749083=1392722 (G=C)
погрешность около 0.22% от максимального числа в первом случае, 0.23% во втором случае.
(862048031+594749083)-(860094921+596141805)=560388 (T+C=A+G)
погрешность около 0.06% от максимального числа.
(596141805+862048031)-(860094921+594749083)=3345832 (G+T=A+C)
погрешность около 0.38% от максимального числа.
(860094921+862048031)>(596141805+594749083)=1190890888 (A+T):(G+C)
A+T больше G+C на 69.15%.
Таким образом зависимость от погрешности в данных отличается примерно на два порядка, что можно считать
очень положительным результатом.
Данные 38 сборки не являются абсолютно точными в каждом значении, поэтому они не пригодны для построения карты ДНК человека в прямом смысле этого слова, однако они пригодны для построения и аппробации алгоритмов сборки ДНК, сравнения ДНК и многих других сложных задач являющихся актуальными в настоящий момент.
Представленные ниже графики выполнены в общем виде! Для повышения наглядности вершины объеденены соединяющими линиями.
Попробуем визуализировать качество чтения ДНК 38 сборки с помощью графика количества нуклеотидов в цепочках по 100 000 000 элементов.
График показывает, что эффективность чтения ДНК разное для разных участков.
Далее приведены несколько побочных графиков полученных в процессе анализа файла с ДНК.
Фактическая сумма всех возможных вариантов для последовательностей из одного, двух, трех, четырех и пяти оснований.
Сумма стабилировалась на последовательности из трех оснований. Как раз три основания это и есть «буква» нашего ДНК.
Еще одна загубленная гипотеза оставила после себя следующий график
На графике сравнивается вероятность появления символа в тексте на английском и русском языке и в ДНК, причем считалось что заглавная и строчные буквы в человеческих языках различные символы. Предположительно, алфавит ДНК в информационном смысле кодирует информацию эффективнее человеческого языка, хотя имеет сравнимое количество символов, однако менее гибок. Подобное сравнение чем-то похоже на изучение влияния лунного света на рельсы, но без поискового поведения ничего нового найти не удастся.
График далее отображает кол-во последовательностей из двух оснований.
На следующем ниже графике отображается кол-во последовательностей из трех оснований.
Ненаучное заключение
Человек сможет полностью переписать своё ДНК только когда будет полностью независим от среды обитания. Однако, мы не сможем понять зачем все это, даже когда расшифруем ДНК человека. ДНК человека это кубик сложной системы, которую мы называем биосфера. Только сложив все кубики мы увидим как все это работает, а чтобы понять зачем это нужно, нам потребуется самим не один раз полностью повторить нашу эволюцию. Мне кажется, что несмотря на то, что ДНК человека на 50% банан :) , наши потомки справятся с этой задачей.
*В материале содержатся неточности и опечатки. Если нашли, обсуждаем их в соц.сети, присылаем письмом на почту и т.д.