ДНК-генеалогия от А до Т - Анатолий Клёсов
- Дата:19.06.2024
- Категория: Научные и научно-популярные книги / Прочая научная литература
- Название: ДНК-генеалогия от А до Т
- Автор: Анатолий Клёсов
- Просмотров:1
- Комментариев:0
Шрифт:
Интервал:
Закладка:
Что такое поправки на возвратные мутации, и как они рассчитываются?
Вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели, и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[42], и в простейшем виде симметричной картины мутаций формула следующая:
где:
λobs = наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов, λ – «истинное» среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
Рассмотрим для начала единичный маркер. Например, в серии из 3466 гаплотипов гаплогруппы Rlb-L21 в маркере DYS393 (это – самый первый маркер в протяженных гаплотипах) наблюдаются 232 мутации. В таком случае наблюдаемое среднее число мутаций на маркер равно 0.067, и поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Полная запись расчета следующая:
Итак, наблюдаемое число мутаций на маркер 0.067, «истинное» 0.069, и отношение между ними в соответствии с формулой (до округления) равно
(1 + 1.069)/2 = 1.0345
Итак, поправочный коэффициент равен 1.0345, и при наблюдаемых 0.067 мутаций на маркер их на самом деле 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В случае маркеров DYS390 (второй по счету маркер в протяженных гаплотипах) поправка будет уже значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент для того же случая 3466 гаплотипов, в которых наблюдается 1165 мутаций в данном маркере. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997. Полная запись расчета —
Иначе говоря, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть на 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ – важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.
Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».
Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59 ± 8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (см. врезку) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ± 13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ± 30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ± 32.7 %. Мы видим, что при введении в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400 ± 800 лет.
Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ± 10 %, хотя определенно меньше этой величины, как пояснено выше.
Вторая плоская ветвь из 57 гаплотипов далее по часовой стрелке (из которой половина казахские, остальные – киргизские, узбекские, ногайские, индийские и один монгольский), еще более недавняя, там на всю ветвь всего 39 мутаций. Ее возраст -90() ± 170 лет. Но предковый гаплотип отличается принципиально от предыдущей ветви:
13 25 16 10 12 13 и 14 10 13 и 29
Между ними – 5 мутаций, что соответствует 5/0.02 = 250 → 331 условных поколений, то есть примерно 8275 лет между их общими предками. Общий предок обеих ветвей жил примерно (8275 + 1240 + 900)/2 = 5200 лет назад.
Если обратить к схеме субкладов, картина с казахскими гаплотипами проясняется. Первая ветвь относится к субкладу С2b1b-M48, вторая – С2b1c-F1918, их общий предок – субклад С2b1-F1699. В данном случае расчеты имеют лишь иллюстративный характер, так как гаплотипы короткие, и их разрешающая способность мала.
В субкладе С2, два уровня которого занимают казахские и родственные гаплотипы, среднеазиатские и монгольские гаплотипы обычно имеют субклад С2-М217, но там много уровней, их занимают американские индейцы, Индия, Китай, Япония, Корея, Филиппины, все они расходятся по разным подуровням. В субкладе Cl находятся Новая Зеландия, острова Кука и Гавайские острова – С1b2a-М38; центральноевропейские гаплотипы (Англия, Ирландия, Шотландия, Италия, Испания, Венгрия, Греция, Польша) – С1а2a1-V222, и так далее. Обратим внимание на самую нижнюю небольшую ветвь дерева гаплотипов, которая показывает большой разрыв со среднеазиатскими гаплотипами. Они имеют субклад С1а2a1-V222, это потомок ископаемых гаплотипов С1а2-V20, найденных в Испании, Венгрии и Анатолии с датировками 7000–8400 лет назад. Эти потомки продолжают сейчас жить в Европе. Свою отдельную ветвь имеют гаплотипы Гавайских островов и Новой Зеландии, на дереве гаплотипов это ветвь на 8 часов, к ней примыкает ветвь филиппинцев.
В большой выборке из 657 австралийских аборигенов[43] у 125 человек (19 %) нашли гаплогруппу С1b2b-M347. Кстати, в той же работе больше половины аборигенов (56 %) были признаны «ненастоящими» аборигенами, потому что у них гаплогруппы были «пришлыми», причем относительно недавно.
У нас нет возможности разбирать здесь все гаплотипы гаплогруппы С по регионам, хронологии, этносам, субкладам, для этого понадобилась бы отдельная книга. Суть этих иллюстраций в том, что каждый, имеющий гаплогруппу С, может найти себя и свою ДНК-генеалогическую линию на подобном дереве, увидеть место себя и своего рода в общей картине мира, лучше понять историю своих предков.
- Ключи, соединившие континенты. От Альфреда Вейла до наших дней - Валерий Пахомов - Хобби и ремесла
- Древний рим — история и повседневность - Георгий Кнабе - История
- Путешествия. Дневники. Воспоминания - Христофор Колумб - Биографии и Мемуары
- Переводы - Бенедикт Лившиц - Поэзия
- Страна Городов 1-4 - Георгий Почепцов - Сказка