Рост тестирования ДНК с помощью таких сервисов, как 23andme, показывает, что существует огромный рынок для семейной истории.
Теперь ученые основываются на этих данных, публикуя, как они считают, крупнейшую в мире генеалогическую базу данных с семейным древом, которое связывает 13 миллионов человек и насчитывает более пяти веков.
Как пишет Джоселин Кайзер для журнала Science, Янив Эрлих, специалист по вычислительной генетике в Колумбийском университете, придумал проект семь лет назад, получив электронное письмо от дальнего родственника через Geni.com, один из многих сайтов, где ищут семейные связи.
При поддержке главного технологического директора Gemi.com Эрлих загрузил общедоступные профили сайта - десятки миллионов из них. Хотя он не предоставил данные ДНК, информация включала в себя имя человека, пол, дату и место рождения, дату смерти и близких родственников.
Природа написала о проекте Эрлиха на ранних стадиях еще в 2013 году, а в прошлом году Сара Чжан из Атлантики сообщила, что исследователи выпустили препринт массивного дерева. Теперь, пишет Кайзер, команда Эрлиха опубликовала исследование их работы в журнале Science. Используя данные, они получили 5, 3 миллиона деревьев, самое большое из которых объединяет около 13 миллионов родственников, в основном европейского происхождения.
С момента запуска проекта Эрлих стал главным научным сотрудником MyHeritage, компании по генеалогии и тестированию ДНК, которой принадлежит Geni.com. В прошлую пятницу он сделал Reddit Ask Me Anything о своих выводах, исправляя неправильные представления и объясняя методологию проекта. Он также отметил, что наиболее интересной частью его опыта было выяснить, как перевести все доступные данные в нечто личное.
В интервью Николь Ветсман из National Geographic Эрлих говорит, что выяснение того, как работать с этими данными, также было самой сложной частью проекта. «У геномных наборов данных есть специальные инструменты, структуры данных, методы, но у нас не было ничего для этого. Мы изобрели колесо, как мы пошли, "говорит он.
В конечном счете, исследователи использовали математическую теорию графов для организации и проверки информации, сообщает Laura Geggel для Live Science . Они также сравнили профили с около 80 000 общедоступных свидетельств о смерти от Вермонта за 25 лет, чтобы убедиться, что это не только богатые профили, загруженные на Geni.com.
Затем команда решила, какую информацию они хотели бы найти для проверки базы данных, пишет Wetsman.
Они начали смотреть на закономерности и обнаружили колебания продолжительности жизни, то, что они ожидали. Например, они видели падение молодых людей во время Гражданской войны и Первой и Второй мировых войн, а также рост выживания в детстве в 1900-х годах. Они также смогли отследить миграцию, например, прибытие Мейфлауэр в 1620 году в нынешний Массачусетс с последующим увеличением числа рождений в этом районе.
Исследователи также обнаружили, что долголетие больше связано с окружающей средой и поведением, чем с генетикой; На самом деле, данные показали, что гены ответственны за продолжительность жизни только на 16 процентов. Паола Себастиани, профессор биостатистики в Школе общественного здравоохранения Бостонского университета, однако, предостерегает делать выводы на основе этих данных в интервью с Wetsman. «Существует много путаницы в определениях долголетия», - говорит она.
Генетик Питер Висшер из Университета Квинсленда в Брисбене, Австралия, сообщает Kaiser, что данные, полученные командой Эрлиха, могут дать представление о роли генетики в болезнях, если данные связаны с медицинской информацией.
Исследовательская группа уже начала объединять дерево с информацией из DNA.Land, которая краудсорсирует данные ДНК, что может означать, что скоро может появиться еще большее дерево. Исследователи предсказывают, что если база данных сможет вернуться на 65 поколений, они смогут завершить дерево.