2024
年
11
月
15
日,基因组与进化生物学领域专业期刊
Genome Biology and Evolution
在线发表复旦大学生命科学学院徐书华团队开发的群体遗传学祖源分析与可视化工具
AncestryPainter
2.0
,题为“
AncestryPainter
2.0: Visualizing Ancestry Composition and Admixture History Graph
”
。这项研究以团队先前发布的
AncestryPainter
1.0
为基础,拓展了绘图软件的多项功能,并增加了分析模块,分别用于整合祖源成分矩阵和推测祖源引入人群基因库的时序。
AncestryPainter
2.0
为群体遗传学中祖源分析结果展示和进一步解析提供了便利。
在以计算分析为主要手段的群体遗传学研究中,对数据降维和潜藏信息提取后的可视化是一个关键的任务和手段;尤其在祖源解析研究中,如何以准确、简洁、优美的方式呈现群体和个体的祖源构成对于理解人群遗传结构和个体遗传背景至关重要。传统的方法是排列等长的条形表示个体或群体,并以条形内部的色块来表示各个祖源成分的比例。然而,近些年的群体遗传学和基因组学步入大人群、大数据时代,越来越多的研究涉及大量群体或个体时,传统可视化排版布局方式由于挤占页面大量空间,无法充分展现研究结果,因而难以满足日益迫切的需求。研究团队前期开发了基于
Perl
和
R
语言的作图工具
AncestryPainter
1.0
,很大程度上改善了传统方式的可视化问题。虽然
AncestryPainter
1.0
发布后受到了用户欢迎和广泛使用,但是用户也反馈了其局限性,其中几个因素限制了
AncestryPainter
1.0
的友好度以及在更大范围的应用:(
1
)生成的图像布局单一,缺乏对图形的美化功能;(
2
)以
Perl
代码接收作图像编码数据和输入的参数,但以
R
代码生成图像文件,这种方式增加了用户排查输入数据错误及调整输出结果的困难;(
3
)缺少与作图模块相匹配的统计模块限制了对分析结果进一步处理的余地。
为了满足用户的需求,团队改进了
AncestryPainter
1.0
,拓展了绘图软件的多项功能,并增加了分析模块,分别用于整合祖源成分矩阵和推测祖源引入人群基因库的时序,最终升级为
AncestryPainter
2.0
。新版本全部由
R
语言编写,在保留原有大部分特性的基础上又增加了许多新特性。在版本
1.0
中,用户只能在环形扇区中央设置单一扇形图展现目标人群祖源结构,而版本
2.0
允许设置多个这样的扇形图,并可以由用户自行设计排布位置。除了扇形图,版本
2.0
还增加了辐射图(
radiationplot
)用以展示和比较目标人群与多个参考人群之间的遗传距离。另外,用户在绘制这两种统计图时均可以调整图形颜色、尺寸,以及注释文字字号、字体等特征,并加入图例。
A) Human Origins
数据集中随机选取的
100
个人群的祖源结构(祖源数目设定为
8
),用“扇形图”绘制。图片中心的三个饼状图显示了三个目标人群(
Xuun
、
French
和
Dai
)的祖源结构。
B
)
Human Origins
数据集中土家族与随机选取的
14
个东亚和东南亚人群的遗传距离,用“辐射图”绘制。径向围绕图片核心的条形长度表示遗传距离。
在作图模块之外,作者又嵌入了两个统计模块。第一个统计模块用于整合基于相同群体样本且具有相同祖源个数的祖源成分矩阵。在使用
ADMIXTURE
等软件推算群体的各个祖源比例时,即使指定了单一的祖源数目,由于随机数改变等原因,软件生成的祖源成分矩阵也可能有所差异。该模块通过比较不同祖源矩阵中各个祖源成分的相关性,识别出同一祖源,并取该祖源在各个矩阵中比例的算术平均数作为整合矩阵中的祖源比例,从而得到更加准确的祖源比例估计结果。第二个统计模块采用一个名为混合人群图(
admixture history graph
,
AHG
)的指标来推测混合群体中不同祖源混入的时序。
AHG
由
Pugach
等人在
2016
年首次提出,代表着不同祖源成分组合之间的相关性。通过比较不同祖源组合的
AHG
数值,即可判断其混入的顺序。具体计算过程中,
Pugach
等人使用协方差(
covariance
)来衡量相关性(“
cov”
)。后续有不同研究者对
Pugach
等人的
AHG
指标进行了优化:徐书华团队使用皮尔逊关联系数(
Pearson correlation efficient
)代替了协方差(“
cor”
),而
Oliveira
等则在计算协方差之前先将原始数据进行对数转换(“
cov_log”
)。
AncestryPainter
2.0
回顾并总结了此前的研究中使用几种
AHG
指标,并在此基础上提出了三种新的优化方式(“
mean_cor”“mean_cov”“cor_log”
)。
AncestryPainter
2.0
使用了模拟数据和真实数据验证六种
AHG
指标的有效性。首先,根据团队此前对于中国西北混合人群的研究,构建了三种不同的人群融合模型(
1
)“
(AB)C”
,指祖源
A
与
B
先融合,再融入
C
;(
2
)“
(AB)(CD)”
,指祖源
A
与
B
混合,
C
与
D
混合,随后两个复合祖源融合;(
3
)“
((AB)C)D”
,指祖源
B
、
C
、
D
依次融入祖源
A
。作者使用
AdmixSim2
生成相应的模拟数据,检测了不同初始混入比例下六种
AHG
指标推测祖源混合顺序结果的准确性。随后,团队以此前
Gouveia
等人对非裔美洲人群起源的研究结论作为基准(
Ground truth
),用
ADMIXTURE
推算了千人基因组计划(
1000 Genomes Project
)中两个混合人群
ASW
(
African Americans in Southwest United States
,美国西南部非裔人群)和
ACB
(
African Caribbeans in Barbados
,巴巴多斯的非裔加勒比人群)基因组中各个非洲祖源和欧洲祖源的比例,并使用六个
AHG
指标分别推测这两个人群中两个非洲祖源和单个欧洲祖源的混入顺序。通过比较六种
AHG
指标对模拟人群和真实人群祖源推测结果的准确性,团队最终确定了指标“
cor_log”
为最优,并将其嵌入
AncestryPainter
2.0
。
A)
真实数据集的
ADMIXTURE
结果
(
祖源个数设定为
5)
,用
AncestryPainter
2.0
中的“
sectorplot”
函数绘制;
B)
使用
AHG
推断真实人群的混合顺序。拓扑结构“
(A,B),C”
表示祖源
A
与祖源
B
混合,然后祖源
C
加入已经混合的祖源。每个拓扑结构的支持数量由渐变色(高:蓝色;低:白色)表示。缩写:
AFR_W -
西非血统,
AFR_C -
西非
/
中非血统,
AFR_E -
东非血统,
AFR_S -
南部非洲血统,
EUR -
欧洲血统。
上海科技大学生命科学学院硕士研究生陈双慧和复旦大学生命科学学院硕士研究生雷畅为该论文共同第一作者,复旦大学生命科学学院
/
人类表型组研究院
/
附属中山医院徐书华教授为通讯作者,复旦大学生命科学学院硕士研究生赵晓涵、上海营养与健康研究所毕业生潘雨闻博士及鲁东胜博士对本文亦有特别贡献。该项工作获得了国家重点研发计划、国家自然科学基金、上海市科委项目和全球伙伴关系办公室重点项目发展基金等多项基金的资助。该项工作的计算任务得到了复旦大学
CFFF
智能计算平台支持。
论文链接:
https://academic.oup.com/gbe/advance-article/doi/10.1093/gbe/evae249/7900898
软件链接
1
:
https://github.com/Shuhua-Group/AncestryPainterV2
软件链接
2
:
https://pog.fudan.edu.cn/#/Software