全基因组选择作为新一代育种技术,通过构建预测模型,根据基因组估计育种值(GEBV)进行早期个体的预测和选择,从而缩短育种世代间隔,加快育种进程,节约成本,推动现代育种向精准化和高效化方向发展。统计模型作为全基因组选择的核心,极大地影响了全基因组预测的准确度和效率。传统预测方法基于线性回归模型,难以捕捉基因型和表型间的复杂关系。相较于传统模型,非线性模型(如深度网络神经)具备分析复杂非加性效应的能力,人工智能和深度学习算法为解决大数据分析和高性能并行运算等难题提供了新的契机,深度学习算法的优化将会提高全基因组选择的预测能力。
近日,中国农业科学院作物科学研究所/南繁研究院大数据智能设计育种创新团队联合多家单位在Molecular Plant 上发表题为“DNNGP, a deep neural network-based method for genomic prediction using multi-omics data in plants” 的研究论文。本文提出利用植物海量多组学数据进行全基因组预测的深度学习方法Deep Neural Network for Genomic Prediction(DNNGP)。
以玉米、小麦和番茄四种不同维度的群体数据为测试材料,与其他五种主流预测方法(即:基于线性模型的GBLUP;基于机器学习的LightGBM和SVR;基于深度学习的DeepGS和DLGWAS)相比,(1)DNNGP可以利用多组学数据开展全基因组预测;(2)DNNGP算法设计中包含批归一化层(BN layer)、回调函数(early stop)和校正线性激活函数(ReLU)等结构,可以有效避免过拟合,提高收敛速度;(3)DNNGP预测精度稳健,在小型数据集上的表现与目前主流预测模型相当,在大规模数据集上预测优势更加明显;(4)DNNGP的计算时间与传统方法相近,比已有深度学习方法提速近10倍;(5)与已有深度学习方法相比,DNNGP的超参数调整更加用户友好。DNNGP针对具有复杂结构的海量数据进行高效数学建模,实现了育种大数据的高效整合与利用,将助力深度学习在全基因组选择中的应用,为智能设计育种及平台构建提供有效工具。
DNNGP的算法框架
中国农业科学院作物科学研究所/南繁院已毕业硕士研究生王轲麟为本文第一作者,团队首席李慧慧研究员为通讯作者,国际玉米小麦中心(CIMMYT)杰出科学家Jose Crossa博士和首席科学家Sarah Hearne博士,巴基斯坦真纳大学Awais Rasheed博士,中国农业科学院南繁研究院Muhammad Ali Abid博士参与了文章的修改。研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室和中国农业科学院创新工程资助。