[预印本]人工智能的人工智能:通过基因组机器学习识别禽流感病毒的人畜共患潜力

禽流感通过人畜共患传播仍然是对人类健康的严重威胁。虽然目前的流行病爆发导致了有限的人畜共患病例,但禽流感病毒宿主的广泛多样性意味着不能排除可能更容易传播给人类的新菌株的出现。因此,有必要在溢出发生之前预测人畜共患的潜力。在这里,我们开发了一种针对禽流感病毒的新型人畜共患预测模型,该模型基于“宿主预测因子”机器学习方法,该方法仅在给定病毒基因组序列的情况下估计宿主潜力。我们构建了一个机器学习框架,结合了流感基因组片段的各个子模型,每个子模型都训练了许多基因组和蛋白质组学特征(例如,k-mer组成,密码子偏倚,蛋白质物理化学)。为了防止过度拟合大量采样的谱系并确保模型推广到系统发育树上较遥远的病毒,我们通过考虑共享序列同一性的聚类来预处理训练数据。策划的培训集涵盖了来自120种亚型的约4000个代表性的禽流感完整基因组序列,其中包括9种含有已知人畜共患病毒的亚型。我们将表现最佳的模型组合成一个整体,可以区分从训练中表现良好的序列(AUROC=0.95,F1得分=0.90)的人畜共患能力,包括很少采样的亚型序列,例如H10N8。询问集合模型决策也使我们能够识别与人类感染最相关的有影响力的基因组基序。这些发现表明,特定的基因组特征是理解和监测鸟类种群中流行的流感病毒进化的关键。我们的集合模型可以估计新序列输入的人畜共患潜力,提供了一种手段,可以在序列可用时立即对新出现的禽流感病毒株进行快速风险评估。