[預印本]人工智能的人工智能:通過基因組機器學習識別禽流感病毒的人畜共患潛力

禽流感通過人畜共患傳播仍然是對人類健康的嚴重威脅。雖然目前的流行病爆發導致了有限的人畜共患病例,但禽流感病毒宿主的廣泛多樣性意味著不能排除可能更容易傳播給人類的新菌株的出現。因此,有必要在溢出發生之前預測人畜共患的潛力。在這裏,我們開發了一種針對禽流感病毒的新型人畜共患預測模型,該模型基於“宿主預測因子”機器學習方法,該方法僅在給定病毒基因組序列的情況下估計宿主潛力。我們構建了一個機器學習框架,結合了流感基因組片段的各個子模型,每個子模型都訓練了許多基因組和蛋白質組學特征(例如,k-mer組成,密碼子偏倚,蛋白質物理化學)。為了防止過度擬合大量采樣的譜系並確保模型推廣到系統發育樹上較遙遠的病毒,我們通過考慮共享序列同一性的聚類來預處理訓練數據。策劃的培訓集涵蓋了來自120種亞型的約4000個代表性的禽流感完整基因組序列,其中包括9種含有已知人畜共患病毒的亞型。我們將表現最佳的模型組合成一個整體,可以區分從訓練中表現良好的序列(AUROC=0.95,F1得分=0.90)的人畜共患能力,包括很少采樣的亞型序列,例如H10N8。詢問集合模型決策也使我們能夠識別與人類感染最相關的有影響力的基因組基序。這些發現表明,特定的基因組特征是理解和監測鳥類種群中流行的流感病毒進化的關鍵。我們的集合模型可以估計新序列輸入的人畜共患潛力,提供了一種手段,可以在序列可用時立即對新出現的禽流感病毒株進行快速風險評估。