
AI
应该已经有不少了吧。目前,
AI并非超越
人类的神明,无法凭空创造或直接引领
人类进入高维空间。其主要优势体现在各领域的强大算力与分析预测能力,尤其在处理大数据时展现出卓越效能。一种名为全基因组关联研究(GWAS)的大数据方法,专注于分析人群中基因与表型之间的关联关系。这种方法有助于揭示基因对性状的影响。
基因突变可能引发疾病这一概念,对许多人来说并不陌生。在进行基因检测或产前检查时,可能会发现某些潜在的基因突变,例如CFTR基因突变,可能与囊性纤维化相关;或者某段染色体缺失,提示某种疾病的隐患(由于基因ABCDE的丢失)。这类报告中列出的众多基因与疾病的联系,很多都源自GWAS研究的结果。这些研究帮助科学家揭示了基因变异和健康问题之间的复杂关系。全基因组关联研究(GWAS)对多基因引起的疾病或表型更具研究价值,而大部分疾病和表型确实由多基因共同决定。通常情况下,一个基因突变并不会直接导致某种疾病的发生,而是会提高患病风险。例如,糖尿病的形成与多种基因及环境因素密切相关,包括TCF7L2、PPARG、KCNJ11、SLC30A8等与胰岛素信号通路相关的基因。这些基因中的某些突变已被证实与糖尿病高风险存在关联。
只有少数疾病由单基因决定,如镰刀型细胞贫血症,其突变位于血红蛋白β链基因,纯合子患病概率为100%。多基因遗传疾病中,如何找到相关基因?这就要说到GWAS的具体做法了。在动物实验中,如研究小型哺乳动物挖洞行为的关联位点,通常会结合干实验与湿实验同时进行分析。湿实验部分是指将洞挖能力强的动物A与同物种洞挖能力弱的品系B杂交。两者虽能正常繁殖,但基因组存在明显差异,可通过这些特征区分不同品系的遗传特性。对后代持续追踪特定表型并分类分级,结合全基因组测序分析,可发现与表型正相关的基因位点。这种方法有助于精准定位目标基因。

人类
干实验指的是测序分析,例如,挖掘能力强的鼠,其D、E、F基因均为A的纯合基因,这表明这些基因可能与挖洞能力正相关。而G、H、I基因无论来自A还是B,均无明显影响,说明它们与挖洞能力关联不大。如果研究对象是人群中的表型或疾病,只能依赖干实验方法。此外,基因组规模大、复杂性高且样本量少也是难题。毕竟,十个基因或许还能人工分析,两万个基因绝对无法靠肉眼处理。进行GWAS分析时,研究人员构建了多种
AI模型,常用的有随机森林、支持向量机和神经网络。这些模型基于不同的运行机制,如同让
AI采用多样化的学习方式。因此,所构建的模型及其预测结果会呈现各自的特点与差异。这种多样性有助于更全面地探索数据分析的可能性。以随机森林方法为例,它注重随机性,在学习过程中先构建多个决策树(与性状相关的大群体),每棵树基于训练数据的随机子集生成。这种随机化有效降低过拟合风险,能够广泛挖掘重要遗传特征及其相互作用。神经网络方法通过构建多个节点,探索它们之间的非线性关联。在此模型中,人工智能能够从基因数据中提取层次化特征,尤其擅长捕捉遗传变异间隐晦的关系。不过,这种分析从单一基因出发时,往往需要巨大的计算资源支持。各种机器学习方法在GWAS中各具优势,旨在识别与疾病和性状相关的关键基因。一项研究(Liu等人,2018年)利用神经网络模型,探索与
乳腺癌相关的遗传变异基因。研究中构建了一种全新的人工智能模型,能够预测染色质可及性与DNA序列模式之间的相互作用。通过分析
乳腺癌的全基因组关联研究(GWAS)数据,该模型成功识别出29个与
乳腺癌相关的单核苷酸多态性位点(SNP)。这些SNP进一步被发现与癌症相关转录因子FOXA1存在显著关联,为
乳腺癌的遗传机制提供了新的见解。这些人工智能在全基因组关联研究中挖掘的新信息和数据,均属于创新成果的表现形式。