科学家利用AI绘制DNA四链体对图谱,这些结构调控基因并改变癌细胞行为。

DNA刚刚揭示了一个隐藏的操作系统——它看起来并不像双螺旋。科学家们首次绘制了DNA四链体的全面图谱。这些转瞬即逝的结状结构,在控制基因开关方面发挥着超乎寻常的作用。这项突破重塑了研究人员对健康细胞和癌细胞中基因调控的理解。
国际团队中包括来自俄罗斯高等经济大学的研究人员,他们解决了一个长期存在的难题:四链体形成迅速、消失极快,并且能避开传统的全基因组图谱绘制工具。直到现在,人们也只能观察到其活动的片段。
研究人员利用人工智能,重建了这些不稳定的DNA结构在整个基因组中出现的位置。更重要的是,他们发现了一个令人惊讶的规律,凸显出四链体并非单独起作用。科学家首次证明,四链体以成对的方式发挥作用,将基因起始区域与附近促进转录的DNA元件连接起来。
DNA结,成对出现
当富含鸟嘌呤的DNA区域折叠成堆叠层时,就形成了四链体,从而创造出三维的"结"。这些结构充当调节基因活性的蛋白质的地标,引导它们到达正确的遗传地址。由于不同的实验捕获的是不同子集的四链体,因此一直未能绘制出完整的图谱。
为了克服这一难题,研究人员针对四链体的特定数据,对基因组语言模型DNABERT进行了重新训练。俄罗斯高等经济大学计算机科学学院生物医学研究与技术中心主任玛丽亚·波普佐娃评论道:"在我们的研究中,我们利用世界上最大的经实验验证的四链体数据库EndoQuad对DNABERT进行训练,从而得到了GQ-DNABERT模型。该模型通过评估DNA序列来预测四链体可能在何处形成。"
与更简单的算法不同,GQ-DNABERT还考虑了周围的DNA环境,这决定了序列是否真的会折叠成四链体。这使得研究团队能够预测出大约36万个四链体,远远超过单独实验方法所检测到的数量。
该模型证实,四链体通常出现在启动子(基因转录开始的区域)中。但它也揭示了一些意想不到的情况:许多四链体出现在附近的增强子(能放大基因活性的DNA元件)中。
癌细胞重编程了这套代码
研究人员发现,四链体经常同时在启动子和增强子中形成,创造出共同调节基因表达的配对结构。为了测试其生物学作用,研究团队将四链体图谱叠加到来自六种组织类型的单细胞测序数据上。
在健康组织中,这些启动子-增强子配对结构与具有组织特异性功能的基因相关——大脑中的神经元功能、血液中的免疫反应以及肠道中的上皮细胞活动。
肿瘤细胞的情况则截然不同。虽然四链体配对的数量保持相似,但它们所控制的基因却戏剧性地转向了普遍的生长程序。波普佐娃解释道:"在正常细胞中,这些配对与组织特异性程序相关;而在癌细胞中,它们则与细胞分裂和生长的普遍过程相关,这些过程驱动肿瘤增殖,无论其来源组织是什么。换句话说,在健康细胞中,这些配对支持组织特化;而在癌细胞中,它们变成了快速细胞分裂的通用程序的一部分。"
研究人员认为,通过阐明四链体配对如何在疾病中重编程基因调控,该图谱有助于指导未来选择性靶向这些DNA结构的抗癌疗法。
这项研究得到了俄罗斯高等经济大学人工智能研究中心的一项资助支持,并发表在《核酸研究》期刊上。
如果朋友们喜欢,敬请关注“知新了了”!