生成式AI快速预测三维基因组结构
张梦然
美国麻省理工学院化学家们利用生成式人工智能(AI)技术,开发出一种可快速预测三维基因组结构的新模型。新模型能在几分钟内预测出数千种结构,速度远超现有的实验分析方法。研究成果发表于最新一期《科学进展》杂志。
人体每个细胞都含有相同的遗传序列,但每个细胞只表达其中一部分基因。这种细胞特异性的基因表达模式确保了不同类型细胞之间的差异,而这些表达模式部分取决于遗传物质的三维结构。
新模型名为ChromoGen,旨在从底层DNA序列出发,预测三维基因组结构。它包括两个组成部分,第一部分是一个深度学习模型,能够“读取”基因组,分析编码在DNA序列和染色质可访问性数据中的信息;第二部分是一个生成式AI模型,经过训练后能够预测出物理上准确的染色质构象。
训练该模型所用的数据集包括超过1100万个染色质构象,这些数据来源于对16个人类B淋巴细胞系单细胞进行的实验。
ChromoGen模型能有效地捕捉序列—结构关系,为每段DNA序列生成多种可能的结构。这是因为DNA是一种非常无序的分子,同一个DNA序列可以产生许多不同的构象。这种方法不仅大大加速了三维基因组结构的预测过程,也为深入研究基因组的三维组织如何影响细胞的基因表达模式和功能提供了有力工具。
这一突破性技术有望帮助科学家更快地理解基因调控机制,促进疾病治疗和生物技术领域的进步。