蛋白质设计新高度,RFdiffusion 实现从零设计高亲和力蛋白质
发布时间:2025-08-15 19:31 浏览量:2
你可以将 RFdiffusion 理解为「蛋白质宇宙的建构者」。它由蛋白质设计领域的核心团队——David Baker 实验室于 2022 年提出,该框架以 RoseTTAFold 为骨架,引入扩散生成模型,将结构预测与生成设计融合,首次实现了从头构建功能明确、构型复杂的蛋白质。RFdiffusion 能够根据已有的功能核心自动补全蛋白质结构,生成高度可控的空间构型,并在多个蛋白质设计任务中展现出强大的通用性与创造性。
其功能覆盖六个关键方向:可根据指定基序构建骨架、从零生成全新蛋白质、设计具有对称性要求的结构、生成多样化的功能变体、精确设计结合界面,甚至可在具备对称约束的前提下完成复杂结构的补全。无论是基础研究、酶设计,还是分子对接与药物开发,RFdiffusion 都提供了一个强有力的生成式解决方案。
教程链接:https://go.openbayes.com/gljKD
http://openbayes.com/console/signup?r=sony_0m6v
首先点击「公共教程」,在公共教程中找到「RFdiffusion:扩散式蛋白设计模型」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「打开工作空间」。
2.运行 RFdiffusion 以生成 backbone
参数说明:
name:设计名称前缀,用于标识生成的输出文件。
contigs:指定要生成的蛋白质长度(残基数)。
pdb:输入参考的 PDB 文件路径(可选),如果提供,将基于该结构进行设计。
iterations:扩散过程的迭代次数。值越大生成质量可能越高,但计算时间越长。
hotspot:指定关键残基位置(热点残基),用于约束特定位置的氨基酸类型。
num_designs:要生成的设计数量,生成多个设计时可进行筛选。
visual:结果可视化方式。
none:不生成可视化。
image:生成静态图片。
interactive:生成交互式 3D 可视化。
symmetry:对称性类型。
none:无对称性。
auto:自动检测对称性(使用 AnAnaS 算法)。
cyclic:循环对称。
dihedral:二面体对称。
order:对称阶数(亚基数量)。
chains:指定 PDB 文件中使用的链。
add_potential:是否添加额外势能防止链间碰撞。参数说明:
visual:结果可视化方式。
none:不生成可视化。
image:生成静态图片。
symmetry:对称性类型。
none:无对称性。
cyclic:循环对称。
dihedral:二面体对称。
order:对称阶数(亚基数量)。
add_potential:是否添加额外势能防止链间碰撞。
基本语法
使用 contigs 定义连续链。
使用 : 来分隔多个连续链(contig),使用 / 在一个连续链内定义多个片段(segment)。
示例说明
无条件设计(Unconditional)
contigs='100' - 扩散一个长度为 100 的单体(monomer)。
contigs='50:100' - 扩散一个长度为 50 和 100 的异源寡聚体(hetero-oligomer)。
contigs='50' 且设置 symmetry='cyclic' 和 order=2 - 将定义的连续链复制两份,并添加对称性约束,用于同源寡聚体(homo-oligomeric)扩散。
结合蛋白设计(Binder Design)
contigs='A:50' 且设置 pdb='4N5T' - 扩散一个长度为 50 的结合蛋白(binder),靶向指定 PDB 文件中的链 A。
contigs='E6-155:70-100' 且设置 pdb='5KQV' 和 hotspot='E64,E88,E96' - 扩散一个长度在 70 到 100 之间(随机采样)的结合蛋白,靶向链 E,并指定热点残基(hotspots)。
基序支架(Motif Scaffolding)
contigs='40/A163-181/40' 且设置 pdb='5TPN' - 在指定 PDB 片段(A163-181)的两端各扩散 40 个残基。
contigs='A3-30/36/A33-68' 且设置 pdb='6MRR' - 在两个指定的 PDB 片段(A3-30和A33-68)之间扩散一段长度为 36 的环(loop)。
部分扩散(Partial Diffusion)
contigs='' 且设置 pdb='6MRR' - 对PDB中所有坐标添加噪声(即整个结构都参与扩散)。
contigs='A1-10' 且设置 pdb='6MRR' - 固定前 10 个残基,其余部分添加噪声(即只对指定范围外的部分扩散)。
contigs='A' 且设置 pdb='1SSC' - 固定链 A,对其它链添加噪声(即只对非指定链扩散)。
提示与技巧(Hints and Tips)
pdb='' 留空,程序会提示上传 PDB 文件。
contigs='50-100' 使用连字符指定一个长度范围,程序会从中随机采样一个长度。
参数说明:
animate:控制蛋白质结构的动态展示方式。
none:静态显示最终结构(无动画)。
movie:生成蛋白质折叠过程的动态电影。
interactive:创建可交互的动画(可前后播放)。
color:决定蛋白质结构的着色方式。
rainbow:彩虹色渐变(从 N 端到 C 端)。
chain:按蛋白质链着色(每条链不同颜色)。
plddt:根据预测置信度着色(蓝色 = 高置信度,红色 = 低置信度)。
denoise:轨迹选择。
True:使用去噪轨迹(最终优化结构)。
False:使用含噪声的轨迹(中间过程)。
参数说明:
num_seqs:指定为每个蛋白质骨架生成多少条候选序列
initial_guess:是否使用 RFdiffusion 生成的骨架作为 AlphaFold 的初始结构
num_recycles:控制 AlphaFold 的结构优化迭代次数
use_multimer:是否使用 AlphaFold-Multimer 模型
rm_aa:指定不在设计中使用的氨基酸类型
mpnn_sampling_temp:控制 ProteinMPNN 序列生成的多样性/保守性