Nature重磅：AI药物研发依旧为领域热点，Nature将列为重点热门文章！

生命科学前沿 2023-06-07

在过去十年中，可用的生物医学数据量以前所未有的速度增长。自动化技术的提高和更大的数据量鼓励使用机器学习（ML）或人工智能（AI）技术来挖掘此类数据并提取有用的模式。由于识别具有所需生物活性的化学实体是药物发现中的一项关键任务，因此人工智能技术有可能加速这一过程并支持决策。此外，深度学习（DL）的出现在解决药物发现中的各种问题（例如从头分子设计）方面显示出巨大的希望。在本文中，我们将评估人工智能辅助药物发现的当前最新技术，讨论最近的应用，包括用于化学结构生成的生成模型、改善结合亲和力和姿势预测的评分函数，以及协助参数化、特征化和泛化任务的分子动力学。最后，我们将讨论当前的障碍和克服这些障碍的策略，以及潜在的未来方向。

介绍

人工智能（AI）是目前讨论最多的话题之一，并且越来越多地嵌入到我们日常生活的许多方面。我们经常处理从推荐系统、文本分类到诊断的程序和应用程序。大多数声称的人工智能，特别是公众，实际上是机器学习（ML）。ML 汇集了统计学和计算机科学的概念和算法，以处理数据、构建预测并协助后续决策 [1]。这种从 ML 到 AI 的命名转换也受到深度学习（DL） [2] 的惊人进步的青睐，深度学习是 ML 的一个子领域，当用于不同领域时，特别是在图像和语音识别方面。这些成就导致了作为深度学习应用核心的人工神经网络与人类神经网络之间的直接而迷人的并行性。

这些技术最初在不同领域开发，现在越来越多地应用于药物发现，因为它们有望加速整个药物发现和开发管道[3]。因此，大量的ML方法正在被应用于药物设计，特别是为了解决化合物生物活性预测的挑战。因此，在计算机辅助药物设计（CADD）中使用ML通常可以被视为跨学科的努力，其中适当的特定领域知识必须与对模型背后统计数据的理解相结合。

在这篇综述中，我们将评估人工智能辅助药物发现的当前最新技术。首先，我们将描绘基本原理和技术，然后我们将讨论人工智能在药物设计过程中的应用，包括用于化学结构生成的生成模型、用于改进对接和姿势预测的评分函数，以及帮助参数化、特征化和泛化过程的分子动力学（MD），以及一些最近的案例研究。最后，将讨论潜在的未来方向。

科研背景

AIDD（AIDrug Discovery & Design）：是近年来非常火热的技术应用，且已经介入到新药设计到研发的大部分环节当中，为新药发现与开发带来了极大的助力。随着医药大数据的积累和人工智能技术的发展，运用AI技术并结合大数据的精准药物设计也不断推动着创新药物的发展。在新型冠状病毒的治疗方案中，通过一系列计算机辅助药物生物计算的方法发现一大类药物分子可以有效阻止新冠病毒的侵染，为治疗新冠提供了新思路。倾向于机器对数据库信息的自我学习，可以对数据进行提取和学习，一定程度上避免了化合物设计过程中的试错路径，同时还会带来很多全新的结构，为药物发现打破常规的结构壁垒。

CADD(Computer Aided Drug Design):计算机辅助药物设计，依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果，针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点，并参考其它类源性配体或天然产物的化学结构特征，以计算机化学为基础，通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用，考察药物与靶点的结构互补、性质互补等，设计出合理的药物分子。它是设计和优化先导化合物的方法，CADD的应用，包括基于结构的药物设计（SBDD）、基于配体的药物设计（LBDD）、高通量虚拟筛选（HTVS）等技术，突破了传统的先导物发现模式，极大地促进了先导化合物发现和优化。特别是在食品、生物、化学、医药、植物、疾病方面应用广泛！靶点的发现与确证是现代新药研发的第一步，也是新药创制过程中的瓶颈之一。CADD的应用可以加快靶点发现的速度，提高靶点发现的准确度，从而推进新药研发。

代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科，被广泛用于揭示小分子与生理病理效应间的关系。目前，代谢组学已经被应用于药物开发的各个阶段（如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等）。基于代谢组学的高性价比特性，它被药学领域的研究者给予了厚望，有望加速新药开发的进程。然而，代谢组领域还面临着严重的信号处理与数据分析问题，对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动，就需要开发针对代谢组信号系统优化的新方法，为不同组学研究量身定制最优的数据分析策略。

深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现，过去10年，深度学习在计算机视觉、语音识别、自然语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析，运用深度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和转化医学的进度。，近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究，这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology 等知名国际顶刊上，为我们发表顶刊奠定了基础。

随着高通量组学平台的发展，极大了促进了生物医学领域的发展，使得人们能够从基因组学，转录组学，蛋白组学，代谢组学等各个维度进行深入的研究。一切生命的表现形式，本质上都是蛋白质功能的体现。如果我们能够了解细胞、组织乃至整个生命体内蛋白质的组成及其活动规律，理解不同组织器官在不同生理病理状态下蛋白质组的构成和动态变化，就会对疾病的发生、发展、转归等过程有一个全面的认识，把握疾病诊治的关键，提高药物开发的效率。在高通量测序和多组学的快速发展下，无论是基因组学、表观组学、转录组学、宏基因组学还是蛋白质组学、代谢组学，都已经积累了非常庞大的数据，数据的大量增加需要更高效更强大的分析工具才能更好的对海量的组学数据进行深度挖掘，然而传统的信息数据处理算法显然不能满足大数据的处理要求，机器学习作为可以从数据中进行学习的算法，在组学数据分析和挖掘，如对疾病亚型识别、生物标志物发现、通路分析以及药物发现及其再利用有着更广泛的前景和应用空间。

课程介绍

由于学习平台文献、视频教程资料较少，技术不公开，对于有相应科研任务和发高质量文章的科研人员极度困扰，应而培训学习迫在眉睫，应广大科研人员要求，本单位经过数月调研，决定联合专家共同举办“AIDD人工智能药物发现与设计+CADD计算机辅助药物设计+机器学习代谢组学”专题培训班，本单位已经举办十六期培训，参会人员高达2100余人，对于培训安排和培训质量一致评价极高！将内容全部学懂、学会、学透彻、学以致用，完成科研任务和高质量文章！

授课专家

AIDD人工智能药物发现与设计

授课老师曹老师，有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学，深度学习，药物靶标识别，药物不良反应等。参与了国自然基金2项，主持了省厅级科研项目3项。一作身份发表SCI论文数篇，包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

CADD计算机辅助药物设计

主讲老师来自国内高校、中科院等单位，老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究，在我们单位长期进行授课，讲课内容和授课方式以及敬业精神受到参会学员的一致认可和高度评价

机器学习代谢组学

主讲老师来自985高校神经科学博士，主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用（LC-MS）技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究，以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

深度学习基因组学

刘老师，生物信息学博士，有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析，单细胞测序数据分析，基因调控网络时序分析，蛋白质互作网络分析，多组学联合分析等。主持省自然科学基金等项目4项，出版医学实用教材《Python医学实战分析》，发表SCI论文22篇，其中一作及并列一作9篇

机器学习蛋白组学

机器学习蛋白组学主讲老师来自国内高校李老师授课，有十余年的蛋白质组数据分析经验。研究领域涉及机器学习，芯片数据分析，蛋白质组数据分析，DNA，RNA，甲基化测序数据分析，单细胞测序数据分析，miRNA及靶基因分析等，发表SCI论文30余篇，其中一作及并列一作15篇。

培训目标（完全适合零基础）

AIDD人工智能药物发现与设计

本课程让学员了解药物发现的前沿背景，学习人工智能领域的各类常见算法，熟悉工具包的安装与使用，掌握一定的算法编程能力，能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作，具备一定的AIDD模型构建和数据分析能力

CADD计算机辅助药物设计

CADD计算机辅助药物设计设计流程，让学员能够掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分子动力学全程实操、溶剂化分子动力学模拟

机器学习代谢组学

本课程适于对深度学习、基因组学、微生物组学、蛋白组学、代谢组学等多组学分析感兴趣的学员。课程通过基础入门+应用案例实操演练的方式，从初学及应用研究的角度出发，带大家实战演练多种深度学习模型（深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN、可变自动编码器VAE、图卷积神经网络GCN）通过对这些深度学习在基因组学中的应用案例进行深度讲解和实操，让学员能够掌握深度学习分析高维基因组学、转录组学、蛋白组学等多组学数据流程，系统学习深度学习及基因组学理论知识及熟悉软件代码实操，熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。助力学员发表Nature、Science、Cell等正刊及子刊杂志！（在生信分析的新技术加持下，用更少的经费，发更高质量的文章）

深度学习基因组学

本课程适于对深度学习、基因组学、转录组学、蛋白组学、药物基因组学等多组学分析感兴趣的学员。课程通过基础入门+应用案例实操演练的方式，从初学及应用研究的角度出发，带大家实战演练多种深度学习模型（深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN、可变自动编码器VAE、图卷积神经网络GCN）通过对这些深度学习在基因组学中的应用案例进行深度讲解和实操，让学员能够掌握深度学习分析高维基因组学、转录组学、蛋白组学等多组学数据流程，系统学习深度学习及基因组学理论知识及熟悉软件代码实操，熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。

机器学习蛋白组学

通过对机器学习在蛋白组学中的应用案例分享，让学员能够掌握机器学习分析蛋白组学的流(tao)程(lu)，了解常用机器学习算法的原理及蛋白组学理论知识。通过实操，复现高分SCI文章中机器学习结果，让学员能够熟悉相关软件和工具的使用，并且学以致用到自己的课题中。

课程内容

课程一：AIDD人工智能药物发现与设计

（第一天）

人工智能药物发现(AIDD)简介

机器学习和深度学习在药物发现领域的应用

工具的介绍与安装

1.人工智能药物发现(AIDD)简介2.机器学习和深度学习在药物发现领域的应用

1.2 环境搭建
python
anaconda
工具包
RDKit
scikit-learn
pandas
numpy

（第二天）

机器学习

机器学习与药物发现

2.1 机器学习

2.1.1 随机森林Random Forest (RF)
2.1.2 支持向量机Support Vector Machines （SVMs）
2.1.3卷积神经网络
Ø 梯度下降
Ø 反向传播
Ø 随机梯度下降
Ø 学习率和激活函数
Ø 卷积神经网络CNN
Ø 常用框架介绍
Ø Pytorch
Ø TensorFlow
2.1.4机器学习任务
Ø 分类任务：classification
Ø 回归任务：regression
Ø 聚类任务：clustering
2.1.5机器学习验证和评估指标
Ø 验证：K折交叉验证K-fold cross validation
Ø 性能评估指标：
Ø Sensitivity
Ø Specificity
Ø Accuracy
Ø ROC-curve

Ø AUC
2.2 ChEMBL数据库介绍和使用
Ø compound activity measures
ØIC50ØpIC50

2.3 化合物的编码方式及化学相似性
2.3.1 化合物编码方式
Ø SMILES
Ø InChI
Ø Chebi
Ø 分子指纹
Ø MACCS：Molecular ACCess System fingerprints (MACCS Keys)
Ø Morgan Fingerprints：Extended-Connectivity Fingerprints (ECFPs)
2.3.2 化合物的化学相似性Ø Tanimoto 系数Ø Dice 系数2.4 项目实战2.4.1 Classification：基于分子指纹的化合物活性预测

2.4.2 Clustering：基于Butina算法的分子聚类方法研究

第三天）

图神经网络与药物发现

3.1 图神经网络

Ø 图卷积网络 GCN
Ø 图注意力网络 GAN
Ø 图同构网络 GIN
Ø 常用框架介绍
Ø Pytorch_Geometric
Ø DGL
3.2 分子毒性简介与相关数据集介绍
Ø Tox21
Ø ToxCast
Ø ClinTox
3.3 项目实战：基于图神经网络的分子毒性预测

3.4 经典论文讲解：DeepTox: Toxicity Prediction using Deep Learning

（第四天）

自然语言处理与药物发现

4.1 自然语言处理

Ø 循环神经网络 RNN
Ø LSTM
Ø Seq2seq
Ø Transformer
Ø 常用框架介绍：
Ø Pytorch
Ø TensorFlow
4.2 有机反应产量简介及相关数据集
4.2.1 有机反应的表示方法
4.2.2 有机反应的产量
4.2.3 有机反应相关数据集 USPTO
4.3 项目实战：基于Transformer的有机化学反应产量预测

4.4 经典论文解读：Extraction of organic chemistry grammar from unsupervised learning of chemical reactions

(第五天)

生化代谢路径设计与药物发现

5.1 生化数据集介绍与使用
Ø KEGG
Ø BiGG
Ø BioCyc
Ø PubChemØ Chebi5.2 搜索方法Ø 基于化学计量矩阵的搜索方法Ø 基于逆合成的搜索方法Ø 基于图结构的搜索方法Ø 基于进化算法的搜索方法5.3 评估方法Ø 通量平衡分析FBAØ 理论产量计算Ø 热力学可行性分析5.4 项目实战：基于逆合成的生物代谢路

5.5 经典论文讲解：Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network

赠送视频：深度学习AiphaFold2蛋白质结构预测实例讲解

（以下内容为赠送的视频教程）

蛋白质结构与功能的概述。

蛋白质的组成

蛋白质的结构

蛋白质的功能

常见蛋白质结构预测的网站及方法。

常用蛋白质结构预测的相关网站及软件

常用网站及软件的使用方法及说明

机器学习在蛋白质结构预测的应用。

蛋白质结构与小分子药物库获取

机器学习加速预测小分子药物

AlphaFold2机器学习模型对蛋白结构预测

实战蛋白结构预测目前最好的人工智能模型AlphaFold2。

AlphaFold2模型的获取及安装

AlphaFold2相关数据的获取

AlphaFold2模型的实战操作

课程二：CADD计算机辅助药物设计

第一天上午

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1 优势及主要功能介绍

3.2 界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白

-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例：筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1 金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以

α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点：柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2（CDK2）与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点：水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟（linux与gromacs使用安装）

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3 体验：如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点：主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1 高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

课程三：机器学习代谢组学

第一天

A1 代谢物及代谢组学的发展与应用

（1）代谢生理功能；

（2）代谢疾病；

（3）非靶向与靶向代谢组学；

（4）空间代谢组学与质谱成像（MSI）；

（5）代谢流与机制研究；

（6）代谢组学与药物和生物标志物。

A2 代谢组学实验流程简介

A3 色谱、质谱硬件原理

（1）色谱分析原理；

（2）色谱的气相、液相和固相；

（3）色谱仪和色谱柱的选择；

（4）质谱分析原理及动画演示；

（5）正、负离子电离模式；

（6）色谱质谱联用技术；

（7） LC-MS 的液相系统

A4 代谢通路及代谢数据库

（1）几种经典代谢通路简介；

（2）能量代谢通路；

（3）三大常见代谢物库：HMDB、METLIN 和 KEGG;

（4）代谢组学原始数据库：Metabolomics Workbench 和Metabolights.

第二天

（1）组织、血液和体液样本的提取流程与注意事项；
（2）用 ACN 抽提代谢物的流程与注意事项；

（3）样本及代谢物的运输与保存问题；

B2 LC-MS 数据质控与搜库

（1） LC-MS 实验过程中 QC 样本的设置方法；

（2） LC-MS 上机过程的数据质控监测和分析；

（3） XCMS 软件数据转换与提峰；

B3 R 软件基础

（1） R 和 Rstudio 的安装；

（2） Rstudio 的界面配置；

（3） R 的基本数据结构和语法；

（4）下载与加载包；

（5）函数调用和 debug；

B4 ggplot2

（1）安装并使用 ggplot2

（2） ggplot2 的画图哲学；

（3） ggplot2 的配色系统；

（4） ggplot2 画组合图和火山图；

第三天

机器学习

C1 无监督式机器学习在代谢组学数据处理中的应用

（1）大数据处理中的降维；

（2） PCA 分析作图；

（3）三种常见的聚类分析：K-means、层次分析与 SOM

（4）热图和 hcluster 图的 R 语言实现；

C2 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析；

(2) 演练与操作；

C3 有监督式机器学习在代谢组学数据处理中的应用

（1）数据用 PCA 降维处理后仍然无法找到差异怎么办？

（2） PLS-DA 找出最可能影响差异的代谢物；

（3） VIP score 和 coef 的意义及选择；

（4）分类算法：支持向量机，随机森林

C4 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读；

(2) 演练与操作；

第四天

D1 代谢组学数据清洗与 R 语言进阶

（1）代谢组学中的 t、fold-change 和响应值；

（2）数据清洗流程；

（3） R 语言 tidyverse

（4） R 语言正则表达式；

（5）代谢组学数据过滤；

（6）代谢组学数据 Scaling 原理与 R 实现；

（7）代谢组学数据的 Normalization；

（8）代谢组学数据清洗演练；

D2 在线代谢组分析网页 Metaboanalyst 操作

（1）用 R 将数据清洗成网页需要的格式；

（2）独立组、配对组和多组的数据格式问题；

（3） Metaboanalyst 的 pipeline 和注意事项；

（4） Metaboanalyst 的结果查看和导出；

（5） Metaboanalyst 的数据编辑；

（6）全流程演练与操作

第五天

E1 机器学习与代谢组学顶刊解读（2-3 篇）；

（1） Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献；

（2） Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献；

（3） 1-2 篇代谢组学与转录组学和蛋白组学结合的文献。

E2 文献数据分析部分复现（1 篇）

（1）文献深度解读；

（2）实操：从原始数据下载到图片复现；

（3）学员实操。

课程三：深度学习基因组学

第一天 深度学习算法介绍

理论内容：

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天 基因组学基础

理论内容：

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1. 安装并介绍深度学习工具包tensorflow, keras，pytorch

2. 在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4．深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天卷积神经网络CNN在基因调控预测中的应用

理论内容

1.Chip-Seq中识别基序特征G4，如DeepG4

2.Chip-Seq中预测DNA甲基化，DeepSEA

3.Chip-Seq中预测转录调控因子结合，DeepSEA

4.DNase-seq中预测染色体亲和性，Basset

5.DNase-seq中预测基因表达eQTL，Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA，预测染色体亲和性Basset，基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk，复现DeepSEA从Chip-Seq中预测DNA甲基化，非编码基因突变

3.复现Basset，从Chip-Seq中预测染色体亲和性

复现Enformer，从Chip-Seq中预测基因表达eQT

第四天深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

理论内容

1.SNP微阵列中预测拷贝数变异CNV，DeepCNV

2.RNA-Seq中预测premiRNA，dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质，DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre，从RNA-Seq中预测premiRNA

复现DeepFactor，从蛋白序列中识别转录调控因子蛋白质

第五天深度学习在识别及疾病表型及生物标志物上的应用

理论内容

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型，XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType，从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE，从TCGA多维数据库中识别乳腺癌亚型

复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天深度学习在预测药物反应机制上的应用

理论部分

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1. 预处理药物分子结构信息

2. 计算药物相似性

3. 在不同数据集上构建self-attention SWnet

4. 评估self-attention SWnet

5. 构建多任务的SWnet

6. 构建单层SWnet

7. 构建带权值层的SWnet

部分案例图片

课程五：机器学习蛋白组学

第一天

机器学习及蛋白组学简介

1.机器学习基本概念介绍

2.常用机器学习模型介绍

3.混淆矩阵

4.ROC曲线

5.主成分分析（PCA）

6.蛋白组学基本概念

R语言简介及实操

1．R语言概述

2．R软件及R包安装

3．R语言语法及数据类型

4．条件语句

5．循环

6．函数

7．常用的机器学习相关R包介绍

第二天

机器学习在蛋白组学数据分析中的应用案例分享

1.利用机器学习鉴定疾病相关蛋白标志物

2.利用机器学习基于蛋白组学数据预测表型

3.利用机器学习基于蛋白组学数据进行分类

4.利用机器学习基于蛋白组学数据构建预后模型

蛋白组学相关数据库介绍

1.Uniport

2.HPA

3.TCPA

4.CPTAC

第三天

零代码工具利用机器学习分析蛋白组学数据

利用PLOS Computational Biology（IF:5分）发表零代码工具，轻松完成差异表达分析，常见统计分析，常见可视化，内置7种机器学习方法，轻松调用。

1.数据导入（两套数据，二分类，多分类）

2.数据可视化（散点图，热图，柱形图，相关性热图，火山图，层次聚类图）

3.缺失值填充

4.数据归一化

5.离群值检测/清理

6.常见统计方法应用（t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析）

7.机器学习方法应用（RF, lasso, SVM等）

第四天

利用机器学习基于蛋白组学数据预测表型，基于蛋白组学数据复现cell中机器学习分析结果

实操内容

1.蛋白组学数据处理，差异表达分析

2.火山图，多分组热图，多组箱型图展示差异表达分析结果

3.构建Random Forest模型

4.重要蛋白筛选

5.绘制ROC曲线

6.独立测试集检测模型表现

利用机器学习鉴定疾病相关蛋白标志物，基于Olink数据，复现影响因子17分文章中，蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果

实操内容

1.读取蛋白表达数据

2.差异蛋白挑选，火山图绘制，箱型图绘制

3.时序蛋白表达数据聚类分析

4.构建随机森林模型

5.挑选重要特征

6.独立测试集进行验证

第五天

利用机器学习基于质谱的蛋白质组学数据，构建肝病相关分类和预后模型，复现Nature Medicine文章中的机器学习，生存分析，预后模型相关的结果。

实操内容

1.鉴定与不同肝病显著相关的蛋白

2.比较22种不同的机器学习分类器，挑选最优算法构建不同肝病的分类模型

3.独立队列验证模型准确性

4.构建预后模型

5.绘制生存曲线和时间依赖的ROC曲线

部分案例图片

授课时间

AIDD人工智能药物发现与设计专题培训班

2023.6.17 -----2023.6.18 全天授课(上午09.00-11.30 下午13.30-17.00)
2023.6.20---2023.6.21晚上授课(晚上19.00-22.00)
2023.6.25全天授课(上午09.00-11.30 下午13.30-17.00)
2023.6.27 -----2023.6.28晚上授课 (晚上19.00-22.00)

CADD计算机辅助药物设计专题培训班

2023.6.10 -----2023.6.11 全天授课(上午09.00-11.30 下午13.30-17.00)

2023.6.13-----2023.6.16晚上授课(晚上19.00-22.00)

2023.6.17-----2023.6.18全天授课(上午09.00-11.30 下午13.30-17.00)

2023.6.19 -----2023.6.20晚上授课 (晚上19.00-22.00)

机器学习与代谢组学培训时间

2023.06.10----2023.06.11全天授课(上午 09.00-11.30 下午 13.30-17.00)

2023.06.13----2023.06.14晚上授课 (晚上 19.00-22.00)

2023.06.17----2023.06.18全天授课(上午 09.00-11.30 下午 13.30-17.00)

深度学习基因组学

2023.06.10----2023.06.11全天授课(上午 09.00-11.30 下午 13.30-17.00)2023.06.12----2023.06.13晚上授课 (晚上 19.00-22.00)2023.06.17----2023.06.18全天授课(上午 09.00-11.30 下午 13.30-17.00)2023.06.19----2023.06.20晚上授课 (晚上 19.00-22.00)

机器学习蛋白组学

2023.07.1----2023.07.2全天授课(上午 09.00-11.30 下午 13.30-17.00)

2023.07.4----2023.07.5晚上授课 (晚上 19.00-22.00)

2023.07.8-----2023.07.9全天授课(上午 09.00-11.30 下午 13.30-17.00)

课程费用

CADD计算机辅助药物设计与AIDD人工智能药物发现与设计与深度学习基因组学课程价格：

公费价：每人每班￥5880元（含报名费、培训费、资料费）

自费价：每人每班￥5480元（含报名费、培训费、资料费）

机器学习与代谢组学与机器学习蛋白组学课程价格：

公费价：每人每班￥4680元（含报名费、培训费、资料费）

自费价：每人每班￥4280元（含报名费、培训费、资料费）

优惠政策

优惠一：两班同报：9880元三班同报：13880元

四班同报：17880元五班同报：20800

优惠二：提前报名缴费学员+转发到朋友圈或者到学术交流群可享受每人300元优惠（仅限15名）

优惠三：报名两班免费赠送一个学习名额（赠送班任选）

优惠四：报名五个培训班免费赠送三个学习名额（赠送班任选）

报名费用可开具正规报销发票及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销

证书：参加培训并通过考试的学员，可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询，可作为能力评价，考核和任职的重要依据。评测证书查询网址：www.miit-icdc.org（自愿申请，须另行缴纳考试费500元/人）

培训福利

报名缴费成功赠送报名班型全套预习视频，课后学习完毕提供全程录像视频回放，针对与培训课程内容进行长期答疑，微信解疑群永不解散，参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班（任意一期都可以）

授课方式

通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，1600余页电子PPT和教程+预习视频开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高

往期学员课程评价

腾讯会议微信解疑群问题实时解答

学员对培训非常认可，而且我们保证二次学习是免费的

往期参会单位

国外院系高校；有来自麻省理工大学、University of Bristol (布里斯托大学)、加州伯克利大学、Osaka University(大版大学）、乔治梅森大学、加州理工大学、曼彻斯特大学、莱斯大学、波士顿大学、德州农工大学、德雷克大学、美国联合大学、普林斯顿大学、斯坦福大学、Imperial College London、 KAUSTuniversity、理海大学、TheUniversityofQueensland、澳大利亚昆士兰大学、耶鲁大学、牛津大学、剑桥大学、匹兹堡大学、悉尼大学、多伦多大学、西雅图华盛顿大学、伦敦大学、杜克大学、东京大学、哥伦比亚大学、康奈尔大学、纽约大学、西北大学、布朗大学、华盛顿大学

国内院系高校；有来自中山大学肿瘤防治中心（中山大学附属肿瘤医院、中山大学肿瘤研究所）、中山大学、北京大学第一医院、中国医学科学院北京协和医院、西北民族大学、西南大学、山东大学、加州伯克利大学、启元实验室、中国人民解放军总医院第一医学中心、河南师范大学、南京工业大学、南方科技大学、南京大学、中国医学科学院基础医学研究所、青海省农林科学院、天津中医药大学第一附属医院、山东大学、黑龙江八一农垦大学、南昌大学第二附属医院、台州市中心医院（台州学院附属医院）、宁波大学附属人民医院、新疆农业大学、北京林业大学、广西医科大学、湖南文理学院、滨州医学院、滨州医学院烟台附属医院、华南师范大学、中国环境科学研究院、云南师范大学、昆明理工大学、湖北医药学院、苏州大学、福州大学、南方医院、南昌大学第二附属医院、深圳市中医院、湖南文理学院、河南科技学院、福建省立医院、中南大学湘雅医院、深圳市中医院、省立同德医院、内蒙古科技大学包头师范学院、乌鲁木齐市疾病预防控制中心、中国林业科学研究院林业研究所、中国农业科学院兰州畜牧与兽药研究所、鲁东大学、河北工程大学、南方医科大学珠江医院、首都医科大学附属北京妇产医院、重庆医科大学附属第二医院、北京普利智诚生物技术有限公司、复旦大学上海医学院、陕西中医药大学附属医院、中国医学科学院血液病医院（中国医学科学院血液学研究所）、滨州康达欣医疗器械有限公司、深圳北京大学香港科技大学医学中心、天津市肿瘤医院、陆军特色医学中心、空军军医大学第一附属医院、江南大学、中国科学院深圳先进技术研究院、中国科学院上海营养与健康研究所、北京阅众时刻文化传媒有限公司、北京慧康健怡医疗器械有限公司、杭州奥明基因科技有限公司、亦欣生物科技无锡有限公司、广州市肖悦生物科技有限公司、张家口泽涵生物科技有限公司、平安科技。感谢对我们培训的认可！还有许多因为时间冲突无法参加。这次我们诚挚邀请您来参加！

报名咨询方式（微信请扫描下方二维码）

联系人：陈老师

联系方式：

QQ：529201149

电话：18339237911（微信同号）

邮箱：chen18339237911@163.com

引用往期参会学员的一句话：

发现真的是脚踏实地的同时需要偶尔仰望星空非常感谢各位对我们培训的认可！祝愿各位心想事成！

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

微信里不发朋友圈的人都在看什么？

Nature重磅：AI药物研发依旧为领域热点，Nature将列为重点热门文章！

介绍

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

微信里不发朋友圈的人都在看什么？

生成图片，分享到微信朋友圈

Nature重磅：AI药物研发依旧为领域热点，Nature将列为重点热门文章！

介绍

您可能也对以下帖子感兴趣