@Billy-The-Crescent
2019-07-09T22:14:14.000000Z
字数 10346
阅读 632
生物信息学
计算生物学
Bioinformatics
目录:
生物信息学引论:
生物信息学期刊:
Bioinformatics
BMC Bioinformatics
Pros Computational Biology
What?
- 在计算机上做生命科学研究的学问
Why?
- 生物学数据越来越多,生物大分子的精细观测数据
从局部到总体,从琐碎的数据得到总体的结论
统计物理学
研究解决某一个问题的方法
应用已经发展的方法解决生物学问题
同义突变对生命体也是有影响的,包括蛋白质的表达强度和蛋白质折叠的情况
研究内容分析:
数据库搜索及序列比较
Alignment 双序列比对和多序列比对
高通量测序技术的应用
全基因组测序、目标区域捕获测序、转录组测序、表观遗传、microRNA分析、宏基因组学
辅助药物研发
Ligand and receptor docking
生物信息学常用方法和技术:
- 数学方法
- 运筹学
- 人工智能
- 分子模拟
- 计算机技术
数据库 database:
- 有一批数据构成的有序集合,以一定关系储存在一些结构化的数据表中
三类生物数据库:
Swiss-Prot是Uniprot中经过人工矫正过的质量最高的
蛋白质的平均长度是350+
SWISS-Prot有500w+的序列数量,而Uniprot有>1000w个序列
PDB统计:自2008年以来,没有新的蛋白质折叠模式被发现,也就是说,现在所有新发现的蛋白质和已知的蛋白质都是相似的。
序列决定结构。序列相似性和结构相似性有一定的联系
蛋白比对比核苷酸对比更可取,因为ATCG的序列随机产生概率比20种氨基酸的随机序列产生概率要高得多。
比对方法就是一个最大匹配问题
评估不同氨基酸的相似性
如何序列-序列配对
如何衡量氨基酸差异:
(利用统计学上、进化上的突变的难易程度来评估两个氨基酸的相似性,突变越容易,那么说明两个氨基酸越相似,这样的比较考虑了进化上的复杂性,更加具有生物学意义)。
相比于以结构和化学性质为基础的比较方式,基于统计学的比较方式虽然更难理解,但是更具有生物学意义。
- PAM矩阵(Point Accepted Mutation)
- BLOSUM矩阵(Block Substitution Matrix)
人和黑猩猩同源蛋白比对时,属近缘关系,选择PAM1;人和酵母菌蛋白比对时,属远缘关系,可选择PAM250
PAM矩阵缺点:一旦PAM1的矩阵有误差,那么自乘250后(PAM250)得到的矩阵的误差就会很大。
(PAM100的100表示自乘次数)
(BLOSUM90的90表示选择的蛋白的平均相似度)
BLOSUM矩阵优缺点:优点是符合实际观测结果,因为衡量了在某一个同源程度上氨基酸的相似程度,缺点是不能提供进化信息。
PAMn是计算出来,而BLOSUMn是观测出来的
如何获得最大匹配?
序列联配(alignment)
用表格/数组中计算出来的值而不是用递归重复计算,从而实现一种减少程序负责度的一种方法。(空间换时间)
Needleman-Wunsch算法:
利用动态规划思想,分解序列比对问题。两个氨基酸A,B之间的匹配,无非三种情况:A和B配上了;A和B前面的gap配上了;A和B后面的gap配对上了。
A
A
-
-
A
|
B
-
B
B
-
NW比对方法:
其中,是空位罚分,在这里定义为-8。表示位置i和j的匹配得分,表示i和k的匹配在氨基酸打分矩阵中的得分。
在NW算法表中,向右意味着上面的那个氨基酸对应空格;向下意味着左边的那个氨基酸对应空格。
Result:
Smith-Waterman算法(只关心高度匹配的区域):
局部配对(局部最大匹配):
回溯的时候,从得分最高的单元格开始,回溯到得分为 0 的单元格为止。
其他优化算法
FASTA算法:一种局部比对算法,使用多个氨基酸的word而不是单个aa进行计算;避开表格边缘的计算,而主要集中在表格对角线上的计算。
事先把配对比较好的配对存起来
BLAST算法:一种局部比对算法,也是将序列分隔成word(seed sequence)
BLAST算法详解
牺牲了一定的比对准确度,但是却显著提高了比对速度。
- BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
- BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
- BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
- tBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
- tBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
序列比对工具(Tools):
序列比对结果的解读:
假设A-A得1分,A-B得-1分
AAAA
AAAA
得分4
AAAAAA
AAABAA
得分4
那么两个序列,谁的序列相似性更可靠?
意义:若查询序列为一条随机序列,对于同样的配对空间,有希望找到E条相似性得分为S的序列。m,n为序列长度。
若查询序列为一条随机序列,对于同样的数据库,有希望相似性得分为S的High Scoring Pair (HSP)片段。是搜索空间的大小,和参数与打分系统有关,一般通过Monte Carlo模拟得出。
E值越小,说明这个结果是随机的可能性越小,意义越明确
E < 0.01 可以认定为同源序列;E值介于1和10之间的序列也是一些值得注意的序列。蛋白质序列比对E值上限的默认设置是10.0,核酸序列比对的E值上限的默认设置是2.0,可以根据自己的需要设置E值上限。
同源性和相似性是有本质区别的。同源性表示两条序列有一个共同的进化祖先。
相似性表示两个序列之间相似性的量度。
不能说90%同源,而是说同源或不同源
PSI-BLAST:用于发现关系较远的蛋白质
首先进行传统的BLASTp,得到的结果构建PSSM(位置特异打分矩阵),然后用PSSM去搜索数据库,通过相似序列,为每一个位置分别构建氨基酸打分矩阵(BLOSUM/PAM),然后每一个位置根据其自身的打分矩阵来打分,从而获得序列的最终相似度打分。
每一个位置都构建BLOSUM矩阵需要更大的样本量,没有足够样本量的位置可以通过传统的BLOSUM矩阵填充。
使用PSI-BLAST
需要:
- 滤除“低复杂度”区域
- 提高建立PSSM矩阵的阈值(例如0.05->0.005)
- 肉眼检视每一次PSI-BLAST循环,注意每一个结果
目的:找出一组序列中的保守片段,以便进行结构、功能上的分析。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。
- 手工比对方法
- 同步法:给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。矩阵的维数反映了参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对。
- 步进法
步进法:
a. 先进行两两比对。
b. 构建前导树(通过双序列对比结果评估序列之间的关系)
c. 渐进性比对。按照前导树的顺序进行对比,从关系最近的两条序列开始,不断加入新的序列进行比对。形成空位的原则:once a gap, always a gap (ClustalW)
比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。
Tools:
ClastalW, ClastalX (Windows),
muscle and online version: 1MB max
Clastal Omega: 4MB max
MAFFT and oneline version: 1MB max
当比对序列的相同程度下降时多序列比对结果的准确度也会急剧下降。当相似度<25%的时候尤为明显。
需要使用生物学先验知识去进行人工矫正
构造一个序列的pattern,通过多序列比对结果选择出一条能够代表这个蛋白质家族的一致性序列(若一个位置没有代表氨基酸,就是X;若一致性位点是空位,则标记为g),然后使用这个一致性序列去和目的序列进行比对。
一致性序列的g或x和目的序列残基对上时,打分为0.0;一致性序列的gap和目的序列残基对上时,得分-0.5;一致性序列的g和目的序列的gap对上时,得分0.0;··· (如下)
隐马尔科夫模型(HMM)
MPI
HMMER
每一个位点和其前一个位点存在的概率之间的联系,得到每一个位点出现某个氨基酸的概率。得到了一个蛋白的“模式”。
氨基酸位点的“替换”是一个随机过程
中性漂移学说:进化过程中置换绝大部分是中性或近似中性的突变随机固定的结果。
分子钟理论:不同物种同源大分子的进化速率大体相同,如不同物种的血红蛋白分子的进化速度基本上是每个氨基酸每年替换。分子突变的量是可以通过时间积累的。
分子进化树的构建
构建系统发生树的方法有:
- 距离法
- 最大简约法 (近源序列)
- 最大似然法 (远源序列)
- 贝叶斯推断
距离法:
1. 对要研究的一组物种,根据某种规则,算出两两之间的距离,构造出距离矩阵。
2. 选出距离最近的两个物种A,C,将其他物种当成一个复合物种。
3. 求出A,C和复合物种三者的分支关系。
4. 从复合物种中取出一个最近的展开,然后将AC复合,求出分支关系。
算法缺点:贪心算法,规定了两个物种之间的相似性,而这不一定准。不能保证找到的是最优的树。
进化树的可信度检验:
- The bootstrap
- Delete-half-jackknifing
- Permuting species within characters
头部的进化数据得到的结果应该和身体部分进化数据得到的结果是一致的,并且通过数据截取、干扰来查看算法的稳定性。
bootstrap<70时不可靠,bootstrap>=70时一般认为构建的进化树较为可靠。
分子进化的局限性
- 单个分子代表整个物种的片面性问题
- LGT (Lateral Gene Transfer)问题,水平转移
- Gene Duplication使得难以区分orthologous(并系同源)和paralogous(直系同源)的问题
- 方法本身的问题:无法计算回复突变
利用基因组信息构建进化树?
方法:
1. 基本思想:两个基因组之间共有基因的数量之间的差别,构建差异矩阵。将基因组中基因的特征功能划分为17种特征,即两个基因组之间的差别就是这两个17维向量COG之间的差别。
2. 设对应两个染色体(或基因组)的特征矢量为和。用归一化的为和的欧氏距离来代表两个染色体(或基因组)间的距离。
系统发育树常用软件:
PHYLIP
Mega:需要将比对文件转化为.meg格式
在进行系统发育树分析的时候,一般会人为选择一个物种作为“外群”,以这个“外群”
一级结构:
二级结构:alpha螺旋,beta片层
三级结构:单体
四级结构:多聚体
用RMSD和TMscore衡量三维结构的差别
RMSD的单位是
最终到一个大小的矩阵
Acta Cryst方法:求解一组向量最大的匹配值
RMSD in ,很相似
RMSD in ,相似
RMSD > , 不相似
软件:TMalign
序列
--结构
--功能
历史悠久:超过30年
蛋白质三维结构预测被誉为计算生物学的“圣杯”。
怎样得到折叠好的状态?
能量函数:
- bond length
- bond angle
- dihedral angles
- hydrogen bonds
- van der waals
- electrostatics
搜索算法
- 蒙特卡罗方法
- 遗传算法
- 动态规划
- 宽度/深度优先
- DEE
- 贪婪算法
蛋白质三维结构预测的主要方法
- 同源建模 Homology modeling
- 折叠识别 Fold Recognition/Threading (穿针引线法)
- 从头计算 De novo prediction
相似序列具有相似结构
序列相似性低于70%时不适于用在生物学功能解释上。
30%~40%的序列是准确的,但比对上的序列太短也不适合进行同源建模。
推荐软件: Modeller,SWISS-MODEL
蛋白质的结构近年来越来越多,但是蛋白质的折叠模式却并没有什么变化,即现阶段已经发现了绝大部分的蛋白质折叠模式。
没有单纯利用序列信息,而是利用各种方法(比如二级结构、亲疏水性、PSI BLAST)预测蛋白质的各种属性,利用这些属性进行模板选择,最后执行模型优化和其他的操作。
ITASSER
将蛋白质打碎成很多个片段,然后将这些片段进行预测 (自由能最低),最后利用排列组合将这些片段组装在一起,评估哪个组合的自由能最低。
软件:QUARK
Molecular docking and virtual sifting
预测受体和配体分子形成的复合物结构
分类:
- 蛋白-蛋白分子对接 (口袋不明确)
- 蛋白-小分子的对接 (找口袋 pocket)
蛋白-蛋白对接准确率现在还很低,大约在30%
蛋白-蛋白对接工具:ZDOCK
重要原则:
- 互补性:决定识别过程的选择性
- 预组织性:决定识别过程的结合能力。受体和配体在结合过程中会有变化。
分子对接减少了水分子的熵,因此是一个能量不利的过程,需要分子对接过程提供一个很强的焓。
搜索算法:如何找到最佳的结合位置
- 遗传算法
- 模拟退火
能量函数:如何评估结合强度
- 基于分子力场的方法
- 基于经验的方法
- 基于知识统计的打分函数
- 纯几何学方式
- 从已知数据去发现 (检索同源蛋白已有口袋)
基于几何学方式的方法有缺陷,无法发现形状特殊的口袋。
方法
COACH:综合信息法
分子对接的分类:
- 刚性对接:研究体系的构想不发生变化。
- 柔性对接:研究体系的构象是可以自由变化的。
利用能量函数计算配体和受体结合前后的自由能变化
根据口袋的特征选择配体的构象,进行配体和受体的匹配
名称 | 构象搜索方法 | 结合评价方法 | 速度 |
---|---|---|---|
Flex X | 片段生成法 | 半经验自由能 | 快 |
Glide | 系统搜索 | 半经验自由能 | 一般 |
Gold | 遗传算法 | 半经验自由能 | 快 |
AutoDock | 遗传算法 | 半经验自由能 | 一般 |
Dock | 片段生成法 | 分子力场 | 快 |
ICM-Dock | 随机全局优化 | 半经验自由能 | 快 |
Fred | 系统搜索 | 半经验自由能 | 快 |
以上方法都不包含口袋搜索步骤。
不需要提前提供口袋信息的方法:
CB-DOCK
小分子问题:
蛋白质问题:
对接问题:
分子对接未来解决的问题:
- 溶剂化效应
- 分子的柔性
- 打分函数
乙酰水杨酸 (Aspirin)
筛选到的小分子需要进行实验确定效果,然后进行优化。
药物开发的现状:
超过90%的药物不能通过临床试验而被枪毙
平均一款全新药物的研发耗资超过数亿美元,耗时12年。
生物芯片种类:
- 基因芯片
- 蛋白芯片
- 组织芯片
- 细胞芯片
目的:寻找处理前后表达上调或下调的基因
使用T检验,发现显著差异表达的基因。
考察基因X和基因Y之间表达的相关性:正相关 or 负相关
方法:
Spearman 顺序相关系数
Paerson coefficient 皮尔逊系数
皮尔逊系数的取值为[-1,1],其中值为+1表示完全正相关,0表示无关,而-1表示完全负相关。
K-means聚类
层次聚类
比如:癌症 vs. 正常组织
一个结构化的,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分、分子功能、生物学过程
利用数学模型建立基因的调控网络。
软件:
GEO-NCBI
Array Express-EMBL
有参考基因组 or de novo
常用软件:
功能 | 软件 |
---|---|
识别基因 | GENSCAN,GENOMESCAN |
CpG岛 | CpGPlot |
启动子/转录起始位点 | PromoterScan |
转录终止信号 | POLYAH |
密码子偏好分析 | CodonW |
mRNA剪接位点 | NETGENE2,Spidey |
选择性剪接 | ASTD |
识别基因:(分原核基因和真核基因)
原核和真核基因的差别:
- 原核细胞无细胞核,基因组呈环状折叠在拟合区域;而真核细胞的基因组高度折叠在染色体中,并和蛋白质高度结合。
- 原核基因没有内含子,且常以单顺反子的形式组织;真核基因大多含有数量众多的内含子,且常以多顺反子的形式组织。
- 原核基因的表观遗传修饰很少,基因暴露;而真核基因一般和组蛋白结合,只在少数区域(转录调控区域)暴露。
- 原核细胞的基因具有较高的一致性,而真核细胞中线粒体、叶绿体的基因和染色体的基因结构有较大的不同,包括在密码子的选择上。
- 原核基因有时存在重叠基因的情况,而真核细胞没有。但是真核细胞有可变剪接机制,一段DNA可以经过转录和转录后加工之后变成多种mRNA。
原核基因基本结构识别
一个核酸序列有六种可能的编码方式,正义链3种,反义链3种。
基因思想:
如果能够找到一个比较长的序列,其相应的密码子序列不含终子密码子,则这个序列可能就是编码序列。(即扫描终止密码子)。然后向前找qishimimaz
判断找到的基因的长度是否过短,若小于64bp的则认为不是基因。
两个软件:GeneMark和Glimmer
真核基因基本结构识别——断裂基因结构
基于同源比对的方式:BLASTn/BLASTx
基于序列特征的方法
序列特征信号:
- 转录启动信号
- 起始密码子
- 外显子、剪接位点 (GT-AG法则)
- 密码子偏好性:包括单密码子偏好性和双联密码子的偏好性
- 转录终止信号 (包含polyA序列)
基因组注释
基因功能分类
比较基因组学及其进化分析
建立数据库
软件:MZEF、GeneScan