从基因聊起(4)
什么是共线性
- 主要是用来描述同一染色体上基因的位置关系;
- 指由同一祖先型分化而来的不同物种间基因的类型以及相对顺序的保守性(如下图);
- 或者理解为 基因的同源性 + 基因的排列顺序。
这里我认为有必要做一个细微的概念上区分,基于基因水平的共线性 和 全基因组共线性。因为这里进行分析用的数据不相同,用来解释结果的程度或方向不一样。
比如常用的 JCVI 软件,是基于编码蛋白基因间的相互比对,确定对应关系,进行跨物种之间共线性比较分析。
对于同一个物种的不同基因组组装结果评估,我常用 minimap2 或 Mummer 进行全基因组序列比对(注意,不是比对基因),再用 pafCoordsDotPlotly.R。参考 dotPlotly github 上项目。
同线性和共线性
共线性:synteny, 基因数量保守性;
同线性:colinearity,基因数量及顺序的保守性。
但现在有一些文献用共线性 (synteny) 来描述同线性 (colinearity) 和同源性 (homeology)。synteny 在文献中出现频率更高一些。
微共线性和宏共线性
姑且直翻,微共线性为 microsynteny,宏共线性为 macrosynteny。
根据 genomics and comparative genomics 网站来源的解释,微共线性 microsynteny 与上文 同线性 colinearity 语义相近,而 宏共线性 macrosynteny 与上文 共线性 synteny 语义相近。
这里粘贴一些在文献中与对应单词描述相对应的图,供比较。
一点经验:与高等脊椎动物不同,在无脊椎动物中经历频繁的染色体内重排事件,有时想通过 microsynteny 或者 colinearity 找目标基因上下游基因的话,可能找不到。参考文献来源文昌鱼基因组,章鱼和鱿鱼基因组,扇贝基因组,后生动物染色体进化等文献。
共线性分析能些什么
共线性分析能够检测出物种进化中基因组内重排和复制事件,针对基因组水平的碱基替换速率以及插入、缺失事件进行计算,有助于完成祖先基因组的重建。 — 引用来源华大海洋新添三项软件著作权报道。
基因组水平的碱基替换速率
如果密码子的某个位点上任何核苷酸都编码同样的氨基酸,则称这个位点为四重简并位点。参考来源熊荣川老师的博客。
例如甘氨酸密码子(GGA, GGG, GGC, GGU)的第三个位点就是一个4倍简并位点,因为这个位点上所有的核苷酸替换(无论是A、G、U、C)都是同义的,即编码同一个氨基酸。只有某些密码子的第三个位点可能是4倍简并位点。常用的 Fourfold degenerate site (4dTV) 值代表了第三位密码子的替换率。
共线性区段所包含的基因对的4dTV值可反映物种在进化史中的物种相对分化事件以及全基因组复制事件。如下图,来源黄瓜基因组。
一般分析过程中会将 Ka/Ks 和 4DTv 合并用于分析基因组的复制。(Ka: 非同义替换 Ks: 同义替换)。比如一串红基因组的进化分析,很漂亮的一张图。