来自好基友 Chaoli 的供稿支持!!!!

实际需求

有些同学做基因序列比对的时候,有如下图这样展示基因或蛋白序列差异位点的需求。
600

这时候我们一般是将多条基因放入一个 fasta 文件中,然后通过比对软件生成 multiple sequence alignment (MSA) 文件,再筛选出碱基差异位点的序列及碱基差异位点在 MSA 序列中原始位置的索引。

肉眼筛选这些位点比较麻烦并且容易出错,这里给大家提供一个简单的脚本自动提取差异位点及其索引。

MSA 文件一般可以使用MEGA软件比对后导出,或者使用 muscle 在线比对工具导出比对后的fasta格式文件。

脚本下载

https://www.dropbox.com/s/scm8pt4mfsypbtb/extract_diff_sites.exe?dl=0
点击链接,直接下载文件到本地,直接双击打开就可以使用了(仅支持 windows 平台)。
300

200

脚本使用

使用方法也非常简单,双击打开脚本后,按照提示选择比对好的 MSA 文件。
600

点击打开,脚本会自动提取碱基差异位点序列及其索引,弹出如下页面提示操作完成。
500

脚本所在目录会生成两个新文件。
一个是 Different_sites.fas fasta 格式文件。包含所有的碱基差异位点。
600
第二个是 sites_index.txt 文件,包含 Different_sites.fas 文件中碱基位点在原 MSA 文件中的位置索引信息。
600

这样 MSA 基因比对中的碱基差异位点提取就完成了。

RULE2: Treat yourself like someone you are responsible for helping. ——Jordan B. Peterson