一、实验目的
- 学会使用NCBI这一常见生物数据库
- 学会使用比对分析工具BLAST分析核酸或氨基酸序列。
二、实验内容
登录NCBI生物信息站点,查找新冠病毒(COVID-19)和其他几个变种的核酸序列,并利用多序列比对工具(ClustalX)观察说明比对结果;也可以先检索到COVID-19的核酸或氨基酸序列,利用FASTA序列比对数据库搜索工具,检索出其他几种变种的序列,即相似度高的序列,然后进行多序列比对。
三、实验步骤
1,新冠原始病株
首先从NCBI数据库中查询新冠病毒原始病株,查询可知,目前使用的新冠病毒参考序列为NC_045512.2,该序列为2020年1月18日第一株公布出来的新型冠状病毒序列。样品来自武汉采集样本,原始 GenBank accession number 为MN908947,refseq 库 accession number 为 NC_045512.2,长度 29903bp,原始数据为SRR10971381。
参考序列网址:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512
2,不同地区代表株
由于目前新冠病毒已发表出来的基因组超过 200 多万个样本,其中 NCBI 可以下载的超过78 万,无法对全部数据进行比对分析,并且其中很多序列差别很小,这里我们只随机挑选一些典型突变株作为演示。按照 WHO 最新命名规则,最早于 2020 年 9 月发现于英国的新冠变种病毒(编号 B.1.1.7)被命名为 Alpha;2020 年 5 月发现于南非的新冠变种病毒(编号 B.1.351 )被命名为 Beta;2020 年 11 月和 4 月发现于巴西的新冠变种病毒(编号分别为 P.1、P.2)分别被命名为 Gamma、Zeta;2020 年 10 月发现于印度的两种新冠变种病毒(编号 B.1.617.2、B.1.617.1)分别被命名为 Delta、Kappa。
WHO 新冠病毒变种株命名规则如下:
https://www.who.int/en/activities/tracking-SARS-CoV-2-variants/
3,查看数据
上述病株id见该网址:
https://www.dxy.cn/bbs/newweb/pc/post/46168526
查询如下:
MN908947(武汉原始病株)
(变种)MZ202314、MZ169911、MZ318159、MZ373479、MZ169912、MW852494、MZ257684、MZ310903、MZ310580
进入NCBI数据库,在搜索框中输入上述id
查看id是否一致,一致则进入该链接
选中GenBank中FASTA(text)项
就会跳转到包含该样本的核酸序列页面,按下ctrl+A即可全选
4,使用BLAST工具进行比对
我们利用NCBI这个网站上的BLAST工具进行新冠病毒核酸全序列的比对工作。(尝试过Clustalx工具,但是全序列有两万九千多碱基对,该工具分析时间过长,且程序会卡住)
选择核酸序列爆破
进入后,将Align two or more sequences选中(默认是选中,没有就勾上)。上下有两个输入框,上面输入原始病株(参考的标本)序列,下面输入几个变种的序列
依次搜索上述id的序列,将原始病株序列粘贴在上方框,九个变种粘贴在下方框(每个粘贴完后换下一行粘贴下一个)
粘贴完后,选择Highly similar…选项,该选项分析的是变种与原始病株的相似性;若需分析不相同序列,请选择More dissimilar…选项。
然后点击下方BLAST,开始分析,得到如下结果
箭头所指即为变种与原始病株的相似度。(相似度计算大概是:用空格填充序列之后,使得该序列与原始序列吻合的碱基对数量占总数量的最大比例)
可以看到,这几个变种与原始病株相似度还是非常高的。都在99.80%以上。按照原始病株的碱基对总数计算,变种的突变碱基对大约在20-50对。
四、实验总结
通过本实验,我们学习了如何在NCBI数据库查询已知id的核酸序列,并以FASTA(text)格式查看数据,以及通过网站自带的BLAST分析工具,对九种新冠病毒变种的序列进行相似度分析。
版权归原作者 看笔记就不错 所有, 如有侵权,请联系我们删除。