【生信工具】Samtools 安装与使用 | “十年以后,工具难免沦为朋友”

来自:比较好的东西    更新日期:早些时候
~ Description | 简介

由于二代测序中普遍采用短读长(50~150bp)的测序策略,在后续分析流程中需要使用比对软件将reads片段匹配到参考基因组中,从而产生比对/匹配文件,进而用于后续流程的分析。

Samtools是一个用于处理SAM/BAM(SAM的二进制格式,用于压缩空间)格式的比对文件的工具,它能够输入和输出SAM(sequence alignment/map:序列比对)格式的文件,对其进行排序、合并、建立索引等处理。Samtools于2009年由Li Heng 发表在期刊BIOINFORMATICS上,被广泛地应用并整合在二代测序分析流程中,至今已超过2w+的引用率。

Installation | 安装

由于从官方的github上下载和安装的方式较为繁琐,并且相关的路径和依赖环境问题很容易报错,这里强烈建议使用conda的方式进行安装【还不清楚conda的请见 安装conda】。

安装成功后,在终端输入 samtools ,出现如下界面后,表示安装成功。

Function & Command | 功能与命令(常用)

(1)faidx :index/extract FASTA

本命令对参考基因组(如hg19等)的fasta文件建立索引文件,生成的文件以.fai后缀结尾。

(2)sort: sort alignment file

本命令对bam文件中的序列进行排序,默认下是按序列在fasta文件中的顺序(即header)和序列从左往右的位点排序。

(3)merge: merge sorted alignments

本命令将多个排好序的bam比对文件进行合并,产生一个排好序的bam输出文件(合并后的文件不需要再进行sort),这个文件含有所有的输入记录,并且保留了他们原来的顺序。

(4)index:index alignment

本命令对bam文件建立索引并产生后缀为.bai的文件,用于快速的随机处理。很多后续分析的过程需要有bai文件的存在,特别是显示序列比对情况下,比如samtool的tview命令等。

(5) view:SAM<->BAM<->CRAM conversion

(6)depth:compute the depth

本命令对bam文件中的每个碱基位点的测序深度进行统计,并输出到标准输出。

(7)mpileup:multi-way pileup

本命令用于对bam文件进行处理,生成mpileup, VCF或BCF文件,再使用bcftools或varscan2进行SNP和Indel变异位点的检测(耗时较长,且灵敏度并不高,不建议使用)。

(8) fastq/a :converts a BAM to a FASTQ/A

本命令将bam文件转换为fastq或fasta格式。

Summary | 总结


【生信工具】Samtools 安装与使用 | “十年以后,工具难免沦为朋友”视频

相关评论:
  • 18479837342生信格式之vcf格式
    刘虾于http:\/\/www.360doc.com\/content\/18\/1213\/11\/52645714_801492183.shtml 2、The Variant Call Format (VCF) Version 4.2 Specification https:\/\/github.com\/samtools\/hts-specs 3、VCF格式的学习及对VCF文件的统计 https:\/\/www.jianshu.com\/p\/38f734ae47f5 PS:部分图片来自网上,侵删~

  • 18479837342snakemake4RNAseq—搭建标准自动化转录组分析流程
    刘虾于首先,本文着重介绍了snakemake4RNAseq脚本的使用方法,它基于Snakemake构建,适合各类生信项目的高效分析。建议在开始前,确保你的工作目录结构如图所示,并准备所需的软件,如fastp、hisat2等。其中,fastp、hisat2和samtools等可以通过配置环境文件自动调用,而RunFeatureCounts和trinityrnaseq则需要手动安装。...

  • 18479837342新的ngs流程该如何学习之m6A学习大纲
    刘虾于利用软件如samtools、sambamba、picard等,去除低质量比对和重复读取,提高数据质量。在进行m6A修饰的生信分析时,鉴定m6A修饰区域并检测差异修饰,使用软件如exomePeak、MeTPeak、MeDiff等。注释差异peak,分析其在基因元件上的分布,利用ChIPpeakAnno、ChIPseeker等工具进行可视化和关联基因功能的富集分析。此外,...

  • 18479837342如何学好生物信息学?
    刘虾于算法,以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦, SAMtools、BWA的作者Heng Li都有在这里出现。[RNA-Seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。如果你是生物背景的,那么计算机方面的知识需要补一下:...

  • 相关主题精彩

    版权声明:本网站为非赢利性站点,内容来自于网络投稿和网络,若有相关事宜,请联系管理员

    Copyright © 喜物网