一、FastQC简介
FastQC是由Babraham Institute开发的一款广泛使用的用于高通量测序数据(如RNA-seq、DNA-seq等)质量控制的工具。主要用于检测和评估测序数据的质量。它支持处理 FASTQ 格式的数据,能快速生成测序数据的质量评估报告,帮助用户判断原始数据是否存在质量问题(如低质量序列、接头污染等),为后续分析提供参考。
FastQC是测序数据分析 的第一步,能快速识别数据质量问题。需结合具体实验设计和生物学背景解读报告,必要时配合其他工具(如MultiQC汇总多份报告)进行深入分析。FastQC 主要分析数据的质量分布、序列重复性、GC 含量、序列长度分布、接头污染以及未确定碱基(N)的比例等信息。通过展示这些数据,FastQC 能有效检测测序中可能存在的问题,如测序错误、接头污染或序列偏倚等,确保数据的可靠性。因此,FastQC 成为生物信息学领域中进行测序数据质量控制和预处理的重要工具,为后续的分析工作提供了保障。
官网地址:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
二、FastQC安装方法
下载地址:https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
1. 系统要求
● 支持Windows、Linux、macOS系统
● 需预装Java环境(推荐Java 8或更高版本)
2. macOS 系统安装
a. 从官网下载 .dmg 镜像文件。
b. 双击打开镜像文件,将 FastQC 应用拖拽到目标安装位置。
c. 首次运行时可能因安全限制被阻止,需右键选择「打开」并授权。
d. 若仍被阻止,前往「系统偏好设置 > 安全性与隐私」,手动允许运行。
3. Windows/Linux 系统安装
● 前提条件:
需安装 64 位 Java 运行时环境(JRE),推荐:
○ Oracle JRE
○ AdoptOpenJDK(官网:https://adoptopenjdk.net)
● Linux 额外要求:
Perl 环境(含 FindBin 模块),通常系统已预装。若未安装:
● 安装步骤:
a. 下载 FastQC 的 .zip 文件并解压到目标目录。
b. 无需编译或配置,解压后即可使用。
4.安装示例(Windows系统)
1.安装java运行环境(JRE)
进入官网https://adoptium.net/zh-CN/,点击下载,下载好后,按照默认情况进行安装(如果安装过程出现问题,网上有大量的安装说明文档,此次不再展示)。
安装成功后,在cmd下测试输入‘java -version’,若有内容则安装成功。
2.下载安装fastqc
下载地址:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.zip
下载完成后进行解压,双击“run_fastqc”,进入交互式界面运行。
出现如下界面:点击‘File’,点击“Open”,选择序列文件的位置即可进行分析。
三、关键结果解读
FastQC报告包含12个分析模块,每个模块以“Pass”“Warn”“Fail”三种状态标识结果。以下是关键模块解读:
1. Basic Statistics
● Filename : 文件名,被分析的原始文件名
● File type : 文件类型,表明文件中是否包含实际的碱基呼叫或需要转换为碱基呼叫的色码数据
● Encoding : 测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
● Total Sequences : 输入文本的reads数量(处理的序列总数)。报告了实际值和估计值。目前这两个值将始终相同。将来可能会分析仅子集的序列并估计总数,以加快分析速度,但由于我们发现有问题的序列不均匀地分布在文件中,目前禁用了这一功能。
● Sequence flagged as poor quality : 过滤的序列数,如果在Casava模式下运行,被标记为过滤的序列将从所有分析中移除。这里报告移除的序列数。上述的总序列数不包括这些被过滤的序列,它是用于其余分析的实际使用序列数。
● Sequence length : 测序长度,提供集合中最短和最长序列的长度。如果所有序列长度相同,只报告一个值。
● %GC : 表示整体序列的GC含量,根据不同物种的含量来参照(真核生物基因组的GC含量变化范围相对较小,为30%-50%,而原核生物GC含量的变化范围则相对较大,为20%-75% 。最低的Candidatus Zinderia insecticola 仅有13.5%,最高的Anaeromyxobacter dehalogenans 达到75%)
2. Per Base Sequence Quality
● 横轴为read长度,纵轴为质量得分,Q = -10*log(error P),Q20表示1%的错误率,Q30表示0.1%的错误率;
● 柱状表示该位置所有序列的测序质量的统计,柱状是25%-75%区间质量分布,error bar 是10%-90%区间质量分布,蓝线表示平均数;
● 一般要求所有位置的10%分位数大于20,即最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报告WARN,当任何碱基质量低于5或任何中位数低于20报告FALL。
3. Per Sequence Quality Scores
● 横轴:Q值
● 纵轴:每个Q值对应的read数
● 用来查看碱基质量是否存在普遍过低的情况,绝大部分的碱基的Q值的峰值大于20,可判断序列质量较好,在质量较低的坐标位置出现另一个或多个峰,说明测序数据中有一部分序列质量较差,当峰值小于27(错误率20%)时报WARN,当峰值小于20(错误率1%)时报FALL
4. Per Base Sequence Content
● 每个位置A/T/C/G的百分比。
● 四条线四种颜色代表四种碱基在每个位置的平均含量(一个位置会测很多reads,然后求一个平均)
● 一般来讲,A=T,C=G,但是由于刚开始测序仪状态不稳定,造成前几个碱基有波动。一般不是波动特别大的,像这里cut掉前5bp就好了。另外如果A、T或C、G间出现偏差,只要在1%以内都是可以接受的。
5. Adapter Content
● 内容:接头序列污染比例。
● 处理建议:若污染显著(>5%),需使用Cutadapt或Trimmomatic去除接头。
6. Overrepresented Sequences
● 内容:高频出现的重复序列(可能是污染或高表达序列)。
● 处理建议:比对数据库(如NCBI)确认是否为污染物。
通过本文,我们学习了如何安装和使用#FastQC 工具,从数据输入到报告解读,轻松完成测序数据质量评估。FastQC凭借其简洁的操作和直观的报告,成为#生物信息学分析 的“第一道防线”。掌握这一工具,不仅能提升数据质量,还能为后续分析节省大量时间!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。