簡介
RNA-seq上游分析是整個RNA-seq數(shù)據(jù)分析流程中至關(guān)重要的起始階段,它主要負(fù)責(zé)對原始測序數(shù)據(jù)進(jìn)行處理和質(zhì)量控制,為后續(xù)的下游分析(如基因表達(dá)定量、差異表達(dá)分析、功能富集分析等)提供可靠的數(shù)據(jù)基礎(chǔ)。
隨著高通量測序技術(shù)的飛速發(fā)展,RNA-seq已成為研究基因表達(dá)調(diào)控、發(fā)現(xiàn)新轉(zhuǎn)錄本、探索疾病分子機(jī)制等方面的強(qiáng)大工具。而上游分析的質(zhì)量直接影響著后續(xù)分析結(jié)果的準(zhǔn)確性和可靠性。在這一階段,我們需要對測序得到的原始數(shù)據(jù)進(jìn)行一系列處理,包括數(shù)據(jù)格式轉(zhuǎn)換、質(zhì)量評估、去除接頭和低質(zhì)量序列等,以確保數(shù)據(jù)的純凈度和有效性。
fq文件包含的信息
fq文件(FastQ文件)是RNA-seq測序產(chǎn)生的原始數(shù)據(jù)文件,它包含了測序得到的核酸序列及其對應(yīng)的質(zhì)量信息,是上游分析的起始數(shù)據(jù)。其每條記錄由四行組成,包含以下關(guān)鍵信息:
第一行以“@”開頭,是序列的標(biāo)識符(ID),包含了測序儀的名稱、運(yùn)行編號、流動池編號、lane號、tile號、x坐標(biāo)、y坐標(biāo)等信息,這些信息可用于追溯測序數(shù)據(jù)的來源和測序過程中的相關(guān)參數(shù)。
第二行是測序得到的核酸序列,由A、T、C、G四種堿基組成,代表了RNA分子上的核苷酸排列順序,是后續(xù)序列比對等分析的核心數(shù)據(jù)。
第三行以“+”開頭,通常是對序列標(biāo)識符的重復(fù),也可能為空,主要起到分隔序列和質(zhì)量信息的作用。
第四行是與第二行序列對應(yīng)的質(zhì)量值字符串,每個字符代表對應(yīng)位置堿基的測序質(zhì)量。質(zhì)量值通常采用Phred編碼,其數(shù)值越高,表示該堿基被正確測定的概率越大。例如,Phred質(zhì)量值為30時,堿基錯誤率約為0.1%;質(zhì)量值為20時,錯誤率約為1%。
LINUX系統(tǒng)下常用的分析軟件和常用指令
在LINUX系統(tǒng)下,有許多常用的RNAseq上游分析軟件,它們各自具有特定的功能和參數(shù)設(shè)置:
1. FastQC:主要用于對原始測序數(shù)據(jù)進(jìn)行質(zhì)量評估。常用參數(shù)包括:
-o:指定輸出結(jié)果的目錄。
-t:設(shè)置運(yùn)行時使用的線程數(shù),可根據(jù)計算機(jī)的性能進(jìn)行調(diào)整,以提高分析速度。
2. Trimmomatic:用于對測序數(shù)據(jù)進(jìn)行質(zhì)量修剪和接頭去除。關(guān)鍵參數(shù)如下:
ILLUMINACLIP:指定接頭序列文件的路徑以及相關(guān)參數(shù),如接頭匹配的最小分值、允許的錯配數(shù)等,用于去除測序過程中引入的接頭序列。
LEADING:設(shè)置去除序列開頭堿基的質(zhì)量閾值,當(dāng)堿基質(zhì)量低于該值時,將被去除。
TRAILING:與LEADING類似,用于去除序列末尾質(zhì)量低于閾值的堿基。
SLIDINGWINDOW:設(shè)置滑動窗口的大小和平均質(zhì)量閾值,當(dāng)窗口內(nèi)的平均質(zhì)量低于閾值時,從該位置開始截斷序列。
MINLEN:指定保留序列的最小長度,短于該長度的序列將被過濾掉。
3. HISAT2:一款高效的序列比對軟件,用于將修剪后的 RNAseq reads 比對到參考基因組上。主要參數(shù)有:
-x:指定參考基因組索引文件的前綴。
-1和-2:分別指定雙端測序數(shù)據(jù)的兩個文件路徑。
-S:指定輸出的 SAM 格式文件路徑。
-p:設(shè)置使用的線程數(shù),以加快比對速度。
--dta:用于生成適合下游轉(zhuǎn)錄本組裝的比對結(jié)果。
4. Bowtie2:也是一款常用的序列比對工具,適用于將短序列比對到參考基因組。常用參數(shù)包括:
-x:指定參考基因組索引文件的前綴。
-1和-2:用于指定雙端測序的兩個文件。
-S:指定輸出的 SAM 格式文件。
-p:設(shè)置線程數(shù),多線程運(yùn)行可提高效率。
--very-sensitive:采用高靈敏度的比對模式,適合對比對準(zhǔn)確性要求較高的場景,但運(yùn)行速度相對較慢。
5. STAR:以快速和高效著稱的RNA-seq比對軟件,尤其在處理大片段基因組和可變剪接方面表現(xiàn)出色。主要參數(shù)有:
--runMode genomeGenerate:用于構(gòu)建參考基因組索引,當(dāng)進(jìn)行索引構(gòu)建時使用。
--genomeDir:指定存儲基因組索引的目錄。
--genomeFastaFiles:指定參考基因組的FASTA文件路徑。
--sjdbGTFfile:指定包含基因結(jié)構(gòu)信息的GTF文件,用于輔助比對和識別剪接位點(diǎn)。
--readFilesIn:指定輸入的測序數(shù)據(jù)文件,雙端數(shù)據(jù)用空格分隔兩個文件。
--outFileNamePrefix:指定輸出文件的前綴。
--runThreadN:設(shè)置運(yùn)行的線程數(shù)。
6. Stringtie:主要用于從比對后的SAM/BAM文件中進(jìn)行轉(zhuǎn)錄本組裝和基因表達(dá)定量。常用參數(shù)如下:
-p:設(shè)置線程數(shù)。
-G:指定參考的GTF注釋文件,用于指導(dǎo)轉(zhuǎn)錄本組裝。
-o:指定輸出的組裝結(jié)果GTF文件。
-A:指定輸出基因表達(dá)量統(tǒng)計文件,包含基因的FPKM等信息。
-e:僅基于參考注釋進(jìn)行定量,不進(jìn)行新轉(zhuǎn)錄本的組裝,可提高速度。
實(shí)踐建議與注意事項(xiàng)
在進(jìn)行RNA-seq上游分析實(shí)踐時,需要注意以下幾點(diǎn):
1. 環(huán)境配置:確保LINUX系統(tǒng)具備足夠的計算資源,如內(nèi)存、CPU核心數(shù)等,以支持分析軟件的運(yùn)行。安裝軟件時,注意軟件版本的兼容性,可參考各軟件官方文檔進(jìn)行正確安裝和配置。
2. 數(shù)據(jù)備份:原始測序數(shù)據(jù)非常珍貴,在分析前務(wù)必進(jìn)行備份,防止數(shù)據(jù)丟失。同時,對于分析過程中產(chǎn)生的重要中間文件和結(jié)果文件,也應(yīng)定期備份。
3. 參數(shù)調(diào)整:根據(jù)實(shí)驗(yàn)?zāi)康?、?shù)據(jù)特點(diǎn)(如測序深度、樣本類型等)合理調(diào)整軟件參數(shù)。例如,對于高準(zhǔn)確性要求的分析,可選擇如Bowtie2的高靈敏度模式,但需考慮運(yùn)行時間成本;對于大數(shù)據(jù)集,適當(dāng)增加線程數(shù)可提高分析效率,但不能超過系統(tǒng)資源限制。
4. 質(zhì)量監(jiān)控:在整個上游分析過程中,持續(xù)監(jiān)控數(shù)據(jù)質(zhì)量。除了使用FastQC進(jìn)行初始質(zhì)量評估外,在數(shù)據(jù)修剪、比對等步驟后,也可通過相關(guān)指標(biāo)(如比對率、錯誤率等)評估分析效果,及時發(fā)現(xiàn)問題并調(diào)整分析策略。
參考文獻(xiàn)
Brown, J., Pirrung, M., & McCue, L. A. (2017). FQC Dashboard: integrates FastQC results into a web-based, interactive, and extensible FASTQ quality control tool. Bioinformatics, 33(19), 3137-3139.
Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, 30(15), 2114-2120.
Kim, D., Langmead, B., & Salzberg, S. L. (2015). HISAT: a fast spliced aligner with low memory requirements. Nature methods, 12(4), 357-360.
Langmead, B., & Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nature methods, 9(4), 357-359.
Dobin, A., Davis, C. A., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., ... & Gingeras, T. R. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics, 29(1), 15-21.
Kovaka, S., Zimin, A. V., Pertea, G. M., Razaghi, R., Salzberg, S. L., & Pertea, M. (2019). Transcriptome assembly from long-read RNA-seq alignments with StringTie2. Genome biology, 20(1), 278.