2011年7月14日 星期四

Tophat-Fusion for Mac

How to run tophat-fusion at Mac OS.
Follow the instruction, I think it's no problem.

*******

Tophat Fusion是進階版本的Tophat
差異是在Fusion point的Align
最近每天一直被我同學吵,抱怨不知道怎麼在Mac OS下執行
我就自己測試了一下,寫出我的執行狀況

硬體、軟體配備:
MacBook Pro Core i5 2.4GHz
8GB RAM
500GB HDD 7200rpm
Mac OS X Snow Leopard 10.6.8

你沒看錯,我真的要在筆電上做這件事。
不過如果可以開始執行,我就會中斷工作了。
我只是要確定Mac OS可以執行無誤。

前置工作:
1. samtools
這是用來處理Sam檔的,sam格式不就是拿來壓縮序列資料?
有把source code在我的機器重新編譯一次。(make的指令)
這樣比較好吧!得到原生的64位元程式。

編譯完成之後,我有複製到/usr/bin 裡面。
這樣以後直接在命令列打samtools就可以執行了。

2. bowtie
Alignment比對的工具,開發者有提供編譯好的版本
我自己好奇,也在OS X下編譯看看。
沒有任何問題,大概不用一分鐘就編譯完了。


原始資料:
1.HG19
這是原始的序列資料,可以在這裡下載
下載完成後解壓縮,把所有的fa檔案cat成一個hg19.fa即可

2.Bowtie Index
針對HG19的Bowtie索引,自己建立太慢了。
直接下載官方網站的就好,大概2.7GB。
主要是用bowtie-build這個東西建立的。
慢的原因:電腦記憶體有限。
自己建索引也許最後會因為記憶體不足而失敗。

3.範例檔案
Tophat-Fusion說明書裡面示範的檔案
是MCF7的RNA序列,這裡可以下載

Tophat-Fusion:
下載Binary檔案之後直接執行,應該沒問題。
我所謂的沒問題,是指帶出指令的提示畫面。
如果你要直接跑測試範例,要準備的東西其實不少。
他們網頁上也有跟你講了,慢慢抓那好幾GB的檔案。
有哪些檔案要準備?上面的部份自己看一下。

現在要講的是怎麼放這些檔案。
首先把編譯好的blowtie執行檔案,都放到tophat-fusion根目錄。

有三的執行檔,最重要的是bowtie。
其實只要這就夠了,只是我比較懶,全部放。
如果有其他兩個,之後要是你沒放hg19.fa。
他會幫你透過索引檔案還原回去。

然後,建一個資料夾同樣在這個根目錄下。
主要是放關於hg19的索引還有序列原始檔。
資料夾裡面大概就是這樣的情形。


好了之後,就可以開始跑測試的指令了。
Tophat-Fusion的說明檔案有講到。指令是:
tophat-fusion -o tophat_MCF7 -p 8 --allow-indels --no-coverage-search -r 0 --mate-std-dev 80 --fusion-min-dist 100000 --fusion-anchor-length 13 /path/to/h_sapiens/bowtie_index SRR064286_1.fastq SRR064286_2.fastq

你直接貼上是不能跑的!有些地方自己要會變通。
看到了吧!主要是bowtie的索引位置。
那兩個SRR的範例檔案,範例是直接放在tophat-fusion的根目錄。
其他關於處理器核心數(-p)等等的參數這裡不討論。
給大家看看我執行時的終端機畫面。


大致上就是先檢查資料夾結構。
檢查索引、參考序列、Bowtie、Samtools有沒有安裝好
然後開始簡單的QC,看看序列的長短、格式
完成之後就開始「耗資源」的計算工作。
包含Mapping那些事情,有沒有在跑,其實看活動管理員就知道。
就是top的指令,Mac OS下我喜歡用Activity Monitor。

看到吃記憶體的狀況,我相信它有在跑無誤。
整台MBP好像快要爆炸了,基本上就是這樣。
希望用Mac OS的人可以試看看。
Linux版?除非我有用到我才會在這做筆記分享。

當我寫完這篇時,Tophat-Fusion還在Beta階段。
以後預估還有不小的變動。

*******

參考資料:

Bowtie網頁
Tophat網頁
Tophat-Fusion網頁

沒有留言: