阪医Python会特製 RNA-seq pipeline ver. 1.0 リリース
阪医Python会のbioinformaticsチームの一つの成果として、RNA-seqのパイプラインのv1.0がリリースとなったので記事とさせていただきます。SRR idから遺伝子✕サンプルのテーブルにするまでには意外に大変ですが、それをすべて自動化しました。ダウンロード、詳細等は以下にあります。
https://github.com/yyoshiaki/auto_counttable_maker
なお、以下のイラストはikraのアイコンとなっています。
特徴
今回、自分たちの使いやすさを考えてツールの設計を行いました。他サンプルのファイル名の管理など、煩わしいところをすべて自動化することで、ミスも減らせると思います。
- 準備するのは簡単なCSVファイル(テーブルだけ)で、極力パラメーターを減らした。
- すべてdocker上で動くため、ツールを各々インストールする必要がないし、バージョンに苦しむこともない。
- udockerにも対応しているため、ユーザー権限しかないサーバー上でも実行可能。
- outputはidepに対応。
- もちろんマルチスレッド対応。
使い方
必要なテーブルは
name | SRR or fastq | Layout | condition1 | ... |
---|---|---|---|---|
Treg_LN_1 | SRR5385247 | SE | Treg | ... |
Treg_LN_2 | SRR5385248 | SE | Treg | ... |
のような形式で、前3列が必須です。簡単ですね!データの集め方は、論文についているaccession number等をたどるのでもいいし、新しくなって爆速になったDDBJ Searchもおすすめ。
コマンドはオプションが指定でき、リード数を100000に絞ったテストモードやマルチプロセスにも対応。
Usage: bash MakeCountTable_Illumina_trimgalore_SRR.sh experiment_table.csv spiece [--test, --help, --without-docker, --udocker] [--threads [VALUE]]
args
1.experiment matrix(csv)
2.reference(human or mouse)
Options:
--test test mode(MAX_SPOT_ID=100000).(dafault : False)
-u, --udocker
-w, --without-docker
-t, --threads
-h, --help Show usage.
なお、自前のfastq filesからの実行はv1.1で載せようと思っています。また、出力はscaled TPMを採用。(Soneson, C., Love, M. I. & Robinson, M. D. Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences. F1000Research 4, 1521 (2015).)。
pipelineの構成
- fasterq-dump : シーケンスデータの取得
- fastqc : QC
- trim-galore : トリミング
- salmon : RNA定量
- multiqc : QCログの回収、可視化
- tximport : 遺伝子テーブルの生成
となっています。各ツールの説明は省きますが、今時のツールの選定になっていると思います。
idep
本ツールはidepを意識した設計になっています。idepはRNA-seqの解析をinteractiveに行えるプラットフォームで、Differential expressed genes(DEGs)の検出だけではなく、遺伝子、サンプルのクラスタリング、パスウェイ解析、可視化などが行えます。idepについては以下がとても参考になります。
macでインフォマティクス : インタラクティブなRNA seq解析webアプリケーション iDEP
githubを用いたチーム開発
今回、githubを用いてチーム開発を行いました。githubはエンジニアの間では当たり前のツールで、チームでのソフト開発によく用いられます。bioinformatics界隈でチーム開発を経験できることは意外に少なく、非常にいい経験になりました。
雑多にはなりましたが、阪医Python会bioinformaticsチームの成果をアナウンスさせていただきました。完成までには3ヶ月ほどを要し、各人のアイデアや努力が詰まっております。今後もどんどん開発を進めていこうと思います。また、皆様のissue, Pull Requestもお待ちしております。
Enjoy bioinformatics life!
- 前の記事 : JuliaとPythonと競技プログラミング
- 次の記事 : 必要n数の決定~研究計画~
- 関連記事 :