大阪大学医学部 Python会 (情報医科学研究会)

Now is better than never.

TCGAbiolinksとその使い方

2018-11-11(Sun) - Posted by 淡田 in 技術ブログ    tag:Bioinformatics

Contents

    皆さん初めまして淡田公久と申します。 リレー投稿初週ということで、僕が現在基礎配属で使用していますデータやツールに関してのお話をさせて頂きます。

    TCGA

    TCGAというサイトをご存じでしょうか? TCGAは2006年からアメリカが開始したガンゲノムプロジェクトで、20種類以上の癌腫についての「ゲノム、メチル化異常、遺伝子発現」などの解析データをまとめている大型ゲノムバンクのような役割をしております。

    Home - The Cancer Genome Atlas - Cancer Genome - TCGA

    実際に検索してみると分かりますが、データ数はほんとに膨大です(日本ではここまで大きのがなく、悲しいところ(´;ω;`))

    中には「contorlled」となっており、アクセスできないデータもありますが、多くは「open」となってアクセスできるものがほとんどなので解析などの際に困ることは無いはず。

    TCGAbiolinks

    では実際にそのデータを使ってどう解析するかといったときにどうするか??

    ここで本題のTCGAbiolinksのお話になります。 TCGAbiolinksとは、Rというツール上でTCGAのデータを解析するためのパッケージです。

    Bioconductor - TCGAbiolinks

    こちらにインストールの方法やらが詳しく説明されています。

    先ほども述べた通り、TCGAにはメチル化データや、発現量データ(他にも臨床データなど)があるため、それぞれ解析方法は異なりますが、大枠のworkflowは

    (1) queryという関数でデータを引用
        
    (2) downloadで引用データをダウンロード
        
    (3) データーをprepare
        
    (4) 目的に応じて解析
        
    (5) 結果を画像化
    

    という流れです。 まぁ僕自身もまだこのツールにかんして半人前にもなっていないレベルなのですが(笑)、openソースの癌データをRというフリーツールで解析できるのはおもしろいのではないでしょうか?

    TCGAのデータ解析には他にもsubio platform(マイクロアレイ・NGSの無料解析ソフト | Subio Platform)というものあるようですが、TCGAbiolinksのがメジャーではあるでしょう。

    このbiolinksに付随してelmerというパッケージもあるのでそれについてもお話しできればと思います。

    ありがとうございました。