TCGAbiolinksとその使い方

2018-11-11(Sun) - Posted by 淡田 in 技術ブログ

Contents

皆さん初めまして淡田公久と申します。リレー投稿初週ということで、僕が現在基礎配属で使用していますデータやツールに関してのお話をさせて頂きます。

TCGA

TCGAというサイトをご存じでしょうか？ TCGAは２００６年からアメリカが開始したガンゲノムプロジェクトで、２０種類以上の癌腫についての「ゲノム、メチル化異常、遺伝子発現」などの解析データをまとめている大型ゲノムバンクのような役割をしております。

実際に検索してみると分かりますが、データ数はほんとに膨大です（日本ではここまで大きのがなく、悲しいところ(´;ω;｀)）

中には「contorlled」となっており、アクセスできないデータもありますが、多くは「open」となってアクセスできるものがほとんどなので解析などの際に困ることは無いはず。

では実際にそのデータを使ってどう解析するかといったときにどうするか？？

ここで本題のTCGAbiolinksのお話になります。 TCGAbiolinksとは、Rというツール上でTCGAのデータを解析するためのパッケージです。

Bioconductor - TCGAbiolinks

こちらにインストールの方法やらが詳しく説明されています。

先ほども述べた通り、TCGAにはメチル化データや、発現量データ（他にも臨床データなど）があるため、それぞれ解析方法は異なりますが、大枠のworkflowは

(1) queryという関数でデータを引用
    ↓
(2) downloadで引用データをダウンロード
    ↓
(3) データーをprepare
    ↓
(4) 目的に応じて解析
    ↓
(5) 結果を画像化

という流れです。まぁ僕自身もまだこのツールにかんして半人前にもなっていないレベルなのですが（笑）、openソースの癌データをRというフリーツールで解析できるのはおもしろいのではないでしょうか？

TCGAのデータ解析には他にもsubio platform（マイクロアレイ・ＮＧＳの無料解析ソフト | Subio Platform）というものあるようですが、TCGAbiolinksのがメジャーではあるでしょう。

このbiolinksに付随してelmerというパッケージもあるのでそれについてもお話しできればと思います。

ありがとうございました。

2025
8/8	[Blog]	CodeQUEEN 2025に参加しました！
2024
10/16	[News]	富本がICPC 2024 World Finalsへ出場
8/16	[Blog]	CodeQUEEN2024
3/4	[Blog]	single cell解析における遺伝子発現量の可視化
2023
10/31	[News]	富本が全国6位：日本最強プログラマー学生選手権決勝
10/27	[News]	非公認団体に復帰のお知らせ
10/23	[Blog]	5年次研究留学 @ ハーバード大学
8/16	[Blog]	MatterGPT: Mattermostで動作するChatGPT連携チャットボット