Workflow RNA-seq 01

From Pitagora-Galaxy Wiki
Jump to: navigation, search

Main Page >> Workflows >>

概要

このRNA-seqワークフローは、ペアエンドの異なる2つのターゲットを比較します。

転写産物のシークエンス量から遺伝子の発現量を定量化し、配列情報から選択的スプライシングの検出や未知の転写産物を発見する解析手法です。

入力ファイル

  • FASTQ File: 塩基配列とクオリティスコアのテキストファイル(fastqファイル)
    • サンプル1(フォワード側)
    • サンプル1(リバース側)
    • サンプル2(フォワード側)
    • サンプル2(リバース側)
  • アノテーションファイル(gtfファイル)

出力ファイル

  • FASTQCのレポート(html)
  • TopHat2のマッピング情報(txt, bed)
  • TopHat2のマップ済みリード(bam)
  • CufflinksのFPKM(txt, tsv)
  • Cufflinksのトランスクリプト(gtf)
  • Cuffmergeでマージされたトランスクリプト(gtf)
  • Cuffdiffの発現量の統計情報(tsv)

フロー図

テスト方法

  • Download References ツールで Fasta UCSC hg19 および Bowtie2 Index UCSC hg19 をダウンロードします。(初回実行時のみ)
    • 索引作成の元となる Fasta ファイルも必要であることに注意してください。
  • ファイルをヒストリーにダウンロードするためには、左ペインのツールの右横にあるアイコン [Download from URL or upload files from disk] > [Paste/Fetch data]を選択し、URLテキストボックスに以下のURLを入力して [start] をクリックします。
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/adrenal_1.fastq
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/adrenal_2.fastq
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/brain_1.fastq
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/brain_2.fastq
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/gene_annotation.gtf
  • FASTQファイルのファイルフォーマットを fastqsangar に変更します。
  • ワークフローを実行します。
    • [Workflow] > [RNA-seq 01] > [run] をクリックします。
  • [注意] tophat2 はメモリを喰うので、メモリがおおよそ4GB以上ないと「Out of memory」でエラーになります。

補足: リファレンス・ゲノムがピタゴラ・ギャラクシーに用意されていない場合

ピタゴラ・ギャラクシーで用意しているリファレンス・ゲノムはヒトとマウスのみであるため、それ以外のリファレンス・ゲノムは以下の手順で利用します。

  • リファレンス・ゲノム( FASTA 形式、圧縮されたままでも OK)をヒストリーにアップロードします。
  • Tophat2 の実行時に「Use a built in reference genome or own from your history」で「use a genome from your history」を選択します。
  • 「Select the reference genome」という項目が現れるので、アップロードしたリファレンス・ゲノムを指定します。

この場合、Tophat2 の実行時に毎回リファレンス・ゲノムから Bowtie2 インデックスが作成された後、マッピング処理が実行されます。

補足: フルサイズのデータ

  • このワークフローは Galaxy Team のチュートリアルの内容を基にしています。
  • このチュートリアルおよび上記のテストでは chr19 のみに絞ることでデータサイズを小さくしています。フルサイズで実行する場合には次のファイルを使用します。
    • ERR030881 (adrenal) および ERR030882 (brain) -- http://www.ebi.ac.uk/ena/data/view/ERP000546
    • アノテーション
      • iGenomes こちらのhg19をダウンロードおよび展開してGTFファイルを入手
        • /igenome/Homo_sapiens/UCSC/hg19/Annotation/Archives/archive-2013-03-06-11-23-03/Genes/genes.gtf (current) のみを取り出したものがこちら
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_01/genes.gtf