Meetup 2016-04

From Pitagora-Galaxy Wiki
Jump to: navigation, search

Main Page >> Events >>

主旨

  1. ツールやワークフローを持ち寄って仮想マシンに加える (図)
    • 実際には、加えるための手順を作って、仮想マシンの管理者と共有する
    • 同時に、Wiki に新しいツールやワークフローの説明を記載する
  2. プロジェクトを改善するためのフィードバックを収集する
    • 解析プラットフォーム管理に役立つ技術ネタを共有する
    • Galaxy 以外のソフトウェアを扱っていく可能性について議論する

スケジュール

  • 日時: 2016年4月22日(金)
  • 場所: 先端研4号館4階セミナールーム
  • 連絡先: 山中 yamanaka [at] genome.rcast.u-tokyo.ac.jp
  • Skype ID:pitagora-network(最新バージョンのSkypeの使用を推奨)
10:00-10:15 今日の作業確認
10:15-18:00 ツールの開発
17:30-18:00 今日のまとめ (Skype 参加可)
18:00-18:30 GWT2016 第1回 実務者ミーティング (Skype 参加可)
18:30-20:30 有識者会議

内容

全体
山中
大田
服部
  • Workflows に MiGAPとMeGAPを追加しました
    • MiGAPはNCBIに-remoteでblastを投げる16sRNA search, Refseq search, TrEMBL searchがソケットエラーで動きません(原因調査中 →job_conf.xmlに<param id="docker_net">bridge</param>を追記で解決)
    • MeGAPは前半のみです(後半はCUDA環境必須なためペンディング)
気になっていること
  • blastコンテナを-remoteつきで実行するとhostnameが解決できずエラー →解決、上述
  • デフォルトで標準エラー出力を出すツールへの対処が不明(ファイルや/dev/nullに飛ばすと、本当のエラーも検出できない)
  • Dockerを使うツールで、ツールのXMLのcommandタグ内に直接実行コマンドを書く(外部スクリプトを呼ばない)ことはできないのか
  • 出力ファイルがバイナリのツール(Jellyfish count)がエラーになった(Jellyfishではテキストで出すオプションをつけて解決したがバイナリでしか出せないツールがでてきたらどうするか)
  • TogoWSでnuccoreのFastaダウンロードは未サポート?
  • ToolShedのアカウントやリポジトリを削除したい(できないっぽい)
鈴木
池田
  • Pitagora on Cent OS 7
    • Galaxy インストレーションのためのfabricファイル作成

現Galaxy対応の変更点

  • 各モジュールのタイトルの変更時は次のファイルを変更
/home/galaxy/galaxy/static/scripts/layout/masthead.js
  • Main のタイトル Galaxy => Pitagora Galaxyへの変更方法がわからない
  • galaxy.serviceの記述
    • 時間切れ
新海
  • bwaまわり
    • bwa→GATKリアライメント→varscanバリアントコールまではローカル環境では動く
    • 公開する為の状況の再確認
  • lastまわり
    • lastal→maf-convert→samtools sort→GATK・・・の流れのうち、samtools sortのところで問題発生中
    • 本来は調達版の自前のsamtools sortを使用するがちゃんと動かない
    • sortプログラムはtool-shedにもあるが、それの出力はGATKを食べてくれない。
      • 中身を見るとRG列がなんかおかしいが、それが原因かどうかははっきりしない。
      • RG列をsedとかでで修正したり、Picardのfixツール(tool-shedのもの)を組み込んだりもしたが、改善しなかった。
    • とりあえず調達版のsortをちゃんと動かす方でまずは考えたい。
    • ちなみにやっぱりlastal本体はメモリが大量に必要な模様。メモリ28G程度ではうまくいかない。
    • また、last用のインデックスの事前準備が必要。
  • gatkリアライメントパイプライン
    • locファイルについては、例えば(tool_shed版の)gatk_beds.locが"/disk/reference/gatk/truseq_exome_targeted_regions.hg19.bed"を参照するようになっており、実データを/disk/reference/gatk/に置かないと実際には動作しないかたちになっている(今は空)。
    • gatk_snps.locやgatk_refgenomes.locについても同様
    • 具体的に必要なファイルのリスト
      • /disk/reference/gatk/truseq_exome_targeted_regions.hg19.bed
      • /disk/reference/gatk/hg19.fa
      • /disk/reference/gatk/00-ALL.vcf
    • ちなみにpicard-mark-duplicatesがパイプラインに含まれており、これは調達版自前のツールとなっている(未tool-shed化)
      • ただし、そもそもtool-shedのpicardにもmarkduplicatesはある。差し替え可能ならこちらで代用すべきかも知れない。もしも差し替えが出来なければこのmark-duplicateをtoolshed化する必要があることになる。要確認。
    • gatkのtool_shed版のGATKRealignerTargetCreator.pyは要修正。
      • 34行目、arg.Jをargs.Jに。
      • ファイル位置:/home/galaxy/shed_tools/testtoolshed.g2.bx.psu.edu/repos/pitagora/gatk_1_6_pitagora/04a1efe6021e/gatk_1_6_pitagora/GATKRealignerTargetCreator.py
    • GATKIndelRealignerについては、/gatk_1_6_pitagora/以下にGATKIndelRealigner.pyは存在するが、ツール一覧には表示されず、パイプラインにも組み入れることも出来ない。GATKIndelRealigner.xmlが存在しない為?
望月
  • スライド作り
    • できた
那須野