Meetup 2018-02

From Pitagora-Galaxy Wiki
Jump to: navigation, search

Main Page >> Events >>

主旨

  1. ツールやワークフローを持ち寄って仮想マシンに加える (図)
    • 実際には、加えるための手順を作って、仮想マシンの管理者と共有する
    • 同時に、Wiki に新しいツールやワークフローの説明を記載する
  2. プロジェクトを改善するためのフィードバックを収集する
    • 解析プラットフォーム管理に役立つ技術ネタを共有する
    • Galaxy 以外のソフトウェアを扱っていく可能性について議論する

スケジュール

  • 日時: 2018年2月7日(水)10:00 〜 19:00
  • 場所: 理研 革新知能統合研究センター(日本橋)会議室5
  • 連絡先: 山中 ryota.yamanaka [at] oracle.com, 大田 t.ohta [at] dbcls.rois.ac.jp
  • Skype ID:pitagora-network(最新バージョンのSkypeの使用を推奨)
10:00-10:15 今日の作業確認
10:15-18:00 ツールの開発
18:00-18:30 今日のまとめ (Skype 参加可)

内容

全体
志波
  • Galaxyで初めて本番用のデータ整形をした(報告)
    • ChIP-seqのリード深度データのノーマライズ
      • ChIP / Input の正規化したリード深度データの比をbed形式で出力
    • Join, Compute, Group, Paste, awk などを組み合わせて
    • 前回のミートアップで取り組んだワークフローの出力のリネームはやめた
      • 名前が長くなりすぎる、入力データごとに新規ヒストリーに出力することで解決
  • QIIME 2
    • QIIME2 forum でのGalaxy実装議論 QIIME2 in Galaxy platform
      • 本家の開発チームでは予定はないようだ
      • プラグインごとのラッパーXMLを作成するのが大変
      • プラグインのソースからXMLを自動生成できればいいが
      • コマンドラインツールの q2cli が各ラッパーを読み込んでコマンドを生成
    • 石井さんに紹介頂いたargparse2toolを調べてみる
      • transparently build CWL and Galaxy XML tool definitions for any script that uses argparse
      • argparse で引数を取るツールであれば、argparseを乗っ取ってXMLを生成してくれる
      • 呼びたいQIIME2がCLI構築にargparseではなくClickを使っていないのでこのツールでは無理そう
      • このツールはClickに対応gxargparse
    • QIIME2のCLIではPluginでの引数をJSONに出力
浅井
  • training-materialのイントロダクションの翻訳をやっていました(終わりませんでした)
  • GitHub のウェブ上での編集は非効率なのでエディタを使う
    • Atom がいい?
  • GitHub に Markdown で編集しているが、日本語だと崩れてしまうことがある
    • 日本語だと崩れてしまう例:
      • 入れ子にされている箇条書き
      • 箇条書き以外でも日本語に直すと体裁が崩れる場合がある
    • 暫定対処:
      • Galaxy のサイトでレンダリングすれば大丈夫かもしれないが、やはり GitHub でも見られる方がいい
      • 日本語で崩れてしまう書き方はしないようにする(レイアウトを多少変更する)
  • どうやって内容を確認するか検討
    • 全て翻訳する(ドラフト)
    • 山中さんと一緒に内容確認
    • Meetup で皆さんにハンズオンの内容を紹介
    • 必要に応じて PR ベースで直してもらう
  • 翻訳の文体を「~だ」「~である」のようにするか、ですます調にするか。
    • フレンドリーな感じがでるので現状はですます調
末竹
  • CWL を利用したプラットフォーム開発。
  • azure のインスタンスを立てて管理する役割の API server を立てた。
  • VM を立てる際の VM の中身を Docker Image ではなく Azure VM カスタムイメージを使うことにした。
  • Docker と CWL が動く Azure VM カスタムイメージ作成した。
  • API サーバー経由で,Azure cli で Azure VM カスタムイメージから VM を立てて,ssh 接続した。
  • 使い捨てで削除することを考えると,リソースグループを分けたほうがいいのかもしれない
池田
  • Google Colaboratory

https://colab.research.google.com/notebooks/welcome.ipynb

  • Google spread sheetの作成・編集が可能
  • GPUを利用した演算の実行が可能
  • Galaxyで一般統計解析...
  • ステッカーを作ろう...
  • ワークフロー研究会参加するか?(2/26 10:00- 理研AIP)
那須野
  • Galaxyに登録済みのWorkflowを(ある目的で)自動変換するための Galaxyツール の実装・検証をやってました。
    • BioBlend の API で、 get_workflows(), export_workflow_dict(), import_workflow_dict() を使って実現できることを確認。
    • ツールXMLで、入力項目として workflow name を指定できるように記述。(欲を言えば登録済みのものから選択できるようにしたい)
    • Galaxy Web にログイン済みの状態から実行するにもかかわらず API Key を指定しなければならないのは違和感があるが、現状は仕方ないか。
丹生
  • cwl-inspectorを Python で書き換えるための下調べ
    • 現在は Ruby 製
      • 課題: schema-salad-tool に Python 用の CWL パーサーを吐き出す機能があるが、その恩恵を受けられない
        • 現在は YAML + KIAI (KIAI を捨てたい)
    • `$ schema-salad-tool --codegen python CWL.yml > parser.py` でパーサー用のコードを出力できる
    • `import parser` 後に `cwl = parser.load_document('foobar.cwl')` で CWL のオブジェクトを取得できる
    • cwltool には与えられた CWL のパラメータなどを表示する機能がある
      • cwl-inspector にもあるが、実装は KIAI (捨てたい)
      • cwl2argparse という、それらしいツールを発見した
        • ツールを実行すると、ツールの引数に与えた CWL をパースする関数が書かれたファイルを出力する (ファイル名は指定できない)
        • 最終更新が一年前
          • cwltool などとの乖離が不安材料
      • cwltool 内の、CWL のパラメータを解析して argparse を返す部分をライブラリ化してほしい
  • ワークフローエンジンの実装作業
    • SRX (九州大学の小林先生が提案しているシステム) を使って実装中
      • SRX: 並列・分散処理が書きやすいグルー言語 (雑な説明)
石井


鈴木
   > install.packages("Plasmidprofiler")
   > library(Plasmidprofiler)
   > plot_heatmap(report)
山中
  • 浅井さんとトレーニング資料翻訳の方針を議論しました
  • 先週、千葉大で エピゲノム解析セミナー でどのように Galaxy を使っているか聞いてきました
落合
  • 来週の出張のためのポスターをつくった
新海
  • GATK4のテストの準備をひたすらやってました
    • GATK3とコマンドのオプションが微妙に異なる
      • 以前はアウトプットが小文字の-oだったのが大文字の-Oだったりとかイミフな変化も(いや、意図は分かるんだけど)
    • PrintReadsについては、GATK PrintReadsはあるけど、BQSRのテーブル導入にはそれじゃなくてApplyBQSRを使う
    • そこまで修正してもvcfのインデックスエラー
      • 以前に比べてなんか厳しいっぽい
      • contigディクショナリ修正の為にpicard UpdateVcfSequenceDictionaryを試して…、など
  • Google Colaboratoryを池田さんに教わる すごい
大田
  • 末竹さんと CWL on Cloud to compute public SRA なシステムの相談
    • システムを minimum components から末竹さんが実装する
    • 実行時メトリクス収集+ワークフロー/サンプルメタデータの収集と検索の系をおおた/intercloudチームで協力してやる
    • 論文出します + BOSCに出したいね
  • Jupyter on Galaxy main server を色々試す
    • python だとヒストリとのデータのやりとりのための関数が用意されているがそれ以外のカーネルだとそれがない
    • 思ってたより Galaxy/Jupyter 間のデータのやり取りができるので、がんがん使っていきたい
      • いっそワークフロー組まずにbash書いてnotebookで以下略
コピペ用