Meetup 2018-01

From Pitagora-Galaxy Wiki
Jump to: navigation, search

Main Page >> Events >>

主旨

  1. ツールやワークフローを持ち寄って仮想マシンに加える (図)
    • 実際には、加えるための手順を作って、仮想マシンの管理者と共有する
    • 同時に、Wiki に新しいツールやワークフローの説明を記載する
  2. プロジェクトを改善するためのフィードバックを収集する
    • 解析プラットフォーム管理に役立つ技術ネタを共有する
    • Galaxy 以外のソフトウェアを扱っていく可能性について議論する

スケジュール

  • 日時: 2018年1月5日(金)
  • 場所: 情報・システム研究機構 URAステーション 会議室(城山トラストタワー33階 http://ura.rois.ac.jp/aboutus/access/
    • 1階エレベーターホール前で守衛さんに身分証ないし名刺を提示する必要があります。
    • その後、エレベーターで33階へどうぞ。部屋に入れない場合は大田までご連絡ください。
  • 連絡先: 山中 yamanaka [at] genome.rcast.u-tokyo.ac.jp, 大田 t.ohta [at] dbcls.rois.ac.jp
  • Skype ID:pitagora-network(最新バージョンのSkypeの使用を推奨)
10:00-10:15 今日の作業確認
10:15-18:00 ツールの開発
18:00-18:30 今日のまとめ (Skype 参加可)

内容

全体
志波
  • 本家usegalaxy上のデータ整形ツールを自分のGalaxyにインストールしたい
    • インストールしたいツール→完了
      • Join two files
      • Compute
      • Group
        • ToolShed で見つからない、最初からインストールされているようだ
      • Paste two files side by side
        • ToolShed で見つからない、最初からインストールされているようだ
      • Cut columns from a table
      • Replace Text in entire line
  • ワークフローの出力のリネーム
    • https://galaxyproject.org/learn/advanced-workflow/variables/
    • 全てのツールの出力名をリネームすれば、最終出力データセットにワークフローのInputのデータセット名を反映できる
    • Input dataset から接続されている最初のツールをクリックし、Configure Output をクリック
    • Rename datasetの欄に #{xxx}_hoge と入力。使えるxxxは「Valid inputs are: 」に表示される(input1など)
    • このリネーム作業を全ツールで行うと、最終ツールの出力名にワークフローのInputのデータセット名を反映できる
1: Input1.tsv
2: IPNo1.tsv
14: Group on Input1.tsv
15: Group on IPNo1.tsv
16: Join on Input1.tsv, Group on Input1.tsv
17: Join on IPNo1.tsv, Group on IPNo1.tsv
18: Compute on Join on Input1.tsv, Group on Input1.tsv
19: Compute on Join on IPNo1.tsv, Group on IPNo1.tsv
20: Paste on Compute on Join on Input1.tsv, Group on Input1.tsv, Compute on Join on IPNo1.tsv, Group on IPNo1.tsv
21: Compute on Paste on Compute on Join on Input1.tsv, Group on Input1.tsv, Compute on Join on IPNo1.tsv, Group on IPNo1.tsv
22: Compute on Paste on Compute on Join on Input1.tsv, Group on Input1.tsv, Compute on Join on IPNo1.tsv, Group on IPNo1.tsv
23: Compute on Paste on Compute on Join on Input1.tsv, Group on Input1.tsv, Compute on Join on IPNo1.tsv, Group on IPNo1.tsv
24: Compute on Paste on Compute on Join on Input1.tsv, Group on Input1.tsv, Compute on Join on IPNo1.tsv, Group on IPNo1.tsv

山中
  • Galaxy Training Network の Training Material の翻訳を開始します
末竹
  • 人のお金で新たな解析プラットフォームを作成する計画についての議論.
    • CWL を用いた再現性やリコメンドに対応したプラットフォームにする.
    • パブリックデータをベースとするため,OSS 化する.
    • 今月中に作り始める.
大田
池田
  • SQL toolsの修正について
    • ConBio2017の資料作成中に、SQL toolsに次の問題
      • Sqlite3のコラム名として利用できない文字列への対応が必要
        • 例 ヘッダーに"pseudogene.org"というコラムが存在し "."でエラー
        • 例 ヘッダーに"#tax_id"というコラムが存在し "#"でエラー
        • 利用できない文字列を別の文字列で置き換えるしかなかろう...
        • 利用できない文字列を"_"に置き換えて、同じ文字列になるものは数字を付与? ...却って面倒くさい
        • 予約語の置き換え
        • ちゃんとするのは意外と面倒
      • UTF-8を含む文字列についてのエラー
      • pythonのUTF-8 では良くあるやつ
      • UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128)
        • print 周りを全て修正が必要...
新海
  • 作業中のVMで、galaxyが立ち上がらない件
    • mysqlが立ち上がらないというエラー
    • →ディスク容量 fullが原因でした。
      • /dev/mapper/myhost--vg-root 5.6G 5.3G 0 100% /
    • ツールをいくつかインストールしたことでそこの部分の領域を圧迫してしまった模様
    • 使ってないツールを削除したところ起動
  • ある程度ツールはそろった?
    • 手元の環境(職場)でGATK4パイプラインを再検証の上持ってくる(宿題)
  • ジョブランナー形式についてどうするかちょっと相談したけど答えは出ない(目的:普段の仕事に使うことへの検討)
石井
  • CWLのFAQ作成
  • codefestにいってくるので、そこで、CWLなどについて聞いたほうが良いことなど、まとめ。thanks みなさま
丹生
那須野
  • 末竹さん、大田さんとバイオインフォマティクス用パイプライン&データ共有プラットフォーム(?)について議論
  • Singularity を試そうとしたが、時間切れ。 http://singularity.lbl.gov/quickstart
  • CWL 実行時に Docker metrics を取得&蓄積(&分析)するための仕組み、に関する作業に専念
    • Telegraf で metrics 取得 ⇒ Fluentd ログに変換 ⇒ Elasticsearch に蓄積 という流れ。
    • metrics データはうまくいった。 CWL 実行ログデータもいっしょに Elasticsearch に投入したいが、苦戦中。
編集用