去る9月2日から7日まで,BioHackathon 2012が開催されました. 今年のBioHackathonのテーマは,セマンティックWeb技術をもとにしたアプリケーション開発とLinked Dataの構築とのことで,その時の様子を,DBCLSの川本祥子先生からご紹介頂きます.

BioHackathon(バイオハッカソン)はその名前の表すとおりバイオ系のハッカソン(*1)です。ライフサイエンス統合データベースセンター(DBCLS)主催による国際開発会議として2008年にスタートし、2010年からはJSTのバイオサイエンスデータベースセンター(NBDC)とともに、国内外の技術者、研究者の参加協力により続けられてきました(*2)(*3)。5回目となる今年のBioHackathon 2012のテーマは、セマンティックWeb技術をもとにしたアプリケーション開発とLinked Dataの構築です。ちょうど年一度のお祭り「おわら風の盆」でにぎわう富山県にて、9月2日~7日の約一週間、海外からの参加者24人を含む総勢78人の参加により開催されました。その内容について簡単にご紹介いたします。



ところで、どうしてバイオ分野でハッカソンやセマンティックウェブなの?と思われる方もいらっしゃるかもしれません。バイオの分野では、特に今世紀に入ってからですが、遺伝子・ゲノムを中心にデータの爆発的な増加が問題になっていました。その中で、私の所属するDBCLSでは、文部科学省の統合データベースというプロジェクトにおいて、データの格納場所であるデータベースの問題に様々な角度から取り組んできていました。データのオープン化とともに、大量かつ多種多様なデータを統合的に利用するにはどのようにすればよいのか。これまでのサービス開発やハッカソンでの議論を通じ、セマンティックWeb技術とRDF形式を利用したデータ統合を目指すことになったのです(*4)。



そこで、今回のハッカソンには、セマンティックWebとアプリケーション開発において、生命科学への応用を目指している研究者・技術者が集まり、様々なテーマに取り組むことになりました。内容を簡単に紹介しますと、(1)生命科学分野に特化したRDFアプリケーション開発とデータのRDF化、(2)オントロジー構築やマッピングと関連技術開発、(3)テキストマイニング技術開発、(4)SPARQLエンドポイントのクオリティ評価、(5)トリプルストアの実証実験や分散検索の性能評価、以上5つの大きなテーマで開発が進められました。このときのディスカッションや進捗は期間中からすべて、github上のwikiにまとめられて公開されていますので、さらに詳しい内容をご覧になりたい方はそちらをご参照下さい(*5)。


LODではおなじみの The Linking Open Data cloud diagram の中で生命科学の占める割合はとても大きいものです。蛋白質のデータベースUniProtのように本格的にセマンティックWeb技術によって運用されているものもあります。しかし実際に意味のある統合利用のためには、まだまだ本格的にRDF化されたDBはほとんど無く、オントロジーの整備も十分ではありません。その上、差し迫った医学生物学の課題に対するアプリケーション開発を求められている状況は、それにたずさわる者としては苦しい面もありますが、バイオハッカソンが世界的な技術と人の交流の場となって、これからも良い成果を出して行けることと思います。



今回は、近くのコンビニまで徒歩1時間以上という環境で、まさに寝食を共にする合宿でしたが、会期中にはエクスカーションの時間を設けて、海外からの参加者を中心に、立山と世界遺産の五箇山を訪ね、ハックの疲れを立山の自然と日本の文化で癒すことができました。開催にあたっては、お世話になりました富山県のみなさま、ハッカソン会場となりましたインテック大山研修センターのみなさま、本当にありがとうございました。 *1: ハッカソンはHackとMarathonを合わせた言葉 *2: Katayama T., et. al. The 2nd DBCLS BioHackathon: interoperable bioinformatics Web services for integrated applications. J. Biomed. Semantics, Aug 2011 (DOI: 10.1186/2041-1480-2-4) *3: Katayama T., et. al. The DBCLS BioHackathon: standardization and interoperability for bioinformatics web services and workflows. J. Biomed. Semantics, Aug 2010 (DOI: 10.1186/2041-1480-1-8) *4: 山口敦子 片山俊明, データベース統合利用基盤としてのセマンティックウェブ技術, 細胞工学, vol.30, no.11, pp.1210-1215, 2011 *5: バイオハッカソンWiki https://github.com/dbcls/bh12/wiki


情報・システム研究機構ライフサイエンス統合データベースセンター

川本祥子


コメント欄を読み込み中