9月, 2012
技術コラム第4回:BioHackathon2012 in 富山 開催報告
去る9月2日から7日まで,BioHackathon 2012が開催されました.
今年のBioHackathonのテーマは,セマンティックWeb技術をもとにしたアプリケーション開発とLinked Dataの構築とのことで,その時の様子を,DBCLSの川本祥子先生からご紹介頂きます.
BioHackathon(バイオハッカソン)はその名前の表すとおりバイオ系のハッカソン(*1)です。ライフサイエンス統合データベースセンター(DBCLS)主催による国際開発会議として2008年にスタートし、2010年からはJSTのバイオサイエンスデータベースセンター(NBDC)とともに、国内外の技術者、研究者の参加協力により続けられてきました(*2)(*3)。5回目となる今年のBioHackathon 2012のテーマは、セマンティックWeb技術をもとにしたアプリケーション開発とLinked Dataの構築です。ちょうど年一度のお祭り「おわら風の盆」でにぎわう富山県にて、9月2日~7日の約一週間、海外からの参加者24人を含む総勢78人の参加により開催されました。その内容について簡単にご紹介いたします。
ところで、どうしてバイオ分野でハッカソンやセマンティックウェブなの?と思われる方もいらっしゃるかもしれません。バイオの分野では、特に今世紀に入ってからですが、遺伝子・ゲノムを中心にデータの爆発的な増加が問題になっていました。その中で、私の所属するDBCLSでは、文部科学省の統合データベースというプロジェクトにおいて、データの格納場所であるデータベースの問題に様々な角度から取り組んできていました。データのオープン化とともに、大量かつ多種多様なデータを統合的に利用するにはどのようにすればよいのか。これまでのサービス開発やハッカソンでの議論を通じ、セマンティックWeb技術とRDF形式を利用したデータ統合を目指すことになったのです(*4)。
そこで、今回のハッカソンには、セマンティックWebとアプリケーション開発において、生命科学への応用を目指している研究者・技術者が集まり、様々なテーマに取り組むことになりました。内容を簡単に紹介しますと、(1)生命科学分野に特化したRDFアプリケーション開発とデータのRDF化、(2)オントロジー構築やマッピングと関連技術開発、(3)テキストマイニング技術開発、(4)SPARQLエンドポイントのクオリティ評価、(5)トリプルストアの実証実験や分散検索の性能評価、以上5つの大きなテーマで開発が進められました。このときのディスカッションや進捗は期間中からすべて、github上のwikiにまとめられて公開されていますので、さらに詳しい内容をご覧になりたい方はそちらをご参照下さい(*5)。
LODではおなじみの The Linking Open Data cloud diagram の中で生命科学の占める割合はとても大きいものです。蛋白質のデータベースUniProtのように本格的にセマンティックWeb技術によって運用されているものもあります。しかし実際に意味のある統合利用のためには、まだまだ本格的にRDF化されたDBはほとんど無く、オントロジーの整備も十分ではありません。その上、差し迫った医学生物学の課題に対するアプリケーション開発を求められている状況は、それにたずさわる者としては苦しい面もありますが、バイオハッカソンが世界的な技術と人の交流の場となって、これからも良い成果を出して行けることと思います。
今回は、近くのコンビニまで徒歩1時間以上という環境で、まさに寝食を共にする合宿でしたが、会期中にはエクスカーションの時間を設けて、海外からの参加者を中心に、立山と世界遺産の五箇山を訪ね、ハックの疲れを立山の自然と日本の文化で癒すことができました。開催にあたっては、お世話になりました富山県のみなさま、ハッカソン会場となりましたインテック大山研修センターのみなさま、本当にありがとうございました。
*1: ハッカソンはHackとMarathonを合わせた言葉
*2: Katayama T., et. al. The 2nd DBCLS BioHackathon: interoperable bioinformatics Web services for integrated applications. J. Biomed. Semantics, Aug 2011 (DOI: 10.1186/2041-1480-2-4)
*3: Katayama T., et. al. The DBCLS BioHackathon: standardization and interoperability for bioinformatics web services and workflows. J. Biomed. Semantics, Aug 2010 (DOI: 10.1186/2041-1480-1-8)
*4: 山口敦子 片山俊明, データベース統合利用基盤としてのセマンティックウェブ技術, 細胞工学, vol.30, no.11, pp.1210-1215, 2011
*5: バイオハッカソンWiki https://github.com/dbcls/bh12/wiki
情報・システム研究機構ライフサイエンス統合データベースセンター
川本祥子
LODチャレンジ紹介記事が人工知能学会誌に掲載されました
LODチャレンジの紹介記事が人工知能学会誌2012年9月号に掲載されました.実行委員長の萩野先生,事務局長の乙守さん,実行委員の佐藤さん,長野さんが,昨年度LODチャレンジの開催経緯や応募作品を振り返り,今後の日本におけるLinked Open Dataの普及促進に向けた展望をまとめ,解説記事として執筆したものです.応募作品から見える”日本らしさ”や”特徴”の分析のほか,Linked Open Dataに関するコンテスト開催の課題について言及しています.本記事が掲載されている会誌は,オーム社の直販サイトから購入できます.ぜひご覧ください.
書誌情報はこちらです.会誌を購入される場合や,文献等で引用される場合にご利用下さい.
乙守信行, 長野伸一, 佐藤宏之, 萩野達也: Linked Open Data チャレンジ Japan 2011を振り返って, 人工知能学会誌, vol. 27, no.5, pp.518-526, 2012.
なお,アプリケーション部門最優秀賞作品「LinkData.jp」の表記の一部が誤って「LinkedData.jp」と掲載されておりました.誤った表記をご報告申し上げると共に,この場にて正しい表記へと訂正いたします.関係者の皆さまには深くお詫び申し上げます.
第2回LODチャレンジデー開催報告
当日の様子です.
白松先生による基調講演です.
年岡先生,藤本さんによるご発表です.
ハンズオンの様子です.
ハンズオンで名古屋市のデータセット作りに取り組んだ成果です.CityData.jp のサイトはこちら.
担当幹事