森羅2018-JP:日本語構造化タスク

日本語Wikipedia構造化タスク

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報を、分類されたWikipedia記事にアノテーションすることで、計算機利用可能な構造化を目指しています。

構造化は2段階のステップにわけられ、プロジェクト内ではこれらに対応する2つのタスクが設定されています。

  1. Wikipedia項目のENEへの分類タスク
  2. 分類済み項目の記事内容から、分類先のENEカテゴリ属性に対応する属性値を抽出するタスク

森羅2018-JPタスクは、2018年度に開催された森羅プロジェクトで最初のタスクであり、上記の2番目のタスクに該当します。

森羅プロジェクトは、属性情報のWikipedia記事へのアノテーションについて、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する、RbCCの考えに基づくプロジェクトとなっています。


タスク情報

タスク詳細

2018年度タスクでは、ENEのうち5種類のカテゴリーを対象として、構造化に取り組みました。各カテゴリーについて、

  • そのカテゴリーに分類される記事の一覧情報
  • 記事HTML、Wikipediaダンプデータ、Cirrus Dumpデータ
  • そのカテゴリーに分類された項目のうち、少数(600項目)について、人手で属性値抽出を行ったトレーニングデータ
  • その他構造化に有用と思われる関連データ

を参加者に配布し、HTMLまたは各種ダンプデータから属性値抽出を行って頂きました。

また、以下のような参加条件を設定いたしました。

  • どのカテゴリーに挑戦するかは参加者が選択できる
  • 提出結果は部分的なものでも構わない
  • 結果提出時に簡単な手法概要の提出と、最終報告回での発表を行っていただく

対象カテゴリー

  • 人名(Person): 最も規模の大きいカテゴリー。約30万項目が分類されている
  • 市区町村名(City):比較的規模の大きいカテゴリー。約5万項目が分類。
  • 企業名(Company):比較的規模の大きいカテゴリー。約4万項目が分類。
  • 化合物名(Chemical-Compound):比較的規模の小さいカテゴリー。約6千項目が分類。
  • 空港名(Airport):比較的規模の小さいカテゴリー。約2千項目が分類。

参加のための留意点

参加に当たり留意頂く必要のある事柄につきまして、こちらを御覧ください。

 

開催スケジュール

 

 

実行委員

 

【委員長】 関根 聡(AIP)
【委員】乾健太郎(東北大)岩倉友哉(富士通連携)奥村学(東工大)小原京子(慶応大)河原大輔(京大)木村泰知(小樽商科大)小林暁雄(AIP)小林隼人(Yahoo!)鈴木正敏(東北大)馬場雪乃(京大)松田耕史(東北大)吉岡真治(北大)大関洋平(早稲田大)<以上:AIP関係者>相澤彰子(NII)浅原正幸(国研)荒牧英治(奈良先端大)安藤まや(LC)市瀬龍太郎(NII)宇佐美佑(合同会社宇佐美)荻野孝野(JSA)加藤恒昭(東大)菊井玄一郎(岡山県立大)黒橋禎夫(京大)古宮嘉那子(茨城大)榊剛史(ホットリンク)貞光九月(フューチャーアーキテクト)佐藤敏紀(LINE)進藤裕之(奈良先端大)新納浩幸(茨城大)鈴木久美(MS)須藤克仁(奈良先端大)高村大也(AIRC)徳永健伸(東工大)中野幹生(HRI)西田豊明(京大)林良彦(早稲田大)東中竜一郎(NTT)福本文代(山梨大)松井邦夫(金沢工大)宮尾祐介(NII)村上浩司(楽天)山田育矢(Studio Ousia)横野光(富士通研)