森羅2019-JP:日本語構造化タスク

 

森羅2019-JPタスクは、Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的とした「森羅プロジェクト」の一つのタスクです。評価型ワークショップと構造化されたリソースの構築を同時に行うというスキーム(「協働によるリソース構築 : Resource by Collaborative Contribution」)で、2019年度に開催致しました。

 

森羅2019-JP:日本語Wikipedia構造化タスク

森羅2019-JPタスクは日本語Wikipediaの構造化を行うタスクです。構造化は、固有表現のオントロジーである「拡張固有表現(ENE)」に分類した日本語Wikipediaの記事から、その拡張固有表現で定義されている属性情報を抽出するタスクです。2019では35カテゴリーを対象としています。評価型ワークショップを開催すること、多数のシステムの参加を募り、その出力結果を統合することで構造化データを構築することを目標としています。

Wikipediaの構造化とは?

Wikipediaの膨大な記事は、人間が読むために作成されているため、機械可読な形式になっていません。大規模な機械可読な知識ベースを構築するにあたって、これらの記事を機械可読な形に変換する必要があります。これを森羅プロジェクトでは、構造化と呼んでいます。

構造化は、ENEカテゴリに分類された記事中から、それぞれそのENEカテゴリに定義された属性に対応する値を見つけ出すことによって行われます。

このような構造化を、Wikipediaの持つ記事全てに対して、人手で行うことは現実的ではありません。このため、森羅プロジェクトでは、評価型ワークショップを行い、自動的に構造化を行う手法を募うとともに、その結果をまとめることで、関係者全員の協働(RbCC)によるリソースの構築を目指しています。


    目次

      タスク詳細

      2019年度タスクでは、ENEのうち35種類のカテゴリーを対象として、構造化に取り組みました。各カテゴリーについて、

      • そのカテゴリーに分類される記事のHTMLファイルとHTMLファイルからHTMLタグ情報を除去したPLAINテキストファイル
      • そのカテゴリーに分類された項目のうち、少数(150〜900項目)について、人手でアノテーションを行ったトレーニングデータ
      • その他構造化に有用と思われる関連データ

      を参加者に配布し、全HTMLまたはPLAINテキストについて、構造化に挑戦して頂きました。

      また、以下のような参加条件を設定いたしました。

      • どのカテゴリーに挑戦するかは参加者が選択できる
      • 提出結果は部分的なものでも構わない
      • 結果提出時に簡単な手法概要の提出と、最終報告回での発表を行っていただく(匿名の場合は免除)

       

      対象カテゴリー

      対象カテゴリーは、その規模や特徴から、JP-5カテゴリーとJP-30カテゴリーに分類しました。

       

      JP-5カテゴリー:

      カテゴリ名: 人名、企業名、市区町村名、空港名、化合物名

      特徴:カテゴリに分類される項目数が比較的多い。このため、個別のカテゴリごとに別々なパッケージとしてデータを配布。2018年度タスクと同じ対象カテゴリー。

       

      JP-30カテゴリー:

      地名関係 14カテゴリ(カテゴリ名: GPE_その他, 都道府県州郡名, 国名, 大陸地域名, 国内地域名, 地名_その他, 温泉名, 地形名_その他, 山地名, 島名, 河川名, 湖沼名, 海洋名, 湾名)

      組織名関係 16カテゴリ(カテゴリ名: 組織名その他, 国際組織名, 公演組織名, 家系名, 民族名_その他,国籍名, 競技団体名, 競技リーグ名,競技連盟名, 非営利団体名, 企業グループ名, 政治的組織名_その他, 政府組織名, 政党名, 内閣名, 軍隊名)

      特徴:ENE中間カテゴリーの、”地名”または”組織名”の以下に分類される、比較的規模の小さいカテゴリー。地名関係のものと組織名関係のものでそれぞれ別々にまとめてパッケージしたデータを配布。

      カテゴリー定義:

      各カテゴリー・属性の定義は、拡張固有表現バージョン8.0.0に準拠します。

      データ詳細

      配布されているデータの詳細については、こちらを御覧ください。

      配布されているデータのダウンロードについては、こちらから。

      データ提出

      森羅2019-JP タスクデータ提出はこちらから。

       

        森羅2018-JPタスクからの変更点

        • アノテーションタスクに変更:

        属性値の抽出に関して、2018年は記事から記載されている文字列を抽出することを課題としましたが、この課題では、同じ文字列が複数記事内にあった場合、どの文字列を正解とみなしたのかがわからないため、曖昧性解消が正しく行われていない可能性がありました。

        このため、2019年度タスクでは、実際の記事本文に対して、正解と思われる箇所にアノテーションを行う、アノテーションタスクとしました。

         

         

        ・JP-30の追加:

         

        上述の通り、JP-30という名前で、”地名”または”組織名”以下の30カテゴリーを対象として追加しました。

         

           

          開催スケジュール

           

           

          参加者コミュニティ

           

          • メーリングリスト(Google グループ)
            • 主に実行委員からのアナウンスのために利用します.どなたでもご参加いただけます.
          • Slackワークスペース
            • 参加者間/実行委員とのインタラクティブなコミュニケーションの場としてご用意いたしました.どなたでもご参加いただけます.
            • (2019/6/17にURLの誤りを修正しました.それ以前にご参加頂いた方はこちらから改めてご参加いただけますようお願いいたします.)

           

          実行委員

           

          【委員長】関根 聡

           

          【委員】 乾健太郎(東北大)岩倉友哉(富士通連携)大関洋平(早稲田大)奥村学(東工大)小原京子(慶応大)河原大輔(京大)木村泰知(小樽商科大)後藤美知子(AIP)小林暁雄(AIP)小林隼人(Yahoo!)鈴木正敏(東北大)馬場雪乃(筑波大)松田耕史(東北大)吉岡真治(北大)<以上:AIP関係者>
          相澤彰子(NII)浅原正幸(国研)荒牧英治(奈良先端大)安藤まや(LC)市瀬龍太郎(NII)宇佐美佑(合同会社宇佐美)荻野孝野(JSA)加藤恒昭(東大)菊井玄一郎(岡山県立大)黒橋禎夫(京大)古宮嘉那子(茨城大)榊剛史(ホットリンク)貞光九月(フューチャーアーキテクト)佐藤敏紀(LINE)進藤裕之(奈良先端大)新納浩幸(茨城大)鈴木久美(MS)須藤克仁(奈良先端大)高村大也(AIRC)徳永健伸(東工大)中野幹生(HRI)西田豊明(京大)林良彦(早稲田大)東中竜一郎(NTT)福本文代(山梨大)松井邦夫(金沢工大)宮尾祐介(NII)村上浩司(楽天)山田育矢(Studio Ousia)横野光(富士通研)