森羅2020-JP: 日本語構造化タスク

タスク概要

森羅プロジェクトは2017年にスタートしたリソース構築プロジェクトで、人が読むことを想定して書かれたWikipediaの知識を計算機が扱える形に構造化することを目指し、「協働によるリソース構築（Resource by Collaborative Contribution（RbCC））」という枠組みで、評価型タスクとリソース構築を同時に進めています。

日本語構造化タスクは森羅プロジェクトで2018年から実施している日本語Wikipediaを対象とした情報抽出タスクで、今回が3回目となります。

記事の対象（エンティティ）について多様な語彙や形式で記述された情報を、対象の分類毎に定められた共通の属性情報（例えば人名の場合は「国籍」や「地位職業」等）に整理した上で取り出すタスクです。

初回から取り組んでいる人物、市区町村、企業、化合物、空港と、今回2回目となる場所、組織に関する属性情報に加え、イベント、施設に関する属性情報の抽出にも挑戦します。

参加システムの出力結果を統合することで、大規模な構造化データを構築することを目指しています。多くの方のご参加をお待ちしています。

タスク詳細

本タスクでは、人が読むことを想定して書かれたWikipediaの記事を機械可読な形に変換（構造化）するために、統一的なエンティティの分類と各分類に定義された属性のセットを利用して、記事の対象のエンティティの属性情報を整理して取り出します。

エンティティの分類としては名前、数値表現、時間表現の共通語彙を定義した「拡張固有表現（ENE）」のカテゴリ（例：人名）、属性としてはENEの各カテゴリで定められた属性（例：国籍、地位職業など）を利用して、記事から対象のカテゴリの属性（例：地位職業）とその値に相当する文字列（例：俳優）を抽出します。

記事内の文字列の重複による曖昧性を避けるため、文字列の抽出は記事中での出現位置を指定する形で行います。

タスクの流れ

タスクの大まかな流れは以下の通りです。

（1）データダウンロード: 配布データをダウンロードして下さい。
（2）システム開発: 学習データを使って属性抽出システムを開発して下さい。
（3）システムの結果の提出: ターゲットデータ（テストデータ含む）に対するシステムの実行結果を提出して下さい。
（4）評価結果返却: 提出されたシステムの実行結果のうち、テストデータの部分を評価し、返却します。
（5）最終報告会: 開発されたシステムの概要や手法の特徴、評価結果の分析等を報告して下さい。

スケジュール

データリリース、参加募集開始　2020年5月11日
オンライン質問会 2020年5月18日（16:00-17:00）
中間説明会2020年7月31日（10:00-11:00）
結果提出〆切2020年11月10日（※当初予定の2020年9月10日から変更）

評価結果返却は実行結果提出から２週間程度、最終報告会は12月頃の予定です。
今後の予定（評価結果返却、最終報告会）は決まり次第、ホームページ、メーリングリスト（参加者用）、Slack等でお知らせします。
参加を検討される方はメーリングリスト（参加者用）、Slackにぜひご参加下さい。

対象カテゴリ

以下に本タスクで対象とする拡張固有表現（ENE）階層（ver.8.1）のカテゴリの概略を示します。
詳細なリストはこちらをご覧下さい。

グループ（カテゴリ数）	説明
JP-5（５）	森羅2018-JPから継続して対象としている5カテゴリ（人名、市区町村名、企業名、化合物名、空港名）
Location（地名）（14）	大陸地域名、国名、国内地域名、山地名、河川名等
Organization（組織名）（14）	政府組織名、国際組織名、競技団体名、公演組織名等
Event（イベント名）(12）	競技会名、選挙名、戦争名、地震名等
Facility（施設名）（33）	学校名、鉄道駅名、商業施設名、競技施設名等

配布データ

タスクに必要なデータとして、Wikipediaの記事(*1)から属性情報を抽出した学習データと属性抽出対象のターゲットデータを配布します。
(*1: JP-5、地名、組織名は2017年11月3日、施設名、イベント名は2019年1月20日。)
上記の他に「森羅2019システム結果」「2019アンサンブル結果」等のデータもご用意しています。
データのダウンロードについてはこちら、フォーマット等の詳細についてはこちらを御覧ください。

結果の提出

ターゲットデータ全体に対するシステムの実行結果を提出していただき、その一部をテストデータとして使用します。
提出方法についてはこちらのページに掲載予定です。

評価

基本はオフセットの完全一致とし、Bool値をもつ属性（総称）についてはBool値もオフセットと同じ重みで採点します。
カテゴリ単位ではPrecision, Recall, F-measureで評価します。
タスクのグループ単位（JP-5、Organization等）では、micro average F1 measure（micro-averaged precisionとmicro-averaged recallの調和平均）で評価します。
森羅2019システム結果、2019アンサンブル結果を使用した場合は別トラックでの評価となります。

前回タスクとの違い

森羅2019-JPタスクとの主な違いは以下の通りです。詳細についてはFAQをご覧ください。

項目	2020-JP	2019-JP
対象カテゴリ	JP5（5カテゴリ） Location（14カテゴリ） Organization（14カテゴリ） Event（12カテゴリ） Facility（33カテゴリ）	JP5（5カテゴリ） JP-30 ・Location（14カテゴリ）・Organization（16カテゴリ）
属性の値	記事中の文字列、Bool値（総称のみ）	記事中の文字列
提供データ	学習データ[JSON] ・オフセット・トークンインデックスターゲットデータ・HTML/PLAIN/(トークナイズ）森羅2019システム結果 2019アンサンブル結果	学習データ[JSON] ・オフセットターゲットデータ・HTML/PLAIN 森羅2018システム結果 2018アンサンブル結果 Wikipedia Cirrus Dump(JSON) Wikipedia2Vecモデルデータ
提出データ	JSON ・オフセット/（トークンインデックス）	JSON ・オフセット
拡張固有表現のバージョン	ENE ver.8.1　（主な変更は施設名、イベント名）	ENE Ver.8.0.0

外部情報の利用

本タスクの実行に使用した上記配布データ以外のデータ、事前学習したモデル等があれば、システムの実行結果の提出時に必ず報告して下さい。

リーダーボード

本タスクのリーダーボードにもぜひご参加ください。

リーダーボード用のアカウント作成についてはリーダーボードのSignupページのSHINRA2020-JPの説明をご覧ください。
リーダーボード投稿用データ(test_data_for_learderbord.zip)はSHINRA2020-JPリーダーボードで公開しています。

FAQ

本タスクに関しご不明な点がありましたら、まず、SHINRA2020-JP: FAQをご覧ください。解決しない場合は連絡先までお問い合わせください。

実行委員

【委員長】
関根聡（理研AIP）

【委員】
乾健太郎（東北大/理研AIP）
岩倉友哉（富士通）
大関洋平（東大）
奥村学（東工大）
小原京子（慶応大）
河原大輔（京大）
木村泰知（小樽商科大）
後藤美知子（理研AIP）
小林隼人（ヤフー）
鈴木正敏（東北大）
隅田飛鳥（理研AIP）
中山功太（筑波大/理研AIP）
野本昌子（理研AIP）
馬場雪乃（筑波大）
松田耕史（理研AIP/東北大）
山田育矢（Studio Ousia/理研AIP）
吉岡真治（北大）
＜以上：理研AIP関係者＞
相澤彰子（NII）
浅原正幸（国研）
荒牧英治（奈良先端大）
安藤まや（LC）
市瀬龍太郎（NII）
宇佐美佑（合同会社宇佐美）
荻野孝野（JSA）
加藤恒昭（東大）
菊井玄一郎（農研機構）
黒橋禎夫（京都大）
古宮嘉那子（茨城大）
榊剛史（ホットリンク）
貞光九月（フューチャーアーキテクト）
佐藤敏紀（LINE）
進藤裕之（奈良先端大）
新納浩幸（茨城大）
鈴木久美（MS）
須藤克仁（奈良先端大）
高村大也（AIRC）
徳永健伸（東工大）
中野幹生（HRI）
西田豊明（福知山公立大）
林良彦（早稲田大）
東中竜一郎（名古屋大）
福本文代（山梨大）
松井邦夫（金沢工大）
宮尾祐介（東大）
村上浩司（楽天）
横野光（富士通研）

メーリングリスト／Slack（参加者用）

[メーリングリスト]　shinra2020-jp-all　参加リンク
[Slack] 森羅：Wikipedia構造化プロジェクト(shinra-project.slack.com)　参加リンク

連絡先

Email（実行委員宛）: shinra2020jp-info （at） googlegroups.com　
Slack: 森羅：Wikipedia構造化プロジェクト(shinra-project.slack.com)

Wikipediaの構造化とは

Wikipediaの膨大な記事は、人が読んで理解することを想定して書かれているため、語彙や記述方法が統一されていません。高度な情報処理のための知識ベースを構築するには、これらの記事の情報を共通の語彙や形式で整理し、機械可読な形に変換しておく必要があります。この機械可読な形式への変換を、森羅プロジェクトでは、構造化と呼んでいます。

構造化を行うためには共通の統制された語彙を使って情報を整理する必要があります。森羅プロジェクトでは、拡張固有表現（ENE）という名前、数値表現、時間表現のオントロジーを利用します。ENEオントロジーでエンティティを分類するための階層的なカテゴリが定義され、各カテゴリのエンティティについて主要な情報を記述するための属性が用意されています。

Wikipediaの構造化は、まず、ENEのカテゴリ（例：人名）で記事を分類しておき、各カテゴリの属性（例：地位職業）の値（属性値）に相当する記述（例：歌手）を記事から取り出す、という二段階で行います。日本語構造化タスクではあらかじめENEカテゴリで分類された記事を対象に、後者の属性情報の抽出を行います。

膨大なWikipediaの記事に対してこのような構造化を人手で行うことは現実的ではありません。このため、森羅プロジェクトでは、評価型ワークショップを行い、自動的に構造化を行う手法を募うとともに、その結果をまとめることで、関係者全員の協働（RbCC）によるリソースの構築を目指しています。