日本語Wikipediaリンクタスク
・森羅2021の最終報告会(12月20日)にご参加いただき、ありがとうございました。資料を最終報告会ページに掲載していますので、どうぞご覧ください。(2021/12/24)
・テストデータ正解を公開します。こちらからダウンロードしてください。(2021/11/15)
・テストデータを公開します。こちらからダウンロードしてください。(2021/9/10)
本タスクは、Wikipediaページの属性値を、該当するWikipediaページに紐づけるタスクです。対象の属性値は与えられます。例えば、以下の例で、島崎藤村の「作品名」という属性として抽出されている「嵐」を、その本のWikipediaページに紐づけます。(*1)
開催スケジュール
- 2021/3 データ公開
- 2021/4/22 キックオフミーティング & リーダーボード運用開始
- 2021/7/5 中間報告会
- 2021/9/10 評価データの公開
- 2021/9/30 実行結果の提出
- 2021/10/31 評価結果の返却
- 2021/12/20 最終報告会
目次
森羅プロジェクトの紹介
森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報をWikipedia記事にアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。
構造化は3段階のステップにわけられます。
-
-
- Wikipedia項目のENEへの分類
(例:「島崎藤村」ページを「人名」に分類) - ENEで定義された属性に対応する属性値を抽出
(例:「人名」の「作品」という属性に対応する「嵐」を属性値として抽出) - 属性値を、それに対応するWikipediaページに紐づけ
(例:属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ)
- Wikipedia項目のENEへの分類
-
森羅2021-LinkJPタスクは、上記の3番目のタスクに該当します。
森羅プロジェクトは、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する「Resource by Collaborative Contribution(協働による知識構築)」の考えに基づくプロジェクトです。
タスク紹介ビデオ (YouTube)@キックオフミーティング(2021/4/22)
- 0:00~ 森羅プロジェクト概要:[slide]
- 18:00~ 定義説明:[slide]
- 29:30~ 評価方法・入出力フォーマット・Baselineシステム: [slide]
- 44:45~ リーダーボード:[slide]
- 55:45~ コミュニティー、スケジュール、質疑応答
- 1:07:03~ 招待講演「エンティティエンベディングの学習とその活用」 山田育矢様(株)Studio Ousia [slide]
森羅2021-LinkJP 中間報告会 (2021年7月5日)ビデオ・資料
ビデオ [YouTube](約69分)
- 0:00 タスク説明(宇佐美実行委員) [資料]
- 4:43 ベースライン(属性値リンク)手法説明(宇佐美実行委員) [資料]
- 13:57 文字列ベースシステムと分析(野本実行委員) [資料]
- 30:53 開発システムの紹介(奈良先端科学技術大学院大学 氏家翔吾様) [資料]
- 48:40 質疑
- 1:04:59 関根委員長より
公開データ/コード
公開データ/コードは以下の通りです。
- サンプルデータ(7カテゴリーx50件)(2021/4/28版)
- こちらからダウンロードできます。このデータはフォーマットやタスクをご理解いただくことが目的で、機械学習用のトレーニングデータとしては小さいかもしれません。(9MB。入力、出力ファイルおよび対象のWikipediaページ)
- トレーニングデータはこちらでは、作成しません。機械学習のトレーニング向けには、例えば、Wikipediaに元々ついているリンクなどを利用して下さい。この創意工夫も今回のタスクの一部と致します。
- リンク先のWikipediaデータ(2021/3/11版)
- こちらからダウンロードできます(下記の2つのデータの内容は同一です。適する方をご利用ください。html形式も準備が出来次第公開予定です)
- WikiDump(17GB。SQL用の元データ)
- Cirrus Search用データ(9GB。text形式のリンク対象先Wikipediaデータ)
- こちらからダウンロードできます(下記の2つのデータの内容は同一です。適する方をご利用ください。html形式も準備が出来次第公開予定です)
- 評価データ
- ベースライン
- Wikilinks jp (Wikipediaリンクベース) (2021/5/7版)
- Wikipedia ページの属性値部分のリンクを用いたベースラインのコードです。
- Wikilinks jp (Wikipediaリンクベース) (2021/5/7版)
- スコアラー
- LinkJP Scorer
- 評価用のスコアラーです。
- LinkJP Scorer
リーダーボード
リーダーボードをご用意しております。
https://www.nlp.ecei.tohoku.ac.jp/projects/AIP-LB/task/shinra2021-linkjp
タスク詳細
本タスクは、Wikipediaページの属性値を該当するWikipediaページに紐づけるタスクです。対象の属性値は与えられます。例えば、島崎藤村の「作品」という属性として抽出されている「嵐」を、その作品のWikipediaページに紐づけます。対象ページがないと判断した際には、その属性値に対する情報は出力ファイルに含めないでください。
対象
ENEの内7種類のカテゴリーの数値表現、時間表現、異表記などを除く下記の属性を対象とします。
(属性定義書 ダウンロードはこちら)
-
-
- 原則的に一つの属性値に対して意味的に一致する一つのWikipediaページを紐付けます。
- 稀にテキストの文脈から曖昧性が解消できず、複数のWikipediaページが正解となる場合がありまが、この場合も、いずれか一つのWikipediaページを紐付けてください。(いずれかの正解が紐付けられれば正答とします。)
例)「【マルタ】で会議が開催された」
候補1:国名「マルタ共和国」
候補2:島名「マルタ島」 - 下記の特例を除いて、見出し語自身には紐付けしません。
- 属性値が見出し語の別名
- 属性値が見出し語の合併前の地名、組織名
- 「拡張固有表現定義書」の「数値表現」「時間表現」「別名以外の異表記など」は今回のタスクの対象外です。
-
2種類のTask
以下の2種類のTaskがあります。
紐付けの対象ページは両Taskとも共通で、後述のリンクの種類(完全一致、準一致)のいずれかに該当するものです。
Task | 説明 |
---|---|
Task1:属性値とWikipediaページの紐付け | 属性値(テキスト)とWikipediaページの紐付けを行います。(参加必須) |
Task2:リンクの種類の分類 | Task1(Wikipediaページへの紐付け)に加えて、リンクの種類の分類も行います。(参加任意) |
リンクの種類
リンクの種類についての概略を紹介します。詳細は下記の森羅2021-LinkJP定義説明をご覧ください。
分類 | 説明 | 属性値例 | Wikipediaページ例 | |
---|---|---|---|---|
完全一致 | 意味的に完全に一致 | アメリカ | アメリカ合衆国 | |
準一致 | Later Name | 後の名称である | 旭硝子 | AGC |
Part-of | 含まれている(*2) | 東京女子大学現代教養学部 | 東京女子大学 | |
Derivation-of | 形態違いである 形態・・・文字、映像、舞台等 |
真夏の夜の夢 (※文脈は公演名) |
夏の夜の夢(小説) |
(*2):属性値がWikipediaページの一部を成しており、且つ、ページ内に属性値の記述がある、の意。
- 完全一致を優先し、完全一致に該当しない場合は準一致のリンクの種類に分類します。
- 準一致のリンクの種類は複数該当する場合があります。
- 準一致でリンク先の候補が複数ある場合、優先すべきページに注意してください。
- Part-ofは、意味的に最も近いページを優先してください。
例えば、属性値が「東京都渋谷区の一部」の場合は「東京都」より「渋谷区」のページを優先します。 - Later Nameは、属性値の記述があり、かつ、属性値から最も近いページを優先してください。
例えば属性値「衾村」のページはなく、合併の変遷(例:衾村→碑衾町→目黒区)に関わる「碑衾町」「目黒区」に記述がある場合、属性値「衾村」に最も近い「碑衾町」のページを優先します。
- Part-ofは、意味的に最も近いページを優先してください。
その他のルール
1.意味に基準を置く
例えば、「中国」とあっても、それが「中華人民共和国」を意味する場合には「中国」というWikipediaページ(中国の歴史的変遷が書かれているページ)ではなく、「中華人民共和国」のWikipediaページに紐づける
2.属性「別名」「異表記」などの扱い
下記の属性は今回のタスクの対象外にする。属性:読み、異表記、本名、正式名称、IATAコード、ICAOコード、CAS番号、化学式、示性式
ただし、「別名」は対象とし、一般的には見出し語のページへのリンクとなるが、意味的に一致する他のページが存在する場合はそちらにも紐づける。
3.「曖昧さ回避」のページ
リンク先が「曖昧さ回避」の場合は不採用です。意味的に一致するページのリンクに紐づけます。対象のWikipeidaページがない場合には、何も紐づけないのが正解です。
4.リダイレクト(転送)ページ
リダイレクトが存在する場合には、リダイレクト元ではなくリダイレクト先のページに紐づける。(例えば、「讀賣新聞」は「読売新聞」にリダイレクトされているが、その場合には、「読売新聞」のページがリンク先とする)
入出力フォーマット
入力 [JSON](下記のデータをお渡しします。offsetは2つの形式のWikipediaデータの属性値の位置を表します)
下記のデータは、「南千住町」の「所在地」という属性の値である「東京都荒川区」のリンク先を探す課題のデータです。
-
-
- 「南千住町」はENEカテゴリー1.5.1.1(市区町村名)に分類されており、その「所在地」属性に関するデータです。
- 「東京都荒川区」は「南千住町」のWikipediaページ内の該当オフセットにある文字列です。
-
以下の例では見やすさのために実際は1行のデータを複数行で示しています。
-
{
"page_id": "1182358",
"title": "南千住町",
"attribute": "所在地",
"html_offset": {
"start": {
"line_id": 37,
"offset": 61
},
"end": {
"line_id": 37,
"offset": 132
},
"text": "東京都</a><a href=\"/index.php/%E8%8D%92%E5%B7%9D%E5%8C%BA\" title=\"荒川区\">荒川区"
},
"text_offset": {
"start": {
"line_id": 37,
"offset": 0
},
"end": {
"line_id": 37,
"offset": 6
},
"text": "東京都荒川区"
},
"ENE": "1.5.1.1"
}
出力 [JSON](上記の入力に対して提出していただくシステム出力です)
上記の課題において、「東京都荒川区」という文字列と意味的に一致するリンク先が「荒川区(pageid=18986)」というタイトルで示されるWikipediaページである、ということが出力されています。
{
"page_id": "1182358",
"attribute": "所在地",
"html_offset": {
"start": {
"line_id": 37,
"offset": 61
},
"end": {
"line_id": 37,
"offset": 132
}
},
"ENE": "1.5.1.1",
"link_page_id": "18986",
"link_type": {
"later_name": false,
"part_of": false,
"derivation_of": false
}
}
- 属性値を紐付ける適切なWikipediaページがない場合はその属性値を含むレコードは出力しません。
- Task1, Task2のどちらに参加されるかは提出フォーマットで機械的に判断します。Task1のみの参加の場合はlink_typeは出力せず、Task2に参加する場合のみ出力するようにしてください。
Task2のリンクの種類(link_type)の指定は3つのフラグ(“later_name”, “part_of”, “derivation_of”)と値(“true”または”false”)の組み合わせで示します。
"link_type": {
"later_name" : false,
"part_of" : false,
"derivation_of" : false
}
リンクの種類とフラグの値の対応関係は以下の通りです。
リンクの種類 | フラグの値 |
---|---|
完全一致 | すべてのフラグの値を’false’とする |
準一致(Later Name, Part-of, Derivation-of) | 該当するフラグの値を’true’とする(複数選択可) |
評価方法
Task 1(必須参加)、Task 2(任意参加)の評価は以下のように行います。
Task | 評価方法 | 評価指標 |
---|---|---|
Task 1(属性値と Wikipedia ページの紐付け) | 紐付ける Wikipedia ページが正しければ正答となります。 | 精度・再現率・F値 |
Task 2(リンクの種類の分類) | Wikipedia ページの紐付けに加えて、種類の分類 true / false の三つ組を全て正しく出力すると正答となります。 | 精度・再現率・F値 |
[注意]
- Task1, Task2のリンクの種類(link_type)を評価対象とするかどうかは提出フォーマットで機械的に判断します。
– link_typeを含まない提出ファイル:ファイル全体について、Task1の評価のみを行います。
– link_typeを1つ以上含む提出ファイル:ファイル全体について、Task1、Task2の両方の評価を行います。 - 正解のリンク先が複数ある場合、いずれか一つが出力されていれば正答とします。
実行結果の提出
実行結果の提出についてはこちらをご覧ください。
参加者とオーガナイザーの情報交流
Slack:
http://shinra2021-linkjp.slack.com (参加者を中心としたslackです。実際の参加、評価などについて参加者と密に連絡を取り合いながら進めたいと思います)
[invitation link (下記のURLをクリックし、ご登録ください)]
https://join.slack.com/t/shinra2021-linkjp/shared_invite/zt-mz8k25b4-0HGdFiOdjKiNvlTh~CtSDQ
Google groups:
Community:
– shinra2021-linkjp-all@googlegroups.com (アナウンスなどをいたしますので、タスク参加者ではない方にもご登録ください)
– shinra2021-linkjp-participants@googlegroups.com (タスク参加者向けの情報を流します)
Contact: shinra2021linkjp-info@googlegroups.com(オーガナイザーへの質問、コメントなどはこちらにお願いします)
FAQ(よくある質問)
以下のページにまとめております。ご覧ください。
実行委員
【委員長】 関根 聡(理研AIP)
【委員】野本昌子(理研AIP)中山功太(理研AIP/筑波大)隅田飛鳥(理研AIP)松田耕史(理研AIP/東北大)後藤美知子(理研AIP)宇佐美佑(Usami LLC)安藤まや(フリー)山田育矢(Studio Ousia/理研AIP)
*1 著作権表示:右上:(C)Japanese Station, CC BY 3.0, via Wikimedia Commons
右下:(C) Buonasera, CC BY-SA 3.0, via Wikimedia Commons