SHINRA2021-LinkJP: FAQ
- タスク定義
- 参加方法
- 評価方法
- 配布データ
- 提出データ
- 手法
- データフォーマット
- cirrus dumpのデータフォーマットは?
- リンク先の正解が複数ある場合、どのように出力すれば良い?
- 適切なlink_page_idが見つからない場合の出力は?
- Task1(link_typeを含まない)、Task2(link_typeを含む)に分けてファイルを提出する必要はないか?
- Task1の提出データのフォーマットの必須項目は?
- Task2の提出データのフォーマットの必須項目は?
- Task2の提出データで、完全一致(属性値とリンク先の指示対象が同じ)の場合、link_typeはどのように記述する?
- Task2の提出データで、複数のリンクの種類に該当する場合、link_typeはどのように記述する?
- タスク詳細:リンク先
- タスク詳細:リンクの種類
- タスク詳細:ENE属性
- データ詳細:ENE属性
タスク定義
Wikipediaには元々リンクが付いているのでは?
本タスクではWikipedia項目の属性値にあたる文字列に対して紐付けを行いますが、その文字列に対して適切なリンクが付いているとは限りません。Wikipediaで上記の属性値の文字列に付いているリンクのみを利用した場合、サンプルデータでのF1-scoreは0.57程度です。
参加方法
Task1(リンク先のみの評価), Task2(リンク先とリンクの種類(link_type)の評価)の両方に参加できる?
両方にご参加いただくことが可能です。Task1は全員必須でご参加いただきますが、Task2はオプショナルです。
Task2に参加するかどうかはどのように伝えれば良い?
提出フォーマットで機械的に判断しますので、ご連絡は不要です。
link_typeが1つ以上出力されている提出ファイルは、link_typeを判断して出力されているとみなし、ファイル全体について、Task1の評価(リンク先のみの評価)、Task2の評価(リンク先とlink_typeを含めた評価)の両方を行います。
評価方法
評価方法は?
以下の評価を予定しています。
-Task1:リンク先のみの評価
-Task2:リンク先とリンクの種類(link_type)の評価
リンク先の正解が単数と複数の場合があるが、出力したリンク先はどのように評価される?
正解のリンク先のうち、いずれか一つが出力されていれば正答とします。
リンク先の正解がない場合はどのように評価される?
– recall:評価対象には含まれません。recallの分母は正解のうち、リンク先があるもののみとしています。
– precision:評価対象に含まれます。正解のリンク先がない場合にシステムがリンク先を出力した場合、誤答となります。
– F-measure: 上記のrecall, precisionに基づいて算出します。
ファイル内の一部のレコードに対してリンクの種類(link_type)を出力した場合、どのように評価される?
リンクの種類(link_type)を評価対象とするかどうかは提出フォーマットで機械的に判断します。
– link_typeを1つ以上含む提出ファイル:link_typeを判断して出力されているとみなし、ファイル全体について、Task1の評価(リンク先の評価)、Task2の評価(リンク先とlink_typeを含めた評価)の両方を行います。
– link_typeを含まない提出ファイル:link_typeを判断されていないとみなし、ファイル全体について、Task1の評価(リンク先の評価)のみを行います。
Task1の評価の正解のリンク先は、リンクの種類としてはどれに該当するものか?
Task1の評価の正解のリンク先は、完全一致(属性値とリンク先の指示対象が同じ)、その他の準リンク(later_name、part_of、derivation_of)のいずれかに該当するものです。
Task2(リンク先とリンクの種類の評価)ではどのような評価結果が返される?
Task2の場合、個々のリンクの種類の正誤判定を一つにまとめた評価結果を返却します。
リンクの種類としては、属性の値とWikipediaページの指示対象が一致している場合(完全一致)と、その他(later_name, part_of, derivation_of)の計4種類について判定を行います。
配布データ
配布されるデータは?
現在、以下のデータを森羅2021-LinkJPホームページで公開しています。
– サンプルデータ
– リンク先のWikipediaデータ
– Wikipediaのpage_id, タイトル, 転送情報(jawiki-20190120-title2pageid.json)(*1)
テストデータは2021年9月に配布予定です。
*1: 「リンク先のWikipediaデータ」の「各種処理済データ」に含まれています。
サンプルデータのファイル構成は?
以下の4つのフォルダに分かれています。
– ene_annotation: サンプルデータ(カテゴリ別, 入力ファイル例(*.json))
– link_annotation: サンプルデータ(カテゴリ別, 出力ファイル例(*.json))
– plain: サンプルデータの元のWikipediaページ(テキスト(*.txt))
– html: サンプルデータの元のWikipediaページ(HTML(*.html))
テストデータは?
日本語Wikipediaページ(各カテゴリ100件)をテストデータとして評価に用いる予定です。2021年9月に配布予定です。
リンク先のWikipediaデータは自分で用意したものを使っても良い?
Wikipediaの内容は変更される場合がありますので、必ず、ホームページで公開している「リンク先のWikipediaデータ」をご利用ください。
提出データ
提出データは9月に配布される評価データの範囲のみ?
はい、そうです。
手法
外部情報(外部データ、事前学習したモデル等)を利用してもよい?
はい。本タスクの実施に外部情報を利用される場合は、どのデータを使用されたか結果提出時にご報告いただきます。
人手でリンクを行った結果を提出しても良い?
人手によるリンクは本タスクの対象外となりますので、提出は不可とさせていただきます。
データフォーマット
cirrus dumpのデータフォーマットは?
Cirrus dump 2020-MLのWikipediaダンプデータ: Cirrus Dump [JSON] および以下を参考にしてください。
MediaWiki: Data dumps/Misc dumps format.
Cirrus SearchについてはMediaWiki: Help:CirrusSearchをご参照下さい。
リンク先の正解が複数ある場合、どのように出力すれば良い?
リンク先は一つを選定してください。正解のリンク先が複数ある場合は、いずれかが出力されていれば正答とします。複数のリンク先が出力されている場合は、最初の出力を評価対象とします。
適切なlink_page_idが見つからない場合の出力は?
適切なリンク先のページがない場合は、その属性値を含むレコードは出力ファイルに含めないようにしてください。
Task1(link_typeを含まない)、Task2(link_typeを含む)に分けてファイルを提出する必要はないか?
分けていただく必要はありません。Task1, Task2での評価については評価方法のQAをご参照ください。
Task1の提出データのフォーマットの必須項目は?
必須項目は以下です。
page_id, ENE, attribute, link_page_id, offset(text_offset or html_offset)
Task2の提出データのフォーマットの必須項目は?
必須項目は以下です。
page_id, ENE, attribute, link_page_id, offset(text_offset or html_offset), link_type(later_name, part_of, derivation_of)
Task2の提出データで、完全一致(属性値とリンク先の指示対象が同じ)の場合、link_typeはどのように記述する?
later_name, part_of, derivation_ofの値を全てfalseとして下さい。
Task2の提出データで、複数のリンクの種類に該当する場合、link_typeはどのように記述する?
– later_name, part_of, derivation_of:各々の値は該当すればtrue、非該当の場合はfalseとして下さい。複数のlink_typeの値がtrueでもOKです。
– なお、リンクの種類は完全一致(属性値とリンク先の指示対象が同じ)が優先です。完全一致に該当する場合、上記の3つのリンクの種類(later_name, part_of, derivation_of)の値はfalseとして下さい。
タスク詳細:リンク先
リンク先として指定可能なページは?
森羅2021-LinkJPページで公開中の「リンク先のWikipediaデータ」*1(namespaceが0の日本語Wikipediaページ)のページをご指定下さい。
ただし、曖昧性回避のページ、転送元のページは対象外ですので、リンクしないようご注意下さい(*2)。
*1: Wikipediaページの内容は変更される場合があるため、本タスクのリンク先としては上記の配布データを利用してください。
*2: 転送ページの場合、転送先のページをリンク先としてご指定ください。上記の「リンク先のWikipediaデータ」の「各種処理済データ」に転送元と転送先の対応データ(jawiki-20190120-title2pageid.json)がありますのでご利用ください。
リンク先の正解が複数になるのはどのようなケースか?
テキストの文脈から曖昧性が解消できない場合です。
例)「【マルタ】で会議が開催された」
候補1:国名「マルタ共和国」
候補2:島名「マルタ島」
ただし、提出時のリンク先はいずれか1ページを選択してください。評価の際には、提出されたリンク先が、複数の正解のリンク先のうちいずれか一つに合致していれば正答とみなします。
リンクの種類が異なる複数のリンク先候補がある場合、リンク先の選び方は?
属性値のテキストと指示対象が同じであるページを優先します。上記に該当するページがない場合にはその他の準リンク(later_name, part_of, derivation_of)に相当するリンク先ページを指定してください。
以下の場合は見出し語自身へのページにリンクしてよい?
例:「アラル海」の「構成する湖沼」の属性値「大アラル海」を「Part-of」で見出し語「アラル海」にリンク
「構成する湖沼」は見出し語自身のページにはリンクしません。別ページで該当するものがなければ、「リンクしない」が正解です。
見出し語自身のページにリンクして良いのはどのようなケースか?
以下の場合です。
– 属性値が見出し語の別名
– 属性値が見出し語の合併前の地名、組織名
タスク詳細:リンクの種類
derivation of は属性「作品」に限定?
「作品」の場合が典型的ですが、作品に限定というわけではありません。
タスク詳細:ENE
ENEの属性の対象/対象外の考え方は?
基本的にはENEの属性の値として事物のエンティティが想定されるものが対象で、以下は対象外です。
(a)属性の値として数値表現、時間表現、異表記(*1)などの文字列が想定される属性
(b)属性の値のリンク先が一般的に属性の抽出元ページとなる属性
*1: ただし、異表記のうち、別名については、例外的に本タスクの対象とします。
なぜ別名がタスクの対象の属性に含まれているのか? Wikipediaでは別名は基本的に同じページとする方針ではないか?
Wikipediaで以下のように別名に対応する別ページが存在する場合があるため、本タスクでは「別名」も対象の属性に含めています。
例:「アイセル湖」(page_id: 408894)の別名「ゾイデル海」(page_id: 1616552)
※ゾイデル海はオランダにかつて存在した湾。堤防により外海から切り離されアイセル湖となり、消滅。
属性「別名」の値として記述されたテキストに対しても、他の属性と同様、対応するページがあればリンクしてください。
データ詳細:ENE
属性定義の「過去データの抽出」とは?
属性の値として過去の値も抽出対象に含まれているかどうかを示す情報です。