※データダウンロードについては森羅2020-JPデータダウンロードページをご覧ください。
データの概略
本タスクのデータは以下の通りです。
- 配布データは(a-1)から(d)までです。そのうち、タスクに必要なデータは学習データ(a-*)、ターゲットデータ(b-*)です。
- システムの実行結果は(e)の形式で提出して下さい。
- システムの実行結果の評価の際には(c)、(d)のデータの利用有無によって、グループを分けて評価を行う予定です。実行結果を提出していただく時に、これらのデータの利用有無についてお知らせいただきます。
データ | ファイル名 | 説明 |
---|---|---|
(a-1)学習データ:JSON(1行1JSON) | [カテゴリ名] _dist.json |
1行1JSON形式の学習データ |
(a-2)学習データ:JSON(目視確認用) | [カテゴリ名] _dist_for_view.json |
目視確認用に改行を含めた学習データ |
(a-3)学習データ:トークンインデックス | トークンのインデックス形式の学習データ | |
(b-1)ターゲットデータ:HTML | [page_id].html | MediaWikiからクロールしたHTML形式のデータ |
(b-2)ターゲットデータ:PLAIN | [page_id].txt | HTML形式のテキストからタグを取り除いたプレーンテキストのデータ |
(b-3)ターゲットデータ:トークナイズ | 対象記事をトークナイズし、各トークンにオフセットを付与したデータ | |
(c)森羅2019システム結果 | 詳細は[Nakayama2020a]をご参照下さい。 | |
(d)2019アンサンブル結果 | 詳細は[Kobayashi2020]をご参照下さい。 | |
(e)提出データ | [カテゴリ名].json | 学習データの(a-1)と同じ1行1JSON形式 |
各データの例とフォーマット
注意:以下の例では見やすさのために実際は存在しないスペースが入っている場合があります。
(a-1) 学習データ(1行1JSON) [JSON]
example
{"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}} {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true}
(a-2) 学習データ(目視確認用) [JSON]
example
{ "page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "開始年", "html_offset": { "start": { "line_id": 101, "offset": 72 }, "end": { "line_id": 101, "offset": 77 }, "text": "1950年" }, "text_offset": { "start": { "line_id": 101, "offset": 0 }, "end": { "line_id": 101, "offset": 5 }, "text": "1950年" } } { "page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "総称", "flag": true }
name | optionality | explanation | note |
---|---|---|---|
page_id | WikipediaページID. | ‘wgArticleID’ (ターゲットデータ).本タスクではターゲットデータのファイル名の一部に使われる. | |
title | ページタイトル. | ‘wgTitle’(ターゲットデータ). | |
ENE | ページの分類されたカテゴリを示す拡張固有表現(ENE) ver.8.1のENE_id. | ||
attribute | 属性名(ENE ver.8.1の属性またはbool値をもつ属性(総称)). | bool値をもつ属性(総称)の場合は「総称」. | |
text | 属性値に相当する記事中の文字列. | ||
html_offset | ターゲットデータ(HTML)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. | ||
text_offset | ターゲットデータ(プレーンテキスト)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. | ||
line_id | ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現する行数. | ファイルの先頭をline_id : 0としてカウントしている. | |
offset | ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現位置を示すオフセット. | ファイルの先頭をoffset : 0としてカウントしている. | |
flag | bool値をもつ属性(総称)の場合、該当すれば’true’と記述される. |
(a-3) 学習データ(トークンインデックス)
トークンのインデックス形式の学習データ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。
(b-1)ターゲットデータ(HTML)
example
name | optionality | explanation | note |
---|---|---|---|
wgArticleID | WikipediaページID. | ‘page_id’ (学習データ、提出フォーマット).本タスクではターゲットデータ(HTMLまたはプレーンテキスト)のファイル名の一部に使われる. | |
wgTitle | ページタイトル. | ‘title’(学習データ、提出フォーマット). | |
infobox | Infoboxの表. |
- 記事の本文、Infobox、それらの写真のキャプションも属性情報の抽出対象です。
(b-2)ターゲットデータ(プレーンテキスト)
(b-3)ターゲットデータ(トークナイズ)
対象記事をトークナイズし、各トークンにオフセットを付与したデータ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。
(e) 提出フォーマット(1行1JSON) [JSON]
example
(Unicodeエスケープありの場合) {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}} {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true} (Unicodeエスケープなしの場合) {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "開始年", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950年"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950年"}} {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "総称", "flag": true}
-
- 基本的には学習データ(a-1)と同じ形式です.
- 非ASCII文字をunicodeエスケープするかどうかは任意です.
- 拡張固有表現(ENE)の属性については、記事本文とInfobox中の属性値に該当する文字列を全て抽出して下さい. 同じ文字列であってもオフセットが異なる場合は別の行に記載して下さい.
- bool値をもつ属性(総称)については、記事のWikipedia項目が該当する場合のみ、attributeは「総称」、flagは’true’と記載して下さい.
- 複数の実行結果を提出する場合は複数のファイルを複数回に分けて提出していただきます.
name | optionality | explanation | note |
---|---|---|---|
page_id | WikipediaページID. | ‘wgArticleID’ (ターゲットデータ).本タスクではターゲットデータのファイル名の一部に使われる. | |
title | optional | ページタイトル. | ‘wgTitle’(ターゲットデータ). |
ENE | optional | ページの分類されたカテゴリを示す拡張固有表現(ENE) ver.8.1のENE_id. | |
attribute | 属性名(ENE ver.8.1の属性またはbool値をもつ属性(総称)). | bool値をもつ属性(総称)の場合は「総称」と記述する. | |
text | optional | 属性値に相当する記事中の文字列. | |
text_offset | *1 | ターゲットデータ(プレーンテキスト)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. | *1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる. |
html_offset | *1 | ターゲットデータ(HTML)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. | *1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる. |
line_id | ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現する行数. | ファイルの先頭をline_id : 0としてカウントする. | |
offset | ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現位置(何文字目か)を示すオフセット. | ファイルの先頭をoffset : 0としてカウントする. | |
flag | bool値をもつ属性(総称)の場合、該当すれば’true’と記述する. | 今回は総称に該当するケースを正しく抽出できるかを評価する.該当しない場合に’false’と記述しても加点されない. |