森羅2020-JP: データフォーマット

※データダウンロードについては森羅2020-JPデータダウンロードページをご覧ください。

データの概略
各データの例とフォーマット

データの概略

本タスクのデータは以下の通りです。

配布データは（a-1）から（d）までです。そのうち、タスクに必要なデータは学習データ（a-*）、ターゲットデータ（b-*）です。
システムの実行結果は（e）の形式で提出して下さい。
システムの実行結果の評価の際には（c）、（d）のデータの利用有無によって、グループを分けて評価を行う予定です。実行結果を提出していただく時に、これらのデータの利用有無についてお知らせいただきます。

タスクに関するデータ
データ	ファイル名	説明
（a-1）学習データ:JSON（1行1JSON）	[カテゴリ名] _dist.json	1行1JSON形式の学習データ
（a-2）学習データ:JSON（目視確認用）	[カテゴリ名] _dist_for_view.json	目視確認用に改行を含めた学習データ
（a-3）学習データ:トークンインデックス		トークンのインデックス形式の学習データ
（b-1）ターゲットデータ:HTML	[page_id].html	MediaWikiからクロールしたHTML形式のデータ
（b-2）ターゲットデータ:PLAIN	[page_id].txt	HTML形式のテキストからタグを取り除いたプレーンテキストのデータ
（b-3）ターゲットデータ:トークナイズ		対象記事をトークナイズし、各トークンにオフセットを付与したデータ
（c）森羅2019システム結果		詳細は[Nakayama2020a]をご参照下さい。
（d）2019アンサンブル結果		詳細は[Kobayashi2020]をご参照下さい。
（e）提出データ	[カテゴリ名].json	学習データの（a-1）と同じ1行1JSON形式

各データの例とフォーマット

注意：以下の例では見やすさのために実際は存在しないスペースが入っている場合があります。

（a-1）学習データ（1行1JSON） [JSON]

example

  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0",  "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}}
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true}

（a-2）学習データ（目視確認用） [JSON]

example

    {
        "page_id": 53979,
        "title": "さっぽろ雪まつり",
        "ENE": "1.9.1.0",
        "attribute": "開始年",
        "html_offset": {
            "start": {
                "line_id": 101,
                "offset": 72
            },
            "end": {
                "line_id": 101,
                "offset": 77
            },
            "text": "1950年"
        },
        "text_offset": {
            "start": {
                "line_id": 101,
                "offset": 0
            },
            "end": {
                "line_id": 101,
                "offset": 5
            },
            "text": "1950年"
        }
    }
    {
        "page_id": 53979,
        "title": "さっぽろ雪まつり",
        "ENE": "1.9.1.0",
        "attribute": "総称",
        "flag": true
    }

Data description
name	explanation	note
page_id	WikipediaページID．	‘wgArticleID’ （ターゲットデータ）．本タスクではターゲットデータのファイル名の一部に使われる．
title	ページタイトル．	‘wgTitle’（ターゲットデータ）．
ENE	ページの分類されたカテゴリを示す拡張固有表現（ENE） ver.8.1のENE_id．
attribute	属性名（ENE ver.8.1の属性またはbool値をもつ属性（総称））．	bool値をもつ属性（総称）の場合は「総称」．
text	属性値に相当する記事中の文字列．
html_offset	ターゲットデータ（HTML）ファイル中のtext（属性値に相当する記事中の文字列）の1つの出現位置に関する情報．
text_offset	ターゲットデータ（プレーンテキスト）ファイル中のtext（属性値に相当する記事中の文字列）の1つの出現位置に関する情報．
line_id	ターゲットデータ（HTMLまたはプレーンテキストのうち、いずれか該当するもの）ファイル中のtext（属性値に相当する記事中の文字列）の出現する行数．	ファイルの先頭をline_id : 0としてカウントしている．
offset	ターゲットデータ（HTMLまたはプレーンテキストのうち、いずれか該当するもの）ファイル中のtext（属性値に相当する記事中の文字列）の出現位置を示すオフセット．	ファイルの先頭をoffset : 0としてカウントしている．
flag	bool値をもつ属性（総称）の場合、該当すれば’true’と記述される．

（a-3）学習データ（トークンインデックス）

トークンのインデックス形式の学習データ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。

（b-1）ターゲットデータ（HTML）

example

Data description
name	explanation	note
wgArticleID	WikipediaページID．	‘page_id’ （学習データ、提出フォーマット）．本タスクではターゲットデータ（HTMLまたはプレーンテキスト）のファイル名の一部に使われる．
wgTitle	ページタイトル．	‘title’（学習データ、提出フォーマット）．
infobox	Infoboxの表．

記事の本文、Infobox、それらの写真のキャプションも属性情報の抽出対象です。

（b-2）ターゲットデータ（プレーンテキスト）

（b-3）ターゲットデータ（トークナイズ）

対象記事をトークナイズし、各トークンにオフセットを付与したデータ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。

（e）提出フォーマット（1行1JSON） [JSON]

example

（Unicodeエスケープありの場合）
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0",  "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}}
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true}

（Unicodeエスケープなしの場合）
  {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0",  "attribute": "開始年", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950年"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950年"}}
  {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "総称", "flag": true}

- 基本的には学習データ(a-1)と同じ形式です.
- 非ASCII文字をunicodeエスケープするかどうかは任意です.
- 拡張固有表現（ENE）の属性については、記事本文とInfobox中の属性値に該当する文字列を全て抽出して下さい．同じ文字列であってもオフセットが異なる場合は別の行に記載して下さい.
- bool値をもつ属性（総称）については、記事のWikipedia項目が該当する場合のみ、attributeは「総称」、flagは’true’と記載して下さい.
- 複数の実行結果を提出する場合は複数のファイルを複数回に分けて提出していただきます．

Data description
name	optionality	explanation	note
page_id		WikipediaページID．	‘wgArticleID’ （ターゲットデータ）．本タスクではターゲットデータのファイル名の一部に使われる．
title	optional	ページタイトル．	‘wgTitle’（ターゲットデータ）．
ENE	optional	ページの分類されたカテゴリを示す拡張固有表現（ENE） ver.8.1のENE_id．
attribute		属性名（ENE ver.8.1の属性またはbool値をもつ属性（総称））．	bool値をもつ属性（総称）の場合は「総称」と記述する．
text	optional	属性値に相当する記事中の文字列．
text_offset	*1	ターゲットデータ（プレーンテキスト）ファイル中のtext（属性値に相当する記事中の文字列）の1つの出現位置に関する情報．	*1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる.
html_offset	*1	ターゲットデータ（HTML）ファイル中のtext（属性値に相当する記事中の文字列）の1つの出現位置に関する情報．	*1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる.
line_id		ターゲットデータ（HTMLまたはプレーンテキストのうち、いずれか該当するもの）ファイル中のtext（属性値に相当する記事中の文字列）の出現する行数．	ファイルの先頭をline_id : 0としてカウントする．
offset		ターゲットデータ（HTMLまたはプレーンテキストのうち、いずれか該当するもの）ファイル中のtext（属性値に相当する記事中の文字列）の出現位置（何文字目か）を示すオフセット．	ファイルの先頭をoffset : 0としてカウントする．
flag		bool値をもつ属性（総称）の場合、該当すれば’true’と記述する．	今回は総称に該当するケースを正しく抽出できるかを評価する.該当しない場合に’false’と記述しても加点されない．

データの概略

各データの例とフォーマット

（a-1） 学習データ（1行1JSON） [JSON]

（a-2） 学習データ（目視確認用） [JSON]

（a-3） 学習データ（トークンインデックス）

（b-1）ターゲットデータ（HTML）

（b-2）ターゲットデータ（プレーンテキスト）

（b-3）ターゲットデータ（トークナイズ）

（e） 提出フォーマット（1行1JSON） [JSON]

（a-1）学習データ（1行1JSON） [JSON]

（a-2）学習データ（目視確認用） [JSON]

（a-3）学習データ（トークンインデックス）

（e）提出フォーマット（1行1JSON） [JSON]