森羅2020-JP: データフォーマット

※データダウンロードについては森羅2020-JPデータダウンロードページをご覧ください。

データの概略

本タスクのデータは以下の通りです。

  • 配布データは(a-1)から(d)までです。そのうち、タスクに必要なデータは学習データ(a-*)、ターゲットデータ(b-*)です。
  • システムの実行結果は(e)の形式で提出して下さい。
  • システムの実行結果の評価の際には(c)、(d)のデータの利用有無によって、グループを分けて評価を行う予定です。実行結果を提出していただく時に、これらのデータの利用有無についてお知らせいただきます。

タスクに関するデータ
データ ファイル名 説明
(a-1)学習データ:JSON(1行1JSON) [カテゴリ名]
_dist.json
1行1JSON形式の学習データ
(a-2)学習データ:JSON(目視確認用) [カテゴリ名]
_dist_for_view.json
目視確認用に改行を含めた学習データ
(a-3)学習データ:トークンインデックス トークンのインデックス形式の学習データ
(b-1)ターゲットデータ:HTML [page_id].html MediaWikiからクロールしたHTML形式のデータ
(b-2)ターゲットデータ:PLAIN [page_id].txt HTML形式のテキストからタグを取り除いたプレーンテキストのデータ
(b-3)ターゲットデータ:トークナイズ 対象記事をトークナイズし、各トークンにオフセットを付与したデータ
(c)森羅2019システム結果 詳細は[Nakayama2020a]をご参照下さい。
(d)2019アンサンブル結果 詳細は[Kobayashi2020]をご参照下さい。
(e)提出データ [カテゴリ名].json 学習データの(a-1)と同じ1行1JSON形式

各データの例とフォーマット

注意:以下の例では見やすさのために実際は存在しないスペースが入っている場合があります。

(a-1) 学習データ(1行1JSON) [JSON]

example

  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0",  "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}}
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true}
  

(a-2) 学習データ(目視確認用) [JSON]

example

    {
        "page_id": 53979,
        "title": "さっぽろ雪まつり",
        "ENE": "1.9.1.0",
        "attribute": "開始年",
        "html_offset": {
            "start": {
                "line_id": 101,
                "offset": 72
            },
            "end": {
                "line_id": 101,
                "offset": 77
            },
            "text": "1950年"
        },
        "text_offset": {
            "start": {
                "line_id": 101,
                "offset": 0
            },
            "end": {
                "line_id": 101,
                "offset": 5
            },
            "text": "1950年"
        }
    }
    {
        "page_id": 53979,
        "title": "さっぽろ雪まつり",
        "ENE": "1.9.1.0",
        "attribute": "総称",
        "flag": true
    }
   
Data description
name optionality explanation note
page_id WikipediaページID. ‘wgArticleID’ (ターゲットデータ).本タスクではターゲットデータのファイル名の一部に使われる.
title ページタイトル. ‘wgTitle’(ターゲットデータ).
ENE ページの分類されたカテゴリを示す拡張固有表現(ENE) ver.8.1のENE_id.
attribute 属性名(ENE ver.8.1の属性またはbool値をもつ属性(総称)). bool値をもつ属性(総称)の場合は「総称」.
text 属性値に相当する記事中の文字列.
html_offset ターゲットデータ(HTML)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報.
text_offset ターゲットデータ(プレーンテキスト)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報.
line_id ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現する行数. ファイルの先頭をline_id : 0としてカウントしている.
offset ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現位置を示すオフセット. ファイルの先頭をoffset : 0としてカウントしている.
flag bool値をもつ属性(総称)の場合、該当すれば’true’と記述される.

(a-3) 学習データ(トークンインデックス)

トークンのインデックス形式の学習データ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。

(b-1)ターゲットデータ(HTML)

example


Data description
name optionality explanation note
wgArticleID WikipediaページID. ‘page_id’ (学習データ提出フォーマット).本タスクではターゲットデータ(HTMLまたはプレーンテキスト)のファイル名の一部に使われる.
wgTitle ページタイトル. ‘title’(学習データ提出フォーマット).
infobox Infoboxの表.
  • 記事の本文、Infobox、それらの写真のキャプションも属性情報の抽出対象です。

(b-2)ターゲットデータ(プレーンテキスト)

(b-3)ターゲットデータ(トークナイズ)

対象記事をトークナイズし、各トークンにオフセットを付与したデータ。詳細はGitHubのレポジトリ(k141303/shinra_data_tokenizer#出力ファイルの見方)をご参照ください。

(e) 提出フォーマット(1行1JSON) [JSON]

example

(Unicodeエスケープありの場合)
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0",  "attribute": "\u958b\u59cb\u5e74", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950\u5e74"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950\u5e74"}}
  {"page_id": 53979, "title": "\u3055\u3063\u307d\u308d\u96ea\u307e\u3064\u308a", "ENE": "1.9.1.0", "attribute": "\u7dcf\u79f0", "flag": true}

(Unicodeエスケープなしの場合)
  {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0",  "attribute": "開始年", "html_offset": {"start": {"line_id": 101, "offset": 72}, "end": {"line_id": 101, "offset": 77}, "text": "1950年"}, "text_offset": {"start": {"line_id": 101, "offset": 0}, "end": {"line_id": 101, "offset": 5}, "text": "1950年"}}
  {"page_id": 53979, "title": "さっぽろ雪まつり", "ENE": "1.9.1.0", "attribute": "総称", "flag": true}

    • 基本的には学習データ(a-1)と同じ形式です.
    • 非ASCII文字をunicodeエスケープするかどうかは任意です.
    • 拡張固有表現(ENE)の属性については、記事本文とInfobox中の属性値に該当する文字列を全て抽出して下さい. 同じ文字列であってもオフセットが異なる場合は別の行に記載して下さい.
    • bool値をもつ属性(総称)については、記事のWikipedia項目が該当する場合のみ、attributeは「総称」、flagは’true’と記載して下さい.
    • 複数の実行結果を提出する場合は複数のファイルを複数回に分けて提出していただきます.
Data description
name optionality explanation note
page_id WikipediaページID. ‘wgArticleID’ (ターゲットデータ).本タスクではターゲットデータのファイル名の一部に使われる.
title optional ページタイトル. ‘wgTitle’(ターゲットデータ).
ENE optional ページの分類されたカテゴリを示す拡張固有表現(ENE) ver.8.1のENE_id.
attribute 属性名(ENE ver.8.1の属性またはbool値をもつ属性(総称)). bool値をもつ属性(総称)の場合は「総称」と記述する.
text optional 属性値に相当する記事中の文字列.
text_offset *1 ターゲットデータ(プレーンテキスト)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. *1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる.
html_offset *1 ターゲットデータ(HTML)ファイル中のtext(属性値に相当する記事中の文字列)の1つの出現位置に関する情報. *1: text_offset/html_offsetのいずれかを記述する.両方が記述されている場合はtext_offsetのみを評価に用いる.
line_id ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現する行数. ファイルの先頭をline_id : 0としてカウントする.
offset ターゲットデータ(HTMLまたはプレーンテキストのうち、いずれか該当するもの)ファイル中のtext(属性値に相当する記事中の文字列)の出現位置(何文字目か)を示すオフセット. ファイルの先頭をoffset : 0としてカウントする.
flag bool値をもつ属性(総称)の場合、該当すれば’true’と記述する. 今回は総称に該当するケースを正しく抽出できるかを評価する.該当しない場合に’false’と記述しても加点されない.