森羅2020-ML: データフォーマット

データフォーマットと対応するデータのダウンロードページ
データフォーマット データダウンロードページ
各言語のトレーニングデータ (1) Trial Datasets,
(2) Minimum Datasets
日本語ウィキペディアの拡張固有表現(ENE)カテゴリ分類データ (3-1) 拡張固有表現の分類付きの日本語Wikipedia項目
言語間リンクデータ (3-2) 言語間リンク
Wikipediaダンプデータ: Wiki Dump [XML] (3-4) 31言語のWikipedia ダンプデータ (format: 1) Wiki Dump)
Wikipediaダンプデータ: Cirrus Dump [JSON] (1) Trial Datasets,
(2) Minimum Datasets,
(3-4) 31言語のWikipedia ダンプデータ (format: 2) Cirrus Dump)
拡張固有表現(Extended Named Entity)定義 (3-5) 拡張固有表現定義(Extended Named Entity Definition)
提出フォーマット
注意:以下の例では見やすさのために実際は1行のデータを複数行で示しています。また、実際は存在しないスペースが入っている場合があります。

各言語のトレーニングデータ [JSON]

example

{
   "pageid": 187830,
   "title": "Präfektur Tokio",
   "ja_pageid": 774362,
   "ja_title": "東京都",
   "_stamp": "HAND.AIP.201910",
   "ENEs": [
      {
         "ENE_id": "1.5.1.2",
         "ENE_name": "Province"
      }
   ]
}
Data description
name optionality explanation note
pageid (各言語の)Wikipediaページ ID. ‘wgArticleID’ (webページ), ‘_id’ (Cirrus Dump).
title ページタイトル. ‘wgTitle'(webページ), ‘title’ (Cirrus Dump).
ja_pageid 上記pageidのページのリンク元である、対応する日本語ページのID.
ja_title 上記pageidのページのリンク元である、対応する日本語ページのページタイトル.
_stamp アノテーションタイプの識別用フラグ. 値は“AUTO.TOHOKU.201906” , “HAND.AIP.201910”のいずれか.“AUTO”はシステムにより推定した分類、“HAND”は人手による分類であることを示す.
ENEs ENE (ver.8.0)のカテゴリ情報. 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報.
[注意]:トレーニングデータの場合、各言語のWikipediaページに、リンク元の対応する日本語ページの拡張固有表現(ENE) (ver.8.0)のカテゴリが自動的に付与される.
ENE_id

ENE (ver.8.0)カテゴリID.

ENE_name ENE (ver.8.0)カテゴリ名.
注意:
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。

日本語ウィキペディアの拡張固有表現(ENE)カテゴリ分類データ [JSON]

リストページ、曖昧さ回避のページ、マイナーなページ(被リンク数5未満)は削除済みです。

example

{
   "pageid": 774362,
   "title": "東京都",
   "ENEs": {
      "AUTO.TOHOKU.201906": [
         {
            "ENE_id": "1.5.1.2",
            "prob": 0.9403673410415649
         }
      ],
      "HAND.AIP.201910": [
         {
            "ENE_id": "1.5.1.2",
            "prob": 1.0
         }
      ]
   }
}
Data description
name optionality explanation note
pageid WikipediaページID. ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump).
title ページタイトル. ‘wgTitle'(webページ), ‘title’(Cirrus Dump).
ENEs 拡張固有表現(ENE) (ver.8.0) のカテゴリ情報.
各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報.
ENE_id ENE (ver.8.0)のカテゴリID.
prob このページがENE_idのカテゴリである確率. 人手で分類されたページの場合は、1.0.
“AUTO.TOHOKU.201906”, “HAND.AIP.201910” アノテーションタイプの識別用フラグ. “HAND”は人手による分類であることを示す. [注意]: ENEsに”AUTO.TOHOKU.201906″と”HAND.AIP.201910″(人手による分類)の両方が含まれる場合は、後者の人手による分類を利用して下さい.

example

{
   "source":{
      "pageid":774362,
      "lang":"ja",
      "title":"東京都"
   },
   "destination":{
      "pageid":30057,
      "lang":"en",
      "title":"Tokyo"
   }
}

{
   "source":{
      "pageid":774362,
      "lang":"ja",
      "title":"東京都"
   },
   "destination":{
      "pageid":187830,
      "lang":"de",
      "title":"Präfektur Tokio"
   }
}

Data description
name optionality explanation note
source 言語間リンクのリンク元ページ(source ページ)の情報.
destination 言語間リンクのリンク先ページ(destination ページ)の情報.
pageid WikipediaページID. ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump).
lang ページの言語コード. ‘wgPageContentLanguage’ (webページ), ‘language'(Cirrus Dump).
title ページタイトル. ‘wgTitle'(webページ), ‘title'(Cirrus Dump).

Wikipediaダンプデータ: Wiki Dump [XML]

example

  <page>
    <title>Präfektur Tokio</title>
    <ns>0</ns>
    <id>187830</id>
    <revision>
      <id>183496717</id>
      <parentid>179947161</parentid>
      <timestamp>2018-12-07T21:06:42Z</timestamp>
      .....
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text xml:space="preserve">{{Infobox Japanische Präfektur
|Name           = Tokio
|Kanji          = 東京都
.....
}}

Die '''Präfektur Tokio''' ({{jaS|東京都|Tōkyō-to}}, {{enS|Tokyo Prefecture}} oder in Eigenbezeichnung '''Tokyo Metropolis''', oft nur ''Tokyo'') ist eine der [[Präfektur (Japan)|Präfekturen Japans]] und liegt größtenteils in der [[Kantō-Ebene]]. 
.....
{{SORTIERUNG:Prafektur Tokio}}
[[Kategorie:Japanische Präfektur|Tokio]]
[[Kategorie:Präfektur Tokio| ]]</text>
      <sha1>mw331f8297bhfnc6e99vpnjargx6155</sha1>
    </revision>
  </page>
Data description
name optionality explanation note
page Wikipediaページの情報.
title ページタイトル. ‘wgTitle'(webページ), ‘title'(Cirrus Dump).
ns ページの属するWikipediaの名前空間の番号. ‘0’ は(Main/Article),すなわち, 標準名前空間(別名:article namespace). 詳細はWikipedia Help: 名前空間を参照.
id Wikipedia page ID. webページの‘wgArticleID’、 Cirrus Dumpの‘_id’.
revision ページのrevision情報.
id (revisionの子要素) Revision ID.
timestamp revisionのtimestamp.
text ページrevisionのテキスト.

Wikipediaダンプデータ: Cirrus Dump [JSON]

example

{
   "index": {
      "_type": "page",
      "_id": "187830"
   }
}
{
   "template": [
      .....
   ],
   "content_model": "wikitext",
   "opening_text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....",
   "wiki": "dewiki",
   "auxiliary_text": [
      "Tōkyō-to 東京都 Basisdaten Verwaltungssitz: Shinjuku, Tokio Region: Kantō ......
   ],
   "language": "de",
   "title": "Präfektur Tokio",
   "text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....,
   "defaultsort": "Prafektur Tokio",
   "timestamp": "2018-12-07T21:06:42Z",
   "redirect": [
      {
         "namespace": 0,
         "title": "Präfektur Tōkyō"
      }, 
      {
         "namespace": 0,
         "title": "Präfektur Tokyo"
      }, 
      .....
   ],
   "wikibase_item": "Q1490",
      .....
   "source_text": "{
      {
         Infobox Japanische Präfektur\n
         |Name           = Tokio\n|
         |Kanji          = 東京都\n|
         .....
   ",
   .....
   "namespace_text": "",
   "namespace": 0,
   "text_bytes": 34389,
   "incoming_links": 1550,
   "category": [
      "Japanische Präfektur",
      "Präfektur Tokio"
   ],
   "outgoing_link": [
      "Südkorea",
      .....
   ],
   "popularity_score": 3.7743927508022694e-06,
   "create_timestamp": "2004-04-19T16:48:45Z"
}

redirectそのページにリダイレクトされるページに関するリダイレクト情報.namespaceWikipedia名前空間の番号.‘0’はWikipediaページの(Main/Article), すなわち, 標準名前空間(main namespace、別名article namespace). 詳しくは Wikipedia Help: 名前空間を参照。

Data description
name optionality explanation note
_type type. ‘page’か’namespace’のいずれか.
_id Wikipediaページ ID. ‘wgArticleID’ (webページ),’pageid'(Training data).
opening_text 最初の見出し(heading)の前までのテキスト.
language ページの言語コード. ‘wgPageContentLanguage’(webページ),’lang'(言語間リンク).
title ページタイトル. ‘wgTitle’(webページ).
text ページのテキスト.
timestamp revisionのtimestamp.
wikibase_item Wikidata entity ID.
source_text source text.
incoming_links ページへのリンク数.
category ページの属する(Wikipediaの)カテゴリのリスト.
outgoing_link 他のページへのリンク数.

[参考] MediaWiki: Data dumps/Misc dumps format.
Cirrus SearchについてはMediaWiki: Help:CirrusSearchをご参照下さい。

拡張固有表現(Extended Named Entity)定義 (English/Japanese) [JSON]

example

{
   "ENE_id":"1.4.7.2",
   "definition":{
      "en":"A name of a political party, which is an organized group of
       people who come together to engage in political activities. A 
         smaller group inside a political party is not included here, 
         but in 1.4.7.0 Political_Organization_Other Category. ",
      "ja":"政治活動を行う政党や会派の名前。派閥など、政党内の小グループについては
         「政治的組織名_その他」とする。"
   },
   "name":{
      "en":"Political_Party",
      "ja":"政党名"
   },
   "parent_category":"1.4.7",
   "children_category":[
   ]
}
データの説明
name optionality explanation note
ENE_id 拡張固有表現(ENE) (ver.8.0)のカテゴリID.
definition ENE (ver.8.0)のカテゴリ定義.
en 英語.
ja 日本語.
name ENE (ver.8.0)のカテゴリ名.
parent_category ENE (ver.8.0)の階層の一つ上のカテゴリ.
children_category ENE (ver.8.0)の階層の一つ下のカテゴリ.

提出フォーマット [JSON]

example

{
   "pageid": 34550,
   "title": "Der kleine Prinz",
   "ENEs": [
      {
         "ENE_id": "1.7.19.3",
         "ENE_name": "Movie",
         "score": 0.684
      }, 
      {
         "ENE_id": "1.7.19.6",
         "ENE_name": "Book",
         "score": 0.924
      }, 
      {
         "ENE_id": "1.7.19.2",
         "ENE_name": "Broadcast_Program",
         "score": 0.213
      }, 
      {
         "ENE_id": "1.7.19.4",
         "ENE_name": "Show",
         "score": 0.107
      }
   ]
}
データの説明
name optionality explanation note
pageid (各言語の)Wikipediaページ ID. ‘wgArticleID’ (webページ), ‘_id’ (CirrusDump).
title optional ページタイトル. ‘wgTitle'(webページ), ‘title'(CirrusDump).
ENEs システムの予測した拡張固有表現(ENE) (ver.8.0)のカテゴリ情報.各ページに対してシステムが予測した(1つ以上の)ENEのカテゴリの情報.
ENE_id システムの予測したENE (ver.8.0)のカテゴリID. 注意: 記載されたENE_idはscoreの値に関わらず評価対象となります.
ENE_name optional システムの予測したENE (ver.8.0)のカテゴリ名.
score optional but highly recommended 分類対象のページに対してシステムが予測した各カテゴリのスコア.  注意: スコアは0から1の範囲で正規化されていることが望ましい. 正規化していない値を用いる場合はシステム報告レポートに値の範囲を明記して下さい.

※ The time stamp of All Wikipedia related data is January 20, 2019