注意:以下の例では見やすさのために実際は1行のデータを複数行で示しています。また、実際は存在しないスペースが入っている場合があります。
各言語のトレーニングデータ [JSON]
example
{
   "pageid": 187830,
   "title": "Präfektur Tokio",
   "ja_pageid": 774362,
   "ja_title": "東京都",
   "_stamp": "HAND.AIP.201910",
   "ENEs": [
      {
         "ENE_id": "1.5.1.2",
         "ENE_name": "Province"
      }
   ]
}
| name | optionality | explanation | note | 
|---|---|---|---|
| pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title’ (Cirrus Dump). | |
| ja_pageid | 上記pageidのページのリンク元である、対応する日本語ページのID. | ||
| ja_title | 上記pageidのページのリンク元である、対応する日本語ページのページタイトル. | ||
| _stamp | アノテーションタイプの識別用フラグ. 値は“AUTO.TOHOKU.201906” , “HAND.AIP.201910”のいずれか.“AUTO”はシステムにより推定した分類、“HAND”は人手による分類であることを示す. | ||
| ENEs | ENE (ver.8.0)のカテゴリ情報. | 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報. [注意]:トレーニングデータの場合、各言語のWikipediaページに、リンク元の対応する日本語ページの拡張固有表現(ENE) (ver.8.0)のカテゴリが自動的に付与される.  | 
|
| ENE_id | |||
| ENE_name | ENE (ver.8.0)カテゴリ名. | 
注意:
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
日本語ウィキペディアの拡張固有表現(ENE)カテゴリ分類データ [JSON]
リストページ、曖昧さ回避のページ、マイナーなページ(被リンク数5未満)は削除済みです。
example
{
   "pageid": 774362,
   "title": "東京都",
   "ENEs": {
      "AUTO.TOHOKU.201906": [
         {
            "ENE_id": "1.5.1.2",
            "prob": 0.9403673410415649
         }
      ],
      "HAND.AIP.201910": [
         {
            "ENE_id": "1.5.1.2",
            "prob": 1.0
         }
      ]
   }
}
| name | optionality | explanation | note | 
|---|---|---|---|
| pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title’(Cirrus Dump). | |
| ENEs | 拡張固有表現(ENE) (ver.8.0) のカテゴリ情報. 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報.  | 
||
| ENE_id | ENE (ver.8.0)のカテゴリID. | ||
| prob | このページがENE_idのカテゴリである確率. | 人手で分類されたページの場合は、1.0. | |
| “AUTO.TOHOKU.201906”, “HAND.AIP.201910” | アノテーションタイプの識別用フラグ. “HAND”は人手による分類であることを示す. | [注意]: ENEsに”AUTO.TOHOKU.201906″と”HAND.AIP.201910″(人手による分類)の両方が含まれる場合は、後者の人手による分類を利用して下さい. | 
言語間リンクデータ[JSON]
example
{
   "source":{
      "pageid":774362,
      "lang":"ja",
      "title":"東京都"
   },
   "destination":{
      "pageid":30057,
      "lang":"en",
      "title":"Tokyo"
   }
}
{
   "source":{
      "pageid":774362,
      "lang":"ja",
      "title":"東京都"
   },
   "destination":{
      "pageid":187830,
      "lang":"de",
      "title":"Präfektur Tokio"
   }
}
| name | optionality | explanation | note | 
|---|---|---|---|
| source | 言語間リンクのリンク元ページ(source ページ)の情報. | ||
| destination | 言語間リンクのリンク先ページ(destination ページ)の情報. | ||
| pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
| lang | ページの言語コード. | ‘wgPageContentLanguage’ (webページ), ‘language'(Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). | 
Wikipediaダンプデータ: Wiki Dump [XML]
example
  <page>
    <title>Präfektur Tokio</title>
    <ns>0</ns>
    <id>187830</id>
    <revision>
      <id>183496717</id>
      <parentid>179947161</parentid>
      <timestamp>2018-12-07T21:06:42Z</timestamp>
      .....
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text xml:space="preserve">{{Infobox Japanische Präfektur
|Name           = Tokio
|Kanji          = 東京都
.....
}}
Die '''Präfektur Tokio''' ({{jaS|東京都|Tōkyō-to}}, {{enS|Tokyo Prefecture}} oder in Eigenbezeichnung '''Tokyo Metropolis''', oft nur ''Tokyo'') ist eine der [[Präfektur (Japan)|Präfekturen Japans]] und liegt größtenteils in der [[Kantō-Ebene]]. 
.....
{{SORTIERUNG:Prafektur Tokio}}
[[Kategorie:Japanische Präfektur|Tokio]]
[[Kategorie:Präfektur Tokio| ]]</text>
      <sha1>mw331f8297bhfnc6e99vpnjargx6155</sha1>
    </revision>
  </page>
| name | optionality | explanation | note | 
|---|---|---|---|
| page | Wikipediaページの情報. | ||
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). | |
| ns | ページの属するWikipediaの名前空間の番号. | ‘0’ は(Main/Article),すなわち, 標準名前空間(別名:article namespace). 詳細はWikipedia Help: 名前空間を参照. | |
| id | Wikipedia page ID. | webページの‘wgArticleID’、 Cirrus Dumpの‘_id’. | |
| revision | ページのrevision情報. | ||
| id (revisionの子要素) | Revision ID. | ||
| timestamp | revisionのtimestamp. | ||
| text | ページrevisionのテキスト. | 
Wikipediaダンプデータ: Cirrus Dump [JSON]
example
{
   "index": {
      "_type": "page",
      "_id": "187830"
   }
}
{
   "template": [
      .....
   ],
   "content_model": "wikitext",
   "opening_text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....",
   "wiki": "dewiki",
   "auxiliary_text": [
      "Tōkyō-to 東京都 Basisdaten Verwaltungssitz: Shinjuku, Tokio Region: Kantō ......
   ],
   "language": "de",
   "title": "Präfektur Tokio",
   "text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....,
   "defaultsort": "Prafektur Tokio",
   "timestamp": "2018-12-07T21:06:42Z",
   "redirect": [
      {
         "namespace": 0,
         "title": "Präfektur Tōkyō"
      }, 
      {
         "namespace": 0,
         "title": "Präfektur Tokyo"
      }, 
      .....
   ],
   "wikibase_item": "Q1490",
      .....
   "source_text": "{
      {
         Infobox Japanische Präfektur\n
         |Name           = Tokio\n|
         |Kanji          = 東京都\n|
         .....
   ",
   .....
   "namespace_text": "",
   "namespace": 0,
   "text_bytes": 34389,
   "incoming_links": 1550,
   "category": [
      "Japanische Präfektur",
      "Präfektur Tokio"
   ],
   "outgoing_link": [
      "Südkorea",
      .....
   ],
   "popularity_score": 3.7743927508022694e-06,
   "create_timestamp": "2004-04-19T16:48:45Z"
}
redirectそのページにリダイレクトされるページに関するリダイレクト情報.namespaceWikipedia名前空間の番号.‘0’はWikipediaページの(Main/Article), すなわち, 標準名前空間(main namespace、別名article namespace). 詳しくは Wikipedia Help: 名前空間を参照。
| name | optionality | explanation | note | 
|---|---|---|---|
| _type | type. | ‘page’か’namespace’のいずれか. | |
| _id | Wikipediaページ ID. | ‘wgArticleID’ (webページ),’pageid'(Training data). | |
| opening_text | 最初の見出し(heading)の前までのテキスト. | ||
| language | ページの言語コード. | ‘wgPageContentLanguage’(webページ),’lang'(言語間リンク). | |
| title | ページタイトル. | ‘wgTitle’(webページ). | |
| text | ページのテキスト. | ||
| timestamp | revisionのtimestamp. | ||
| wikibase_item | Wikidata entity ID. | ||
| source_text | source text. | ||
| incoming_links | ページへのリンク数. | ||
| category | ページの属する(Wikipediaの)カテゴリのリスト. | ||
| outgoing_link | 他のページへのリンク. | 
[参考] MediaWiki: Data dumps/Misc dumps format.
Cirrus SearchについてはMediaWiki: Help:CirrusSearchをご参照下さい。
拡張固有表現(Extended Named Entity)定義 (English/Japanese) [JSON]
example
{
   "ENE_id":"1.4.7.2",
   "definition":{
      "en":"A name of a political party, which is an organized group of
       people who come together to engage in political activities. A 
         smaller group inside a political party is not included here, 
         but in 1.4.7.0 Political_Organization_Other Category. ",
      "ja":"政治活動を行う政党や会派の名前。派閥など、政党内の小グループについては
         「政治的組織名_その他」とする。"
   },
   "name":{
      "en":"Political_Party",
      "ja":"政党名"
   },
   "parent_category":"1.4.7",
   "children_category":[
   ]
}
| name | optionality | explanation | note | 
|---|---|---|---|
| ENE_id | 拡張固有表現(ENE) (ver.8.0)のカテゴリID. | ||
| definition | ENE (ver.8.0)のカテゴリ定義. | ||
| en | 英語. | ||
| ja | 日本語. | ||
| name | ENE (ver.8.0)のカテゴリ名. | ||
| parent_category | ENE (ver.8.0)の階層の一つ上のカテゴリ. | ||
| children_category | ENE (ver.8.0)の階層の一つ下のカテゴリ. | 
提出フォーマット [JSON]
example
{
   "pageid": 34550,
   "title": "Der kleine Prinz",
   "ENEs": [
      {
         "ENE_id": "1.7.19.3",
         "ENE_name": "Movie",
         "score": 0.684
      }, 
      {
         "ENE_id": "1.7.19.6",
         "ENE_name": "Book",
         "score": 0.924
      }, 
      {
         "ENE_id": "1.7.19.2",
         "ENE_name": "Broadcast_Program",
         "score": 0.213
      }, 
      {
         "ENE_id": "1.7.19.4",
         "ENE_name": "Show",
         "score": 0.107
      }
   ]
}
| name | optionality | explanation | note | 
|---|---|---|---|
| pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (CirrusDump). | |
| title | optional | ページタイトル. | ‘wgTitle'(webページ), ‘title'(CirrusDump). | 
| ENEs | システムの予測した拡張固有表現(ENE) (ver.8.0)のカテゴリ情報.各ページに対してシステムが予測した(1つ以上の)ENEのカテゴリの情報. | ||
| ENE_id | システムの予測したENE (ver.8.0)のカテゴリID. | 注意: 記載されたENE_idはscoreの値に関わらず評価対象となります. | |
| ENE_name | optional | システムの予測したENE (ver.8.0)のカテゴリ名. | |
| score | optional but highly recommended | 分類対象のページに対してシステムが予測した各カテゴリのスコア. | 注意: スコアは0から1の範囲で正規化されていることが望ましい. 正規化していない値を用いる場合はシステム報告レポートに値の範囲を明記して下さい. | 
※ The time stamp of All Wikipedia related data is January 20, 2019