注意:以下の例では見やすさのために実際は1行のデータを複数行で示しています。また、実際は存在しないスペースが入っている場合があります。
各言語のトレーニングデータ [JSON]
example
{
"pageid": 187830,
"title": "Präfektur Tokio",
"ja_pageid": 774362,
"ja_title": "東京都",
"_stamp": "HAND.AIP.201910",
"ENEs": [
{
"ENE_id": "1.5.1.2",
"ENE_name": "Province"
}
]
}
| name | optionality | explanation | note |
|---|---|---|---|
| pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title’ (Cirrus Dump). | |
| ja_pageid | 上記pageidのページのリンク元である、対応する日本語ページのID. | ||
| ja_title | 上記pageidのページのリンク元である、対応する日本語ページのページタイトル. | ||
| _stamp | アノテーションタイプの識別用フラグ. 値は“AUTO.TOHOKU.201906” , “HAND.AIP.201910”のいずれか.“AUTO”はシステムにより推定した分類、“HAND”は人手による分類であることを示す. | ||
| ENEs | ENE (ver.8.0)のカテゴリ情報. | 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報. [注意]:トレーニングデータの場合、各言語のWikipediaページに、リンク元の対応する日本語ページの拡張固有表現(ENE) (ver.8.0)のカテゴリが自動的に付与される. |
|
| ENE_id | |||
| ENE_name | ENE (ver.8.0)カテゴリ名. |
注意:
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
日本語ウィキペディアの拡張固有表現(ENE)カテゴリ分類データ [JSON]
リストページ、曖昧さ回避のページ、マイナーなページ(被リンク数5未満)は削除済みです。
example
{
"pageid": 774362,
"title": "東京都",
"ENEs": {
"AUTO.TOHOKU.201906": [
{
"ENE_id": "1.5.1.2",
"prob": 0.9403673410415649
}
],
"HAND.AIP.201910": [
{
"ENE_id": "1.5.1.2",
"prob": 1.0
}
]
}
}
| name | optionality | explanation | note |
|---|---|---|---|
| pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title’(Cirrus Dump). | |
| ENEs | 拡張固有表現(ENE) (ver.8.0) のカテゴリ情報. 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報. |
||
| ENE_id | ENE (ver.8.0)のカテゴリID. | ||
| prob | このページがENE_idのカテゴリである確率. | 人手で分類されたページの場合は、1.0. | |
| “AUTO.TOHOKU.201906”, “HAND.AIP.201910” | アノテーションタイプの識別用フラグ. “HAND”は人手による分類であることを示す. | [注意]: ENEsに”AUTO.TOHOKU.201906″と”HAND.AIP.201910″(人手による分類)の両方が含まれる場合は、後者の人手による分類を利用して下さい. |
言語間リンクデータ[JSON]
example
{
"source":{
"pageid":774362,
"lang":"ja",
"title":"東京都"
},
"destination":{
"pageid":30057,
"lang":"en",
"title":"Tokyo"
}
}
{
"source":{
"pageid":774362,
"lang":"ja",
"title":"東京都"
},
"destination":{
"pageid":187830,
"lang":"de",
"title":"Präfektur Tokio"
}
}
| name | optionality | explanation | note |
|---|---|---|---|
| source | 言語間リンクのリンク元ページ(source ページ)の情報. | ||
| destination | 言語間リンクのリンク先ページ(destination ページ)の情報. | ||
| pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
| lang | ページの言語コード. | ‘wgPageContentLanguage’ (webページ), ‘language'(Cirrus Dump). | |
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). |
Wikipediaダンプデータ: Wiki Dump [XML]
example
<page>
<title>Präfektur Tokio</title>
<ns>0</ns>
<id>187830</id>
<revision>
<id>183496717</id>
<parentid>179947161</parentid>
<timestamp>2018-12-07T21:06:42Z</timestamp>
.....
<model>wikitext</model>
<format>text/x-wiki</format>
<text xml:space="preserve">{{Infobox Japanische Präfektur
|Name = Tokio
|Kanji = 東京都
.....
}}
Die '''Präfektur Tokio''' ({{jaS|東京都|Tōkyō-to}}, {{enS|Tokyo Prefecture}} oder in Eigenbezeichnung '''Tokyo Metropolis''', oft nur ''Tokyo'') ist eine der [[Präfektur (Japan)|Präfekturen Japans]] und liegt größtenteils in der [[Kantō-Ebene]].
.....
{{SORTIERUNG:Prafektur Tokio}}
[[Kategorie:Japanische Präfektur|Tokio]]
[[Kategorie:Präfektur Tokio| ]]</text>
<sha1>mw331f8297bhfnc6e99vpnjargx6155</sha1>
</revision>
</page>
| name | optionality | explanation | note |
|---|---|---|---|
| page | Wikipediaページの情報. | ||
| title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). | |
| ns | ページの属するWikipediaの名前空間の番号. | ‘0’ は(Main/Article),すなわち, 標準名前空間(別名:article namespace). 詳細はWikipedia Help: 名前空間を参照. | |
| id | Wikipedia page ID. | webページの‘wgArticleID’、 Cirrus Dumpの‘_id’. | |
| revision | ページのrevision情報. | ||
| id (revisionの子要素) | Revision ID. | ||
| timestamp | revisionのtimestamp. | ||
| text | ページrevisionのテキスト. |
Wikipediaダンプデータ: Cirrus Dump [JSON]
example
{
"index": {
"_type": "page",
"_id": "187830"
}
}
{
"template": [
.....
],
"content_model": "wikitext",
"opening_text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....",
"wiki": "dewiki",
"auxiliary_text": [
"Tōkyō-to 東京都 Basisdaten Verwaltungssitz: Shinjuku, Tokio Region: Kantō ......
],
"language": "de",
"title": "Präfektur Tokio",
"text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....,
"defaultsort": "Prafektur Tokio",
"timestamp": "2018-12-07T21:06:42Z",
"redirect": [
{
"namespace": 0,
"title": "Präfektur Tōkyō"
},
{
"namespace": 0,
"title": "Präfektur Tokyo"
},
.....
],
"wikibase_item": "Q1490",
.....
"source_text": "{
{
Infobox Japanische Präfektur\n
|Name = Tokio\n|
|Kanji = 東京都\n|
.....
",
.....
"namespace_text": "",
"namespace": 0,
"text_bytes": 34389,
"incoming_links": 1550,
"category": [
"Japanische Präfektur",
"Präfektur Tokio"
],
"outgoing_link": [
"Südkorea",
.....
],
"popularity_score": 3.7743927508022694e-06,
"create_timestamp": "2004-04-19T16:48:45Z"
}
redirectそのページにリダイレクトされるページに関するリダイレクト情報.namespaceWikipedia名前空間の番号.‘0’はWikipediaページの(Main/Article), すなわち, 標準名前空間(main namespace、別名article namespace). 詳しくは Wikipedia Help: 名前空間を参照。
| name | optionality | explanation | note |
|---|---|---|---|
| _type | type. | ‘page’か’namespace’のいずれか. | |
| _id | Wikipediaページ ID. | ‘wgArticleID’ (webページ),’pageid'(Training data). | |
| opening_text | 最初の見出し(heading)の前までのテキスト. | ||
| language | ページの言語コード. | ‘wgPageContentLanguage’(webページ),’lang'(言語間リンク). | |
| title | ページタイトル. | ‘wgTitle’(webページ). | |
| text | ページのテキスト. | ||
| timestamp | revisionのtimestamp. | ||
| wikibase_item | Wikidata entity ID. | ||
| source_text | source text. | ||
| incoming_links | ページへのリンク数. | ||
| category | ページの属する(Wikipediaの)カテゴリのリスト. | ||
| outgoing_link | 他のページへのリンク. |
[参考] MediaWiki: Data dumps/Misc dumps format.
Cirrus SearchについてはMediaWiki: Help:CirrusSearchをご参照下さい。
拡張固有表現(Extended Named Entity)定義 (English/Japanese) [JSON]
example
{
"ENE_id":"1.4.7.2",
"definition":{
"en":"A name of a political party, which is an organized group of
people who come together to engage in political activities. A
smaller group inside a political party is not included here,
but in 1.4.7.0 Political_Organization_Other Category. ",
"ja":"政治活動を行う政党や会派の名前。派閥など、政党内の小グループについては
「政治的組織名_その他」とする。"
},
"name":{
"en":"Political_Party",
"ja":"政党名"
},
"parent_category":"1.4.7",
"children_category":[
]
}
| name | optionality | explanation | note |
|---|---|---|---|
| ENE_id | 拡張固有表現(ENE) (ver.8.0)のカテゴリID. | ||
| definition | ENE (ver.8.0)のカテゴリ定義. | ||
| en | 英語. | ||
| ja | 日本語. | ||
| name | ENE (ver.8.0)のカテゴリ名. | ||
| parent_category | ENE (ver.8.0)の階層の一つ上のカテゴリ. | ||
| children_category | ENE (ver.8.0)の階層の一つ下のカテゴリ. |
提出フォーマット [JSON]
example
{
"pageid": 34550,
"title": "Der kleine Prinz",
"ENEs": [
{
"ENE_id": "1.7.19.3",
"ENE_name": "Movie",
"score": 0.684
},
{
"ENE_id": "1.7.19.6",
"ENE_name": "Book",
"score": 0.924
},
{
"ENE_id": "1.7.19.2",
"ENE_name": "Broadcast_Program",
"score": 0.213
},
{
"ENE_id": "1.7.19.4",
"ENE_name": "Show",
"score": 0.107
}
]
}
| name | optionality | explanation | note |
|---|---|---|---|
| pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (CirrusDump). | |
| title | optional | ページタイトル. | ‘wgTitle'(webページ), ‘title'(CirrusDump). |
| ENEs | システムの予測した拡張固有表現(ENE) (ver.8.0)のカテゴリ情報.各ページに対してシステムが予測した(1つ以上の)ENEのカテゴリの情報. | ||
| ENE_id | システムの予測したENE (ver.8.0)のカテゴリID. | 注意: 記載されたENE_idはscoreの値に関わらず評価対象となります. | |
| ENE_name | optional | システムの予測したENE (ver.8.0)のカテゴリ名. | |
| score | optional but highly recommended | 分類対象のページに対してシステムが予測した各カテゴリのスコア. | 注意: スコアは0から1の範囲で正規化されていることが望ましい. 正規化していない値を用いる場合はシステム報告レポートに値の範囲を明記して下さい. |
※ The time stamp of All Wikipedia related data is January 20, 2019