注意:以下の例では見やすさのために実際は1行のデータを複数行で示しています。また、実際は存在しないスペースが入っている場合があります。
各言語のトレーニングデータ [JSON]
example
{ "pageid": 187830, "title": "Präfektur Tokio", "ja_pageid": 774362, "ja_title": "東京都", "_stamp": "HAND.AIP.201910", "ENEs": [ { "ENE_id": "1.5.1.2", "ENE_name": "Province" } ] }
name | optionality | explanation | note |
---|---|---|---|
pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (Cirrus Dump). | |
title | ページタイトル. | ‘wgTitle'(webページ), ‘title’ (Cirrus Dump). | |
ja_pageid | 上記pageidのページのリンク元である、対応する日本語ページのID. | ||
ja_title | 上記pageidのページのリンク元である、対応する日本語ページのページタイトル. | ||
_stamp | アノテーションタイプの識別用フラグ. 値は“AUTO.TOHOKU.201906” , “HAND.AIP.201910”のいずれか.“AUTO”はシステムにより推定した分類、“HAND”は人手による分類であることを示す. | ||
ENEs | ENE (ver.8.0)のカテゴリ情報. | 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報. [注意]:トレーニングデータの場合、各言語のWikipediaページに、リンク元の対応する日本語ページの拡張固有表現(ENE) (ver.8.0)のカテゴリが自動的に付与される. |
|
ENE_id | |||
ENE_name | ENE (ver.8.0)カテゴリ名. |
注意:
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。
その場合には、そのページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
日本語ウィキペディアの拡張固有表現(ENE)カテゴリ分類データ [JSON]
リストページ、曖昧さ回避のページ、マイナーなページ(被リンク数5未満)は削除済みです。
example
{ "pageid": 774362, "title": "東京都", "ENEs": { "AUTO.TOHOKU.201906": [ { "ENE_id": "1.5.1.2", "prob": 0.9403673410415649 } ], "HAND.AIP.201910": [ { "ENE_id": "1.5.1.2", "prob": 1.0 } ] } }
name | optionality | explanation | note |
---|---|---|---|
pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
title | ページタイトル. | ‘wgTitle'(webページ), ‘title’(Cirrus Dump). | |
ENEs | 拡張固有表現(ENE) (ver.8.0) のカテゴリ情報. 各ページに付与された(1つ以上の)ENE (ver.8.0)のカテゴリの情報. |
||
ENE_id | ENE (ver.8.0)のカテゴリID. | ||
prob | このページがENE_idのカテゴリである確率. | 人手で分類されたページの場合は、1.0. | |
“AUTO.TOHOKU.201906”, “HAND.AIP.201910” | アノテーションタイプの識別用フラグ. “HAND”は人手による分類であることを示す. | [注意]: ENEsに”AUTO.TOHOKU.201906″と”HAND.AIP.201910″(人手による分類)の両方が含まれる場合は、後者の人手による分類を利用して下さい. |
言語間リンクデータ[JSON]
example
{ "source":{ "pageid":774362, "lang":"ja", "title":"東京都" }, "destination":{ "pageid":30057, "lang":"en", "title":"Tokyo" } } { "source":{ "pageid":774362, "lang":"ja", "title":"東京都" }, "destination":{ "pageid":187830, "lang":"de", "title":"Präfektur Tokio" } }
name | optionality | explanation | note |
---|---|---|---|
source | 言語間リンクのリンク元ページ(source ページ)の情報. | ||
destination | 言語間リンクのリンク先ページ(destination ページ)の情報. | ||
pageid | WikipediaページID. | ‘wgArticleID'(webページ), ‘_id'(Cirrus Dump). | |
lang | ページの言語コード. | ‘wgPageContentLanguage’ (webページ), ‘language'(Cirrus Dump). | |
title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). |
Wikipediaダンプデータ: Wiki Dump [XML]
example
<page> <title>Präfektur Tokio</title> <ns>0</ns> <id>187830</id> <revision> <id>183496717</id> <parentid>179947161</parentid> <timestamp>2018-12-07T21:06:42Z</timestamp> ..... <model>wikitext</model> <format>text/x-wiki</format> <text xml:space="preserve">{{Infobox Japanische Präfektur |Name = Tokio |Kanji = 東京都 ..... }} Die '''Präfektur Tokio''' ({{jaS|東京都|Tōkyō-to}}, {{enS|Tokyo Prefecture}} oder in Eigenbezeichnung '''Tokyo Metropolis''', oft nur ''Tokyo'') ist eine der [[Präfektur (Japan)|Präfekturen Japans]] und liegt größtenteils in der [[Kantō-Ebene]]. ..... {{SORTIERUNG:Prafektur Tokio}} [[Kategorie:Japanische Präfektur|Tokio]] [[Kategorie:Präfektur Tokio| ]]</text> <sha1>mw331f8297bhfnc6e99vpnjargx6155</sha1> </revision> </page>
name | optionality | explanation | note |
---|---|---|---|
page | Wikipediaページの情報. | ||
title | ページタイトル. | ‘wgTitle'(webページ), ‘title'(Cirrus Dump). | |
ns | ページの属するWikipediaの名前空間の番号. | ‘0’ は(Main/Article),すなわち, 標準名前空間(別名:article namespace). 詳細はWikipedia Help: 名前空間を参照. | |
id | Wikipedia page ID. | webページの‘wgArticleID’、 Cirrus Dumpの‘_id’. | |
revision | ページのrevision情報. | ||
id (revisionの子要素) | Revision ID. | ||
timestamp | revisionのtimestamp. | ||
text | ページrevisionのテキスト. |
Wikipediaダンプデータ: Cirrus Dump [JSON]
example
{ "index": { "_type": "page", "_id": "187830" } } { "template": [ ..... ], "content_model": "wikitext", "opening_text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. .....", "wiki": "dewiki", "auxiliary_text": [ "Tōkyō-to 東京都 Basisdaten Verwaltungssitz: Shinjuku, Tokio Region: Kantō ...... ], "language": "de", "title": "Präfektur Tokio", "text": "Die Präfektur Tokio (japanisch 東京都 Tōkyō-to, englisch Tokyo Prefecture oder in Eigenbezeichnung Tokyo Metropolis, oft nur Tokyo) ist eine der Präfekturen Japans und liegt größtenteils in der Kantō-Ebene. ....., "defaultsort": "Prafektur Tokio", "timestamp": "2018-12-07T21:06:42Z", "redirect": [ { "namespace": 0, "title": "Präfektur Tōkyō" }, { "namespace": 0, "title": "Präfektur Tokyo" }, ..... ], "wikibase_item": "Q1490", ..... "source_text": "{ { Infobox Japanische Präfektur\n |Name = Tokio\n| |Kanji = 東京都\n| ..... ", ..... "namespace_text": "", "namespace": 0, "text_bytes": 34389, "incoming_links": 1550, "category": [ "Japanische Präfektur", "Präfektur Tokio" ], "outgoing_link": [ "Südkorea", ..... ], "popularity_score": 3.7743927508022694e-06, "create_timestamp": "2004-04-19T16:48:45Z" }
redirectそのページにリダイレクトされるページに関するリダイレクト情報.namespaceWikipedia名前空間の番号.‘0’はWikipediaページの(Main/Article), すなわち, 標準名前空間(main namespace、別名article namespace). 詳しくは Wikipedia Help: 名前空間を参照。
name | optionality | explanation | note |
---|---|---|---|
_type | type. | ‘page’か’namespace’のいずれか. | |
_id | Wikipediaページ ID. | ‘wgArticleID’ (webページ),’pageid'(Training data). | |
opening_text | 最初の見出し(heading)の前までのテキスト. | ||
language | ページの言語コード. | ‘wgPageContentLanguage’(webページ),’lang'(言語間リンク). | |
title | ページタイトル. | ‘wgTitle’(webページ). | |
text | ページのテキスト. | ||
timestamp | revisionのtimestamp. | ||
wikibase_item | Wikidata entity ID. | ||
source_text | source text. | ||
incoming_links | ページへのリンク数. | ||
category | ページの属する(Wikipediaの)カテゴリのリスト. | ||
outgoing_link | 他のページへのリンク. |
[参考] MediaWiki: Data dumps/Misc dumps format.
Cirrus SearchについてはMediaWiki: Help:CirrusSearchをご参照下さい。
拡張固有表現(Extended Named Entity)定義 (English/Japanese) [JSON]
example
{ "ENE_id":"1.4.7.2", "definition":{ "en":"A name of a political party, which is an organized group of people who come together to engage in political activities. A smaller group inside a political party is not included here, but in 1.4.7.0 Political_Organization_Other Category. ", "ja":"政治活動を行う政党や会派の名前。派閥など、政党内の小グループについては 「政治的組織名_その他」とする。" }, "name":{ "en":"Political_Party", "ja":"政党名" }, "parent_category":"1.4.7", "children_category":[ ] }
name | optionality | explanation | note |
---|---|---|---|
ENE_id | 拡張固有表現(ENE) (ver.8.0)のカテゴリID. | ||
definition | ENE (ver.8.0)のカテゴリ定義. | ||
en | 英語. | ||
ja | 日本語. | ||
name | ENE (ver.8.0)のカテゴリ名. | ||
parent_category | ENE (ver.8.0)の階層の一つ上のカテゴリ. | ||
children_category | ENE (ver.8.0)の階層の一つ下のカテゴリ. |
提出フォーマット [JSON]
example
{ "pageid": 34550, "title": "Der kleine Prinz", "ENEs": [ { "ENE_id": "1.7.19.3", "ENE_name": "Movie", "score": 0.684 }, { "ENE_id": "1.7.19.6", "ENE_name": "Book", "score": 0.924 }, { "ENE_id": "1.7.19.2", "ENE_name": "Broadcast_Program", "score": 0.213 }, { "ENE_id": "1.7.19.4", "ENE_name": "Show", "score": 0.107 } ] }
name | optionality | explanation | note |
---|---|---|---|
pageid | (各言語の)Wikipediaページ ID. | ‘wgArticleID’ (webページ), ‘_id’ (CirrusDump). | |
title | optional | ページタイトル. | ‘wgTitle'(webページ), ‘title'(CirrusDump). |
ENEs | システムの予測した拡張固有表現(ENE) (ver.8.0)のカテゴリ情報.各ページに対してシステムが予測した(1つ以上の)ENEのカテゴリの情報. | ||
ENE_id | システムの予測したENE (ver.8.0)のカテゴリID. | 注意: 記載されたENE_idはscoreの値に関わらず評価対象となります. | |
ENE_name | optional | システムの予測したENE (ver.8.0)のカテゴリ名. | |
score | optional but highly recommended | 分類対象のページに対してシステムが予測した各カテゴリのスコア. | 注意: スコアは0から1の範囲で正規化されていることが望ましい. 正規化していない値を用いる場合はシステム報告レポートに値の範囲を明記して下さい. |
※ The time stamp of All Wikipedia related data is January 20, 2019