森羅2019データについて

お知らせ

2019/7/23: 2018年度プロジェクトの結果をアンサンブルしたデータを公開しました。

2019/7/12: 最終版を公開いたしました。以前のバージョンをお持ちの方は、最終版をダウンロードいただき、お使い頂ますようよろしくお願い致します。

2019/7/12: 最終版を公開いたしました。以前のバージョンをお持ちの方は、最終版をダウンロードいただき、お使い頂ますようよろしくお願い致します。

目次


データダウンロード

参加者情報の把握のため、データのダウンロードにはログインが必要です。アカウントをお持ちでない方は、こちらからアカウントを作成いただけます。

アノテーション対象データ

参加者が実際にWikipedia記事中のどこが属性に対応する値なのかをアノテーションする対象のデータです。2種類のデータを配布しています。参加者はこれらのデータのどちらを使用するのか、あるいはどちらも使用するのかを自由に選択できます。各記事はタスクの対象カテゴリそれぞれに分類されたものが配布されています。

  • HTMLデータ

各ENEカテゴリに分類されるWikipedia項目それぞれの記事HTMLデータです。ZIP圧縮されています。

Wikipediaダンプデータに基づく、MediaWikiサーバー上で作成されたHTMLデータとなります。このため、一部表示が崩れているページなどが含まれています。

  • PlainTextデータ

上記HTMLからタグ情報などを削除したテキストデータです。

HTMLデータ上でエスケープされていた文字について、形態素解析処理などに使いやすいよう、アンエスケープしています。

トレーニングデータ

参加者が教師あり学習手法のトレーニングなどに使用できる、対象カテゴリに分類される記事のうち、少数の記事に対して人手によるアノテーションを施したデータです。JSON形式となっています。

JSONは、1アノテーション(記事毎・属性毎)に以下のような形式で1行に記載されています(以下は見やすさのため、インデント入り確認用ファイルのものとなります)。各ファイルはこのような行が各カテゴリ分、全記事・全属性分列記されています。

{
    "ENE": "1.1",   --> 分類先のENEカテゴリのIDです。例の"1.1"は、"人名"カテゴリです
    "page_id": "1047338",  --> 対象の記事IDです。HTMLデータ、PlainTextデータのファイル名と一致します
    "title": "波多野秀長",  --> 記事タイトルです
    "attribute": "職業",
    "html_offset": {   --> HTMLデータ上でのオフセット位置です。
        "end": {          --> 終了位置。行数と位置からなるオブジェクトです
            "line_id": 34,
            "offset": 274
        },
        "start": {        --> 開始位置。行数と位置からなるオブジェクトです
            "line_id": 34,
            "offset": 272
        },
        "text": "武将"   --> アノテーション位置のテキストです
    },
    "text_offset": {  --> PlainTextデータでのオフセット位置です。HTMLと同様の構造です。
        "end": {
            "line_id": 34,
            "offset": 35
        },
        "start": {
            "line_id": 34,
            "offset": 33
        },
        "text": "武将"
    }
}

その他のデータ

Cirrus Dump データ

属性値抽出の抽出元となるWikipedia記事のデータです。ソーステキスト(MediaWiki)、MediaWikiテンプレートを除いたプレーンテキストの他、冒頭文、使用しているテンプレート情報、被リンク数、リンク先ページなどのWikipediaのメタ構造に関する情報が記載されています。JSON形式です。

  • content 項目ページ (namespaceが0) のデータのみが格納されています。本タスクの対象となる記事はこちらのデータに格納されています。
  • general 項目以外のページ (namespaceが0以外) のデータが格納されています。テンプレートやWikipediaカテゴリなどの情報が必要な場合にお使い下さい。

森羅2018提出結果

こちらからダウンロードいただけます。

以下の昨年度参加者様にデータの公開にご協力いただきました。

  • 長岡技術科学大学 知識マイニング研究室 様
  • 豊橋技術科学大学 応用数理ネットワーク研究室 様
  • 日本ユニシス 様
  • SanSan 様
  • 岡山県立大学 知識情報処理研究室 様
  • 富士ゼロックス 様
  • AIP

上記の結果をアンサンブル学習した結果をこちらからダウンロードしていただけます。アンサンブル手法の詳細については、以下の資料をご参照ください。

共有タスクにおけるGA重み付け加重投票を用いた属性値アンサンブル

Wikipedia2Vec モデルデータ(日本語ウィキペディア20171103ダンプ)

こちらからダウンロードいただけます。

  • ja20171103_wiki2vec.model :ベクトルのモデルファイル
  • ja20171103_wiki2vec.txt: ↑をテキスト化したもの

Wikipedia2Vecについて