森羅2021-LinkJP

日本語Wikipediaリンクタスク

本タスクは、Wikipediaページの属性値を、該当するWikipediaページに紐づけるタスクです。対象の属性値は与えられます。例えば、以下の例で、島崎藤村の「作品名」という属性として抽出されている「嵐」を、その本のWikipediaページに紐づけます。

*1

キックオフミーテイングの開催

本プロジェクトのキックオフミーティングを開催します。多くの方々の参加をお待ちしております。

2021年4月22日(木曜)14:00-16:00 @ Zoom (無料:参加申し込みはこちら

 14:00-14:05 開会
 14:05-15:10 タスク説明&質疑応答(オーガナイザー)
 15:15-15:55 招待講演(山田育矢(株)Studio Ousia)

講演題目: エンティティエンベディングの学習とその活用
講演の概要:WikipediaやWikidata等の大規模知識ベースを使って訓練したエンティティエンベディングを活用して,自然言語処理の様々なタスクを解く方法について解説を行う.特に講演者らが開発した2つのエンティティエンベディング「Wikipedia2Vec」と「LUKE」について詳しく紹介するとともに,これらのツールのエンティティリンキングへの応用についてあわせて解説する.
講演者略歴:2007年にStudio Ousiaを創業し,自然言語処理の技術開発に従事.2000年に学生ベンチャー企業を起業し,2005年に売却.その後,Studio Ousiaを設立.2016年に慶應義塾大学にて博士(学術)を取得.理化学研究所AIP客員研究員.

 15:55-16:00 閉会


森羅プロジェクトの紹介

森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報をWikipedia記事にアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。

構造化は3段階のステップにわけられます。

      1. Wikipedia項目のENEへの分類 
            (例:「島崎藤村」ページを「人名」に分類)
      2. ENEで定義された属性に対応する属性値を抽出 
            (例:「人名」の「作品」という属性に対応する「嵐」を属性値として抽出)
      3. 属性値を、それに対応するWikipediaページに紐づけ 
            (例:属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ)

森羅2021-LinkJPタスクは、上記の3番目のタスクに該当します。

森羅プロジェクトは、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する「Resource by Collaborative Contribution(協働による知識構築)」の考えに基づくプロジェクトです。


開催スケジュール

  • データ公開:2021年3月
  • キックオフミーティング:2021年4月22日14:00-16:00 @zoom
  • リーダーボード運用開始(予定):2021年4月下旬
  • 評価対象データの公開:2021年9月10日
  • 実行結果の提出:2021年9月30日
  • 評価結果の返却:2021年10月31日
  • ワークショップ:2021年12月

公開データ

公開データーは以下の通りです。

      • サンプルデータ(7カテゴリーx50件)
          • こちらからダウンロードできます。このデータはフォーマットやタスクをご理解いただくことが目的で、機械学習用のトレーニングデータとしては小さいかもしれません。(9MB。入力、出力ファイルおよび対象のWikipediaページ)
          • トレーニングデータはこちらでは、作成しません。機械学習のトレーニング向けには、例えば、Wikipediaに元々ついているリンクなどを利用して下さい。この創意工夫も今回のタスクの一部と致します。
      • リンク先のWikipediaデータ
          • こちらからダウンロードできます(下記の2つのデータの内容は同一です。適する方をご利用ください。html形式も準備が出来次第公開予定です)
            • WikiDump(17GB。SQL用の元データ)
            • Cirrus Search用データ(9GB。text形式のリンク対象先Wikipediaデータ)
      • 評価データ(各カテゴリー100件)
          • 9月10日に参加者にお配りします。(入力ファイル、対象のWikipediaページ)

リーダーボード

リーダーボードを用意します。リンクは準備が出来次第公開します。


タスク詳細

本タスクは、Wikipediaページの属性値を該当するWikipediaページに紐づけるタスクです。対象の属性値は与えられます。例えば、島崎藤村の「作品」という属性として抽出されている「嵐」を、その作品のWikipediaページに紐づけます。対象ページがないと判断した際には、その属性値に対する情報は出力ファイルに含めないでください。

対象

ENEの内7種類のカテゴリーの数値表現、時間表現、異表記などを除く下記の属性を対象とします。

(属性定義書 ダウンロードはこちら

      • 原則的にひとつの属性値に対して意味的に一致するWikipediaページを対応付け
      • 希に複数のWikipediaページに紐づけられることがある
        例)「【マルタ】で会議が開催された」
        候補1:国名「マルタ共和国」
        候補2:島名「マルタ島」
           判断不可能なため、両者を紐づけて良い(一つを紐づけただけでも正解とする)。その際には、出力のデーターには「マルタ共和国」「マルタ島」のそれぞれのデータを作成する。
      • 下記の特例を除いて、見出し語自身には紐付けしない
        • 属性値が見出し語の別名
        • 属性値が見出し語の合併前の地名、組織名
      • 「拡張固有表現定義書」の「数値表現」「時間表現」「別名以外の異表記など」は今回のタスクの対象外

    リンクの種類

    リンクには以下の3種類があり、この種類も含めた評価と含めない評価の2通りで評価を行います。

    リンクの種類は「出力ファイル」においては、以下の3つのフラグで示します。1つ以上のフラグがtrueになることも可能です。リンクタイプを判断した場合には、trueかfalseのどちらかを必ず出力してください。省略された場合には「判断しなかった」と解釈します。リンクタイプを判断しない形式での評価では、このフラグは無視して評価します。(その形式での参加のみの場合には、この情報を記載しないでも構いません)

    "link_type": {
        "last_name" : false,
        "part_of" : false,
        "derivation_of" : false
    }

    その他のルール

    1.意味に基準を置く

    例えば、「中国」とあっても、それが「中華人民共和国」を意味する場合には「中国」というWikipediaページ(中国の歴史的変遷が書かれているページ)ではなく、「中華人民共和国」のWikipediaページに紐づける

    2.属性「別名」「異表記」などの扱い

    下記の属性は今回のタスクの対象外にする。属性:読み、異表記、本名、正式名称、IATAコード、ICAOコード、CAS番号、化学式、示性式

    ただし、「別名」は対象とし、一般的には見出し語のページへのリンクとなるが、意味的に一致する他のページが存在する場合はそちらにも紐づける。

    3.「曖昧さ回避」のページ

    リンク先が「曖昧さ回避」の場合は不採用です。意味的に一致するページのリンクに紐づけます。対象のWikipeidaページがない場合には、何も紐づけないのが正解です。

    4.リダイレクト(転送)ページ

    リダイレクトが存在する場合には、リダイレクト元ではなくリダイレクト先のページに紐づける。(例えば、「讀賣新聞」は「読売新聞」にリダイレクトされているが、その場合には、「読売新聞」のページがリンク先とする)


    入出力フォーマット

    入力 [JSON](下記のデータをお渡しします。offsetは2つの形式のWikipediaデータの属性値の位置を表します)

    下記のデータは、「南千住町」の「所在地」という属性の値である「東京都荒川区」のリンク先を探す課題のデータです。

        • 「南千住町」はENEカテゴリー1.5.1.1(市区町村名)に分類されており、その「所在地」属性に関するデータです。
        • 「東京都荒川区」は「南千住町」のWikipediaページ内の該当オフセットにある文字列です。
        •  以下の例では見やすさのために実際は1行のデータを複数行で示しています。

    {
      "page_id": "1182358",
      "title": "南千住町",
      "attribute": "所在地",
      "html_offset": {
        "start": {
          "line_id": 37,
          "offset": 61
        },
        "end": {
          "line_id": 37,
          "offset": 132
        },
        "text": "東京都</a><a href=\"/index.php/%E8%8D%92%E5%B7%9D%E5%8C%BA\" title=\"荒川区\">荒川区"
      },
      "text_offset": {
        "start": {
          "line_id": 37,
          "offset": 0
        },
        "end": {
          "line_id": 37,
          "offset": 6
        },
        "text": "東京都荒川区"
      },
      "ENE": "1.5.1.1"
    }

    出力 [JSON](上記の入力に対して提出していただくシステム出力です)

    上記のタスクにおいて、「東京都荒川区」という文字列のリンク先が「荒川区(pageid=18986)」というタイトルで示されるWikipediaページであるということが出力されています。

        • リンク種類を指定する際、”later_name”, “part_of”または”derivation_of”の内の該当するフラグをtrueとすることで、その種類の選択をしたことを示していただきます。複数選択可能です。完全一致(Match)と判断した場合には、全てのフラグをfalseにしてください。(falseの場合はそのペア自身の省略が可能です)
    {
      "page_id": "1182358",
      "attribute": "所在地",
      "html_offset": {
        "start": {
          "line_id": 37,
          "offset": 61
        },
        "end": {
          "line_id": 37,
          "offset": 132
        }
      },
      "ENE": "1.5.1.1",
      "link_page_id": "18986",
      "link_type": {
        "later_name": false,
        "part_of": false,
        "derivation_of": false
      }
    }

    評価方法

    後にアナウンスします。


    参加者とオーガナイザーの情報交流

    Slack: 

    http://shinra2021-linkjp.slack.com (参加者を中心としたslackです。実際の参加、評価などについて参加者と密に連絡を取り合いながら進めたいと思います)
    [invitation link (下記のURLをクリックし、ご登録ください)]
    https://join.slack.com/t/shinra2021-linkjp/shared_invite/zt-mz8k25b4-0HGdFiOdjKiNvlTh~CtSDQ

    Google groups:

    Community:
    shinra2021-linkjp-all@googlegroups.com (アナウンスなどをいたしますので、タスク参加者ではない方にもご登録ください)
    shinra2021-linkjp-participants@googlegroups.com (タスク参加者向けの情報を流します)

    Contact: (オーガナイザーへの質問、コメントなどはこちらにお願いします)

    結果提出方法は9月に公開します。


    実行委員

    【委員長】 関根 聡(理研AIP)
    【委員】野本昌子(理研AIP)中山功太(理研AIP/筑波大)隅田飛鳥(理研AIP)松田耕史(理研AIP/東北大)後藤美知子(理研AIP)宇佐美佑(Usami LLC)安藤まや(フリー)山田育矢(Studio Ousia/理研AIP)


    *1 著作権表示:右上:(C)Japanese Station, CC BY 3.0, via Wikimedia Commons
    右下:(C) Buonasera, CC BY-SA 3.0, via Wikimedia Commons