森羅2020-ML CFP


SHINRA2020-ML (森羅2020-ML:多言語分類タスク) 参加募集

データリリース: 2020年1月
参加登録 & 結果提出締切: 2020年8月31日 (延長)
NTCIR-15 カンファレンス: 2020年12月


森羅(SHINRA)は2017年にスタートしたリソース構築プロジェクトで、Wikipediaの知識を計算機が扱える形に構造化することを目指し、協働によるリソース構築(Resource by Collaborative Contribution(RbCC))という枠組みで、評価型タスクとリソース構築を同時に進めています。

SHINRA2020-MLは森羅プロジェクトの評価型タスク(shared-task)では初めてのテキスト分類タスクで、NTCIR-15のタスクの一つとして実施し、30言語のWikipedia項目のページの分類に取り組みます。

[タスク紹介ビデオ] (約11分:英語):
Introduction of SHINRA2020-ML task
(categorization of 30-language Wikipedia into ENE)

タスク概要

30言語(*1)のWikipediaページを、分類済の日本語記事と対象言語の対応するページへの言語間リンクを利用して、約220カテゴリに分類するタスクです。カテゴリは拡張固有表現(Extended Named Entity)という、名前、時間表現、数値表現のための4階層のオントロジーで定義されています。

参加者は1つ以上の対象言語を選び、分類済の日本語ページから言語間リンクで対応づけられたWikipediaページをトレーニングデータとして、残りのリンクのない未分類ページを分類します。詳しくは後述のタスク詳細をご覧ください。

タスク終了後は全ての参加システムの結果を合わせて(参加者とともに)アンサンブル学習を行い、結果を公表します。

多くの方にご参加いただき、皆様の善意でよりよいタスクとなることを期待しています。

*1 対象の30言語: 英語、スペイン語、フランス語、ドイツ語、中国語、ロシア語、ポルトガル語、イタリア語、アラビア語、インドネシア語、トルコ語、オランダ語、ポーランド語、ペルシア語、スウェーデン語、ベトナム語、韓国語、ヘブライ語、ルーマニア語、ノルウェー語、チェコ語、ウクライナ語、ヒンドゥー語、フィンランド語、ハンガリア語、デンマーク語、タイ語、カタルーニャ語、ギリシャ語、ブルガリア語

スケジュール

データリリース: 2020年1月
参加登録 & 結果提出締切: 2020年8月31日 (延長)
評価結果の返却: 2020年9月中旬 (延長)
NTCIR-15 カンファレンス (NII, Tokyo): 2020年12月

参加方法

初めて森羅(SHINRA)のタスクに参加される方、どんなタスクかご興味のある方は、ぜひ「トライアルデータセット」をお試し下さい。データセットのダウンロードやタスクの参加方法については、まず森羅2020-mlタスクの参加方法のページの説明をご確認下さい。

本タスクはNTCIR-15のタスクとして実施します。参加される方はNTCIR-15の参加方法の説明ページからご登録ください。

タスク詳細

多値分類

本タスクは多値分類で、対象ページを1つ以上の該当するカテゴリに分類します。カテゴリは以下の抜粋に示すような4階層の拡張固有表現階層(ENE taxonomy) (ver.8.0)で定義されています。拡張固有表現の詳細についてはこちらをご覧下さい。

ENE taxonomyより一部抜粋
ENE_id name(en)
1 名前
1.4 組織名
1.4.6 法人名
1.4.6.2 企業名
1.8 バーチャルアドレス
1.8.1 チャンネル名

例えば、‘CBS‘(CBS放送)のページが「企業名」 (ENE_id:1.4.6.2)、「チャンネル名」(ENE_id:1.8.1)に分類される場合、システムはこれら全てのカテゴリを正しく推定することが期待されます。

各ページは拡張固有表現階層(ENE taxonomy) (ver.8.0)の候補のカテゴリのうち、もっとも下位のカテゴリに分類して下さい。例えば前述の例で「企業名」(ENE_id:1.4.6.2)の代わりに「法人名」 (ENE_id:1.4.6)、「組織名」 (ENE_id:1.4)、「名前」(ENE_id:1)を推定した場合、いずれも正解とはなりませんのでご注意下さい。

注意:

  • 曖昧さ回避のページ、リダイレクト等やWikipediaの標準名前空間に属さないページはENE_id:9(IGNORED)に分類して下さい。
  • 名前空間が記載されていない等、フォーマットが不正なページについては無視して下さい。(例: ‘_id’:”AVQXnGmF62ewIKYZMTMQ” )
データセット

参加者にはトレーニングデータとターゲットデータ(Wikipediaダンプ)を配布します。 SHINRA2020-ML: データダウンロード(Minimum Datasets)からダウンロードして下さい。

ターゲットデータの一部は評価の際にテストデータとして使用します。

外部データの利用

本タスクの実施に外部データを利用する場合は、どのデータを使用したかをシステム報告レポートに明記して下さい。

結果の提出

参加者はターゲットデータ全体についてのタスクの実行結果を提出して下さい。

提出方法については森羅2020-ML: 実行結果の提出をご覧ください。

提出フォーマットについては、森羅2020-ML: データフォーマット(提出フォーマット)をご確認下さい。提出フォーマットに記載されたENE_idはscoreの値によらず評価対象となりますのでご注意下さい。

評価

多値分類に関するシステムの性能を、micro average F1 measure(micro-averaged precisionとmicro-averaged recallの調和平均)を用いて評価します。なお、テストデータでの各カテゴリの分布はターゲットデータおよびトレーニングデータでのカテゴリの分布とは異なる場合があります。

システムは各ページを1つ以上の拡張固有表現階層(ENE taxonomy) (ver.8.0)のカテゴリに正しく分類することが期待されています。推定されたカテゴリが正解のカテゴリと一致しない場合は得点を与えられません。

オーガナイザー

委員長

関根聡 (理研AIP)

実行委員

野本昌子 (理研AIP)
隅田飛鳥 (理研AIP)
中山功太 (筑波大/理研AIP)
松田耕史 (理研AIP/東北大)

プログラム委員:

Jiewen Wu (A*STAR, Singapore)
Christophe Gravier (Université de Lyon, France)
Hsin-Hsi Chen (National Taiwan University, Taiwan)
Haizhou Li (National University of Singapore, Singapore)
Virach Sornlertlamvanich (Thammasat Univercity,
Thailand / Musashino University, Japan)
Massimo Poesio (Mary Queen University of London, England)
Rafael Muñoz Guillena (Universitat d’Alacant, Spain)
Min Zhang (Soochow University, China)
Wenliang Chen (Soochow University, China)
Johan Bos (University of Groningen, Netherland)
Gerhard Weikum (DFKI, Germany)
Asif Ekbal (IIT Patna, India)
Gjergji Kasneci (Tübingen University, Germany)
Vasudeva Varma (IIIT Hyderabad, India)
Asanee Kasetsart (Kasetsart University, Thailand)
Pierpaolo Basile (Università degli Studi di Bari Aldo Moro, Italy)
David Nadeau (Innodata, Canada)
Murat Can Ganiz (Marmara University, Turkey)
Adrian Iftene (“Alexandru Ioan Cuza” University, Romania)
Tommi A Pirinen (Universität Hamburg, Germany)
Tru Cao (The University of Texas Health Science Center at Houston, USA)
Petya Osenove (Sofia University “St. Kl. Ohridski”, Bulgaria)
Le Hong Phuong (Vietnam National University, Hanoi, Vietnam)
Nguyen Thi Minh Huyen (Vietnam National University, Hanoi Vietnam)
Nicolas Heist (Universität Mannheim, Germany)
Zdenek Zabokrtsky (Charles University, Czech Republic)
Tim Finin (University of Maryland, USA)
Su Jian (A*STAR, Singapore)
Manar Alkhatib (The British University in Dubai, United Arab Emirates)
Key-Sun Choi (Korea Advanced Institute of Science and Technology, Korea)
Nigel Collier (University of Cambridge, UK)
山田育矢(Studio Ousia/理研AIP)
乾健太郎(東北大/理研AIP)
岩倉友哉(富士通)
Mehrnoush Shamsfard (Shahid Beheshti University, Iran)
Galia Angelova (Bulgarian Academy of Sciences, Bulgaria)
宮尾祐介(東京大)
Kiril Simov (Bulgarian Academy of Sciences, Bulgaria)
馬場雪乃(筑波大)
吉岡真治(北海道大)
Heng Ji (University of Illinois at Urbana-Champaign, USA)
Miloslav Konopik (University of West Bohemia, Czech Republic)
Steven Skiena (Stony Brook University, USA)
Catherine Legg (Deakin University, Australia)

連絡先

関連リンク