森羅2020-ML: 多言語分類タスク

タスク概要

森羅2020 多言語タスク(SHINRA2020-ML)は、テキスト分類の評価型ワークショップとリソース構築を同時に行うプロジェクトです。

このタスクは、30言語のWikipedia項目を、名前のオントロジーである219種類のカテゴリーを持つ拡張固有表現(ENE)に自動分類するタスクです。トレーニングデータはENEカテゴリに分類した日本語Wikipediaデータ(92万項目)と、日本語wikipedia項目から他の言語の同じ項目への言語間リンクを利用して作成します。例えば、ドイツ語Wikipediaには226万項目がありますが、この内の32万項目は日本語Wikipediaからの言語間リンクがあります。参加者は、この2つの情報を統合して作成できる(少しノイズが含まれる)分類済データをトレーニングデータとし、残りの194万項目に対して自動分類を試みていただきます。他の言語へのデータ数については、統計情報のページを御覧ください。評価データは参加者にはわからないようになっています。このため、参加者は全ての対象データ(上記の例では、約226万項目)を提出する必要があります。参加者は全ての言語の分類タスクに参加する必要はありません。1言語だけの参加も歓迎です。参加者によって提出されたデータは、一般公開され、アンサンブル学習などによるリソース構築に挑戦することができます。

対象言語

英語、スペイン語、フランス語、ドイツ語、中国語、ロシア語、ポルトガル語、イタリア語、アラビア語、インドネシア語、トルコ語、オランダ語、ポーランド語、ペルシア語、スウェーデン語、ベトナム語、韓国語、ヘブライ語、ルーマニア語、ノルウェー語、チェコ語、ウクライナ語、ヒンドゥー語、フィンランド語、ハンガリア語、デンマーク語、タイ語、カタルーニャ語、ギリシャ語、ブルガリア語

20190930_NTCIR15KickOff_20190919 (1)-圧縮済み

関連情報