ウィキペディアは、多くのエンティティ(項目)で構成されています。これは、多くのNLPタスクで利用できる優れた知識リソースです。こうした知識を最大限に活用するには、自然言語処理によってWikipediaから作成されたリソースを推論、意味解析、またはその他の目的のために構造化する必要があります。 DBpedia、Wikidata、Freebase、YAGO、Wikidataなどの現在の構造化されたナレッジベースは、主にボトムアップのクラウドソーシングによって作成されており、ナレッジベースに大量の望ましくないノイズが含まれています。私達は、ナレッジベースの構築は、よりクリーンで価値がある構造となるよう、ボトムアップではなくトップダウンで定義する必要があると考えています。既存の煩雑なウィキペディアカテゴリの代わりに、明確に定義されたきめ細かいカテゴリを用意する必要があります。詳細な固有表現階層のいくつかの定義の中で、拡張固有表現(ENE)は約200の階層カテゴリを持つ明確に定義された名前のオントロジーであり、各カテゴリに対して属性のセットが定義されています。
最終目標は、属性を含むウィキペディアの知識を構造化することですが、最初のステップとして、属性値を抽出する前に各ウィキペディア項目をENEカテゴリに分類する必要があります。 SHINRA2020-MLタスクの目的は、30言語のWikipediaページをENEカテゴリに分類することです。 すでに日本語ウィキペディアの主要なページ、92万ページをENEカテゴリに分類しています。 これにより、言語間リンクを使用して、30言語のトレーニングデータを作成可能です(ドイツ語版Wikipediaへは32万ページ。詳細は統計情報を参照)。 したがって、SHINRA2020-MLでの実際のタスクは、30言語について、このトレーニングデータを使用して残りの項目を分類することです。
このプロジェクトの目標は、参加したシステムを比較し、どのシステムが最高のパフォーマンスを発揮するかを確認するだけでなく、参加したシステムの出力を使用してナレッジベースを作成することです。 システムの成果を収集し、可能な限り正確にナレッジベースを作成するために、最先端のアンサンブル学習テクノロジーを利用できます。