森羅2020-ML: 評価レポートについて

森羅2020-ML評価レポートについて

この資料は森羅2020-MLの参加者が評価レポートの内容を理解するためのガイドです。

* 森羅2020-MLでは多値分類に関するシステムの性能をターゲットデータの一部のテストデータにより評価します。

* システムの性能はmicro average F1 measure(micro-averaged precisionとmicro-averaged recallの調和平均)を用いて評価します。

* テストデータの各ページは1つ以上の(拡張固有表現階層 (ver.8.0) のカテゴリに正しく分類することが期待されています。ラベルが予測されなかったページは’IGNORED'(ENE_id:9)のラベルが付与されているものとみなします。 評価について詳しくは森羅2020-ML CFP (タスク詳細)をご参照ください。

森羅2020-ML評価レポートは以下の3部から構成されています。

  • Part 1: 評価結果概要
  • Part 2: 対象言語別の評価結果
  • Part 3: Submission別(手法別)の評価結果

レポートはGoogle Sheetsで、上記の各部は1以上のスプレッドシートから構成されています。

注意

  • 以降は’Micro average F1′, ‘micro-averaged precision’, ‘micro-averaged recall’ を各々’F1′, ‘precision’,’recall’と表記します。

 

Part1: 評価結果の概要

Part1 は1つのスプレッドシートから構成されています。

スプレッドシート名: ’ALL F1’

表の各行はsubmission*1に対応しています。

注意

  • *1各参加グループの実行結果は手法別にまとめて提出(submit)されます。ある手法の実行結果が複数回提出された場合は、最後のバージョンが評価に利用されます。
    実行結果の提出について詳しくはSHINRA2020-ML: 実行結果の提出 をご覧下さい。
Group ID Method(手法) Late Submission ar*2 bg*2 zh*2
LIAT ML-BERT 70.00 71.00 70.00
LIAT ML-BERT Y*3 73.00 74.00 73.00
フォーマット
説明
GroupID NTCIR-15サイトでタスクの参加登録を行ったGroup ID。 LIAT
Method(手法) 参加グループのタスク実行のMethod(手法)を区別するためのID。 ML-BERT
Late Submission

Late Submission (該当する場合はマーク(‘Y’))*4

Y*3

ar 実行結果のアラビア語(ar*2)のF1 73.00
zh 実行結果の中国語(zh*2)のF1 73.00

*2: [ISO639-1]で定められた英字小文字2文字の言語コード。
*3:更新版では 2020/09/02
*4:更新版では Year/Month/Day (JST)

Part2: 対象言語別の評価結果

Part2 は複数のスプレッドシートで構成されています。各スプレッドシートが各対象言語に対応しています。

スプレッドシート名: ’Lang:[言語コード*3]’
ex. Lang:en

表の各行はmethod(手法)単位でまとめられた1submissionに対応しています(ただし情報は対象言語に限定).

注意:

  • *3: [ISO639-1]で定められた英字小文字2文字の言語コード。
Group ID Method(手法) Late Submission Precision Recall F1
LIAT ML-BERT 70.00 70.00 70.00
LIAT ML-BERT Y 75.00 75.00 75.00
フォーマット
説明
GroupID NTCIR-15サイトでタスクの参加登録を行ったGroup ID。 LIAT
Method 参加グループのタスク実行のmethod(手法)を区別するためのID。 ML-BERT
Late Submission Late submission (該当する場合はマーク(‘Y’)) Y
Precision (このsubmissionでの対象言語の)Precision 70.0
Recall (このsubmissionでの対象言語の)Recall 70.0
F1 (このsubmissionでの対象言語の)F1 70.0

Part 3: Submission別(手法別)の評価結果

Part3 は複数のスプレッドシートで構成されています。
各スプレッドシートはmethod(手法)単位でまとめられた各submissionに対応しています。

スプレッドシート名

スプレッドシート名はsubmissionのタイプにより以下のいずれかとなります。

(a)通常のsubmission: ‘System:[Group ID]_[Method ID]
ex. System:LIAT_ML_BERT

(b)Late submission: ‘System:[Group ID]_[Method ID]_late_submission
ex.System:LIAT_ML_BERT_late_submission

  • Group ID: NTCIR-15サイトでタスクの参加登録を行ったGroup ID。
    ex. ‘LIAT’
  • Method ID: 参加グループがタスク実行に用いたmethod(手法)を区別するためのID。
    ex:’ML-BERT’ .

表の各行はこのsubmissionの各対象言語に対応しています。

ISO 639-1 Language Precision Recall F1
ar Arabic 70.00 70.00 70.00
bg Bulgarian 75.00 75.00 75.00
フォーマット
説明
ISO 639-1 対象言語の言語コード。[ISO639-1]で定められた英字小文字2文字のコード。 ar
Language 対象言語の言語コードの英語名 Arabic
Precision (このsubmissionでの対象言語の)Precision 70.00
Recall (このsubmissionでの対象言語の)Recall 70.00
F1 (このsubmissionでの対象言語の)F1 70.00

References

[ISO639-1] ISO 639-1:2002, Codes for the representation of names of languages — Part 1: Alpha-2 code, https://www.iso.org/standard/22109.html.