森羅2020-ML評価レポートについて
この資料は森羅2020-MLの参加者が評価レポートの内容を理解するためのガイドです。
* 森羅2020-MLでは多値分類に関するシステムの性能をターゲットデータの一部のテストデータにより評価します。
* システムの性能はmicro average F1 measure(micro-averaged precisionとmicro-averaged recallの調和平均)を用いて評価します。
* テストデータの各ページは1つ以上の(拡張固有表現階層 (ver.8.0) のカテゴリに正しく分類することが期待されています。ラベルが予測されなかったページは’IGNORED'(ENE_id:9)のラベルが付与されているものとみなします。 評価について詳しくは森羅2020-ML CFP (タスク詳細)をご参照ください。
森羅2020-ML評価レポートは以下の3部から構成されています。
- Part 1: 評価結果概要
- Part 2: 対象言語別の評価結果
- Part 3: Submission別(手法別)の評価結果
レポートはGoogle Sheetsで、上記の各部は1以上のスプレッドシートから構成されています。
注意
- 以降は’Micro average F1′, ‘micro-averaged precision’, ‘micro-averaged recall’ を各々’F1′, ‘precision’,’recall’と表記します。
Part1: 評価結果の概要
Part1 は1つのスプレッドシートから構成されています。
スプレッドシート名: ’ALL F1’
表の各行はsubmission*1に対応しています。
注意
- *1各参加グループの実行結果は手法別にまとめて提出(submit)されます。ある手法の実行結果が複数回提出された場合は、最後のバージョンが評価に利用されます。
実行結果の提出について詳しくはSHINRA2020-ML: 実行結果の提出 をご覧下さい。
Group ID | Method(手法) | Late Submission | ar*2 | bg*2 | … | zh*2 |
---|---|---|---|---|---|---|
LIAT | ML-BERT | 70.00 | 71.00 | … | 70.00 | |
LIAT | ML-BERT | Y*3 | 73.00 | 74.00 | … | 73.00 |
列 | 説明 | 例 |
---|---|---|
GroupID | NTCIR-15サイトでタスクの参加登録を行ったGroup ID。 | LIAT |
Method(手法) | 参加グループのタスク実行のMethod(手法)を区別するためのID。 | ML-BERT |
Late Submission |
Late Submission (該当する場合はマーク(‘Y’))*4 |
Y*3 |
ar | 実行結果のアラビア語(ar*2)のF1 | 73.00 |
… | ||
zh | 実行結果の中国語(zh*2)のF1 | 73.00 |
*2: [ISO639-1]で定められた英字小文字2文字の言語コード。
*3:更新版では 2020/09/02
*4:更新版では Year/Month/Day (JST)
Part2: 対象言語別の評価結果
Part2 は複数のスプレッドシートで構成されています。各スプレッドシートが各対象言語に対応しています。
スプレッドシート名: ’Lang:[言語コード*3]’
ex. Lang:en
表の各行はmethod(手法)単位でまとめられた1submissionに対応しています(ただし情報は対象言語に限定).
注意:
- *3: [ISO639-1]で定められた英字小文字2文字の言語コード。
Group ID | Method(手法) | Late Submission | Precision | Recall | F1 |
---|---|---|---|---|---|
LIAT | ML-BERT | 70.00 | 70.00 | 70.00 | |
LIAT | ML-BERT | Y | 75.00 | 75.00 | 75.00 |
列 | 説明 | 例 |
---|---|---|
GroupID | NTCIR-15サイトでタスクの参加登録を行ったGroup ID。 | LIAT |
Method | 参加グループのタスク実行のmethod(手法)を区別するためのID。 | ML-BERT |
Late Submission | Late submission (該当する場合はマーク(‘Y’)) | Y |
Precision | (このsubmissionでの対象言語の)Precision | 70.0 |
Recall | (このsubmissionでの対象言語の)Recall | 70.0 |
F1 | (このsubmissionでの対象言語の)F1 | 70.0 |
Part 3: Submission別(手法別)の評価結果
Part3 は複数のスプレッドシートで構成されています。
各スプレッドシートはmethod(手法)単位でまとめられた各submissionに対応しています。
スプレッドシート名
スプレッドシート名はsubmissionのタイプにより以下のいずれかとなります。
(a)通常のsubmission: ‘System:[Group ID]_[Method ID]‘
ex. System:LIAT_ML_BERT
(b)Late submission: ‘System:[Group ID]_[Method ID]_late_submission‘
ex.System:LIAT_ML_BERT_late_submission
- Group ID: NTCIR-15サイトでタスクの参加登録を行ったGroup ID。
ex. ‘LIAT’ - Method ID: 参加グループがタスク実行に用いたmethod(手法)を区別するためのID。
ex:’ML-BERT’ .
表の各行はこのsubmissionの各対象言語に対応しています。
ISO 639-1 | Language | Precision | Recall | F1 |
---|---|---|---|---|
ar | Arabic | 70.00 | 70.00 | 70.00 |
bg | Bulgarian | 75.00 | 75.00 | 75.00 |
列 | 説明 | 例 |
---|---|---|
ISO 639-1 | 対象言語の言語コード。[ISO639-1]で定められた英字小文字2文字のコード。 | ar |
Language | 対象言語の言語コードの英語名 | Arabic |
Precision | (このsubmissionでの対象言語の)Precision | 70.00 |
Recall | (このsubmissionでの対象言語の)Recall | 70.00 |
F1 | (このsubmissionでの対象言語の)F1 | 70.00 |
References
[ISO639-1] ISO 639-1:2002, Codes for the representation of names of languages — Part 1: Alpha-2 code, https://www.iso.org/standard/22109.html.