森羅2020-ML評価レポートについて

この資料は森羅2020-MLの参加者が評価レポートの内容を理解するためのガイドです。

* 森羅2020-MLでは多値分類に関するシステムの性能をターゲットデータの一部のテストデータにより評価します。

* システムの性能はmicro average F1 measure（micro-averaged precisionとmicro-averaged recallの調和平均）を用いて評価します。

* テストデータの各ページは1つ以上の(拡張固有表現階層 (ver.8.0) のカテゴリに正しく分類することが期待されています。ラベルが予測されなかったページは’IGNORED'(ENE_id:9)のラベルが付与されているものとみなします。評価について詳しくは森羅2020-ML CFP (タスク詳細)をご参照ください。

森羅2020-ML評価レポートは以下の3部から構成されています。

Part 1: 評価結果概要
Part 2: 対象言語別の評価結果
Part 3: Submission別(手法別)の評価結果

レポートはGoogle Sheetsで、上記の各部は1以上のスプレッドシートから構成されています。

注意

以降は’Micro average F1′, ‘micro-averaged precision’, ‘micro-averaged recall’ を各々’F1′, ‘precision’,’recall’と表記します。

Part1: 評価結果の概要

Part1 は1つのスプレッドシートから構成されています。

スプレッドシート名: ’ALL F1’

表の各行はsubmission^*1に対応しています。

注意

^*1各参加グループの実行結果は手法別にまとめて提出(submit)されます。ある手法の実行結果が複数回提出された場合は、最後のバージョンが評価に利用されます。
実行結果の提出について詳しくはSHINRA2020-ML: 実行結果の提出をご覧下さい。

例
Group ID	Method(手法)	Late Submission	ar^*2	bg^*2	…	zh^*2
LIAT	ML-BERT		70.00	71.00	…	70.00
LIAT	ML-BERT	Y^*3	73.00	74.00	…	73.00

**フォーマット**
列	説明	例
GroupID	NTCIR-15サイトでタスクの参加登録を行ったGroup ID。	LIAT
Method(手法)	参加グループのタスク実行のMethod(手法)を区別するためのID。	ML-BERT
Late Submission	Late Submission (該当する場合はマーク(‘Y’))^*4	Y^*3
ar	実行結果のアラビア語(ar^*2)のF1	73.00
…
zh	実行結果の中国語(zh^*2)のF1	73.00

^*2: [ISO639-1]で定められた英字小文字2文字の言語コード。
^*3:更新版では 2020/09/02
^*4:更新版では Year/Month/Day (JST)

Part2: 対象言語別の評価結果

Part2 は複数のスプレッドシートで構成されています。各スプレッドシートが各対象言語に対応しています。

スプレッドシート名: ’Lang:[言語コード^*3]’
ex. Lang:en

表の各行はmethod(手法)単位でまとめられた1submissionに対応しています（ただし情報は対象言語に限定）.

注意:

^*3: [ISO639-1]で定められた英字小文字2文字の言語コード。

例
Group ID	Method(手法)	Late Submission	Precision	Recall	F1
LIAT	ML-BERT		70.00	70.00	70.00
LIAT	ML-BERT	Y	75.00	75.00	75.00

**フォーマット**
列	説明	例
GroupID	NTCIR-15サイトでタスクの参加登録を行ったGroup ID。	LIAT
Method	参加グループのタスク実行のmethod(手法)を区別するためのID。	ML-BERT
Late Submission	Late submission (該当する場合はマーク(‘Y’))	Y
Precision	(このsubmissionでの対象言語の)Precision	70.0
Recall	(このsubmissionでの対象言語の)Recall	70.0
F1	(このsubmissionでの対象言語の)F1	70.0

Part 3: Submission別（手法別）の評価結果

Part3 は複数のスプレッドシートで構成されています。
各スプレッドシートはmethod(手法)単位でまとめられた各submissionに対応しています。

スプレッドシート名

スプレッドシート名はsubmissionのタイプにより以下のいずれかとなります。

(a)通常のsubmission: ‘System:[Group ID]_[Method ID]‘
ex. System:LIAT_ML_BERT

(b)Late submission: ‘System:[Group ID]_[Method ID]_late_submission‘
ex.System:LIAT_ML_BERT_late_submission

Group ID: NTCIR-15サイトでタスクの参加登録を行ったGroup ID。
ex. ‘LIAT’
Method ID: 参加グループがタスク実行に用いたmethod(手法)を区別するためのID。
ex：’ML-BERT’ .

表の各行はこのsubmissionの各対象言語に対応しています。

例
ISO 639-1	Language	Precision	Recall	F1
ar	Arabic	70.00	70.00	70.00
bg	Bulgarian	75.00	75.00	75.00

**フォーマット**
列	説明	例
ISO 639-1	対象言語の言語コード。[ISO639-1]で定められた英字小文字2文字のコード。	ar
Language	対象言語の言語コードの英語名	Arabic
Precision	(このsubmissionでの対象言語の)Precision	70.00
Recall	(このsubmissionでの対象言語の)Recall	70.00
F1	(このsubmissionでの対象言語の)F1	70.00

References

[ISO639-1] ISO 639-1:2002, Codes for the representation of names of languages — Part 1: Alpha-2 code, https://www.iso.org/standard/22109.html.