森羅2020-ML: FAQ

SHINRA2020-ML: FAQ

参考資料について

ホームページの他にタスクの説明資料はない?

中間説明会のページに動画やスライドがありますのでよろしければご覧ください。

アカウント

タスク用のデータのダウンロードにリーダーボード用のアカウントは使用できるか?

タスク用のデータをダウンロードしていただくためには、リーダーボードのアカウントとは別に森羅用のアカウントを作成してサインインしていただく必要があります。リーダーボードのアカウントについてはFAQ(リーダーボードについて)をご覧ください。

スケジュール

参加者論文(ドラフト)提出締切は2020年10月10日とメールで連絡を受けたが、NTCIR-15サイトの「重要な日程」には2020年9月20日と書かれている。どちらが正しいのか?

「2020年10月10日」が正しいです。森羅2020-MLタスクは参加申し込みと結果提出の締切を延長したため、参加者論文(ドラフト)提出締切も延長しました。

対象言語について

参加者は30言語全てを分類する必要がある?

いいえ。30言語から1言語以上を選んでいただけます。詳しくはCFPをご覧ください。

トレーニングデータについて

同じページIDをもつレコードが複数ある場合、ラベルはどう扱えば良いか?

対象ページが複数の日本語ページからリンクされ、トレーニングデータの複数のレコードに同じpageidが存在している場合があります。

{"pageid": 57330, "title": "Circulatory system", "ja_pageid": 108191, "ja_title": "循環器", "_stamp": "AUTO.TOHOKU.201906", "ENEs": [{"ENE_id": "0", "ENE_name": "Concept"}]}
{"pageid": 57330, "title": "Circulatory system", "ja_pageid": 569307, "ja_title": "循環系", "_stamp": "HAND.AIP.201910", "ENEs": [{"ENE_id": "1.10.5.1", "ENE_name": "Animal_Part"}]}

このような場合、該当ページのENE_idは、トレーニングデータ中で同じpageidをもつ全てのレコードから取得してください。
問題を解決するための関連データの情報についてはSHINRA2020-MLのSlackの以下のポストをご参照ください。
https://shinra2020-ml.slack.com/archives/CQ3RLNQ0N/p1596700262035600
https://shinra2020-ml.slack.com/archives/CQ3RLNQ0N/p1596700306035700

ご不便をおかけして申し訳ありません。

実行結果の提出について

締切後に実行結果を提出できる?

公式な実行結果の提出期限は8月31日(Timezone: Baker Island(USA), UTC-12)です。
締切後も実行結果を提出することは可能ですが、以下の点にご注意ください。

  • 締切後に提出された結果は非公式の扱いになります。公式な評価結果の代わりに非公式なスコアが返却されます。
  • 非公式な評価結果も公開する予定ですが、公式結果とは明確に区別します。
  • 実行結果は知識ベースの構築に利用させていただきます。
ターゲットファイルの一部がトレーニングデータと重複しているが、実行結果にはトレーニングデータの範囲に対する予測も含める必要がある?

はい。トレーニングデータの範囲も含め、ターゲットデータ全体に対する予測結果を提出して下さい。
ただし、トレーニングデータの範囲に対する予測結果は評価には使用しません。実行結果の提出についての詳細は森羅2020-ML: 実行結果の提出をご覧ください。

評価

SHINRA2020-MLの公式な評価というのはSHINRA2020-MLのリーダーボードの評価のことか?

いいえ。SHINRA2020-MLの公式な評価はリーダーボードの評価とは独立です。
前者は(SHINRA2020-ML CFP(タスク詳細)に書かれているように)ターゲットデータ全体を用いて評価しますが、後者は(リーダーボードページに書かれているように)SHINRA2020-ML のターゲットデータの一部を用いて行います。

リーダーボードについて

NTCIR-15サイトでSHINRA2020-MLタスクの参加登録が完了したら、そのままリーダーボードに投稿できる?(リーダーボードのアカウント)

リーダーボードに投稿するには、RIKEN-AIP-NLP Projects Leaderboardのアカウントを作成してください。

上記リーダーボードのアカウントや作成方法についてはSHINRA2020-MLリーダーボードのSignupの説明をご参照ください。

リーダーボードの評価結果はタスクの最終的な評価とは別か?

はい、別です。

リーダーボードの評価に使われる指標は?

micro average F1 measureです。詳細は森羅2020-ML CFPの「タスク詳細」をご覧ください。

リーダーボードの投稿回数に制限はあるか?

はい。リーダーボードの投稿回数は、1グループにつき1日5回までとさせていただいています。複数言語を対象とされている場合、複数言語の合計で5回まで投稿可能です。回数のカウントは日本時間の0:00 A.M. にリセットされます。2020-ML leaderboard: Important dates and Rulesをご覧ください。

リーダーボードの投稿回数の上限を増やす予定はあるか?

今のところはありません。今後検討します。

正しい提出フォーマットは?

ご提出いただくjsonファイルのフォーマットは森羅2020-ML: データフォーマットをご参照ください。
jsonファイルはzipファイルに圧縮する必要があります。詳しくは2020-ML leaderboard: Specificationをご参照ください。
【注意】example submissionに含まれているjsonファイルは古い形式のものです。後日修正いたします。