森羅2020-JP: データダウンロード

森羅2020-JPタスク用のデータです。データのダウンロードには森羅のアカウントでのログインが必要です。

    • アカウントをお持ちでない方は、まずこちらからアカウントを作成して下さい。
    • アカウントをお持ちの方は、以下のリストから必要なデータをダウンロードして下さい。
    • リーダーボードの投稿用データはRIKEN-AIP-NLP Projects Leaderboard: SHINRA2020-JPで配布しています。なお、リーダーボードの投稿には専用のアカウントが必要です。詳しくはSHINRA2020-JP:FAQをご覧ください。

学習データ・ターゲットデータ

以下のファイルを含みます。

  • 学習データ
    • 1行1JSON形式データ 
    • 目視確認用データ
  • ターゲットデータ
    • HTMLデータ
    • PLAINデータ

学習データ・ターゲットデータ(トークナイズ)

学習データ、ターゲットデータをトークナイザーによりあらかじめ単語分割したファイルです。

  • MeCab(IPA辞書)トークナイズ済みデータ
  • Mecab(Juman辞書)トークナイズ済みデータ
  • Juman++トークナイズ済みデータ
  • Juman++&BPEトークナイズ済みデータ

森羅2019システム結果

森羅2019-JPのシステム結果です。詳しくは森羅関連研究ページの[Kobayashi2020]をご覧ください。

森羅2019アンサンブル結果

森羅2019-JPにより得られた各システムの結果をアンサンブルしたデータです。詳しくは森羅関連研究ページの[Nakayama2020a]をご覧ください。