YANS2021ハッカソンデータダウンロード

このたび理化学研究所 言語情報アクセス技術チームでは、NLP若手の会 (YANS) 第16回シンポジウム ハッカソンにデータセットを提供させていただきました。

ハッカソンでは森羅2020属性値抽出タスクのデータセットのうち、市区町村名(City)カテゴリーと企業名(Company)カテゴリーを対象としています。
本ページに参加に最低限必要なデータとその他利用可能なデータをまとめましたのでご活用ください。

(データのダウンロードには森羅のアカウントが必要です。 SHINRA: Sign in pageにて森羅のアカウントを作成してください。)

各データの見方はこちらをご覧ください。(森羅2020タスクと共通です。)

基本データ

タスクに参加するには、学習データ(アノテーションラベル)とターゲットデータをダウンロードする必要があります。
ターゲットデータは平文もしくはHTML形式が用意されており、そのどちらかに対する予測結果をハッカソンに対して提出する必要があります。

(不具合でダウンロードボタンが隠れていますが、マウスオーバーすると表示されます。)

その他利用可能なデータ

前処理済みデータ

一部のトークナイザーを用いて平文をトークナイズし、学習データのオフセットをトークン単位に再マッピングしたデータです。
対象トークナイザーの一覧やデータの見方等はこちらを参照ください。

対象外カテゴリー

今回のハッカソンの対象である、市区町村名、企業名も含む森羅2020タスクで使用された全てのカテゴリーのデータです。
データ拡張等にご利用ください。

学習データ

トークナイズ済みデータ

森羅2019システム結果

森羅2019-JPのシステム結果です。詳しくは森羅関連研究ページの[Kobayashi2020]をご覧ください。