SHINRA2020-JP: FAQ
- JPタスクについて
- タスクの参加方法について
- アカウントについて
- データについて
- 対象カテゴリについて
- 属性について
- リーダーボードについて
- Wikipediaの構造化について
- 拡張固有表現(ENE)について
JPタスクについて
これまでのタスクからの主な変更点は?
基本的なタスク設計は森羅2019-JPタスクを踏襲しています。
- 森羅2018-JPでは拡張固有表現の属性の値として記事中の文字列を抽出しました。
- 森羅2019-JPでは属性値の文字列が複数出現した場合の曖昧性に対応するため、「記事中の文字列の出現位置の情報」に変更しました。
上記の他に、今回はBool値をもつ属性(総称のみ)を導入しています。
対象カテゴリの違いについてはこちらをご覧ください。
タスクの参加方法について
匿名でも参加できる?
なるべく参加者名を明らかにして参加していただくことを推奨いたしますが、匿名での参加を希望される場合はその旨をお知らせください。スコア公表時のスコアの匿名化を希望される場合、実行結果の提出の際に結果提出フォームにその旨をご記入ください。ただし、例えば最終報告会での結果報告の機会が得られないなど、制限付きでの参加となりますことをご了承下さい。
アカウントについて
タスク用のデータのダウンロードにリーダーボード用のアカウントは使用できるか?
タスク用のデータをダウンロードしていただくためには、リーダーボードのアカウントとは別に森羅用のアカウントを作成してサインインしていただく必要があります。リーダーボードのアカウントについてはFAQ(リーダーボードについて)をご覧ください。
データについて
配布データは?
Wikipediaの記事(*1)から属性情報を抽出した学習データと属性抽出対象のターゲットデータを配布しています。
(*1: JP-5、地名、組織名は2017年11月3日、施設名、イベント名は2019年1月20日。)
上記の他に「森羅2019システム結果」「2019アンサンブル結果」等のデータもご用意する予定です。
データのダウンロードについてはこちら、フォーマット等の詳細についてはこちらを御覧ください。
なお、リーダーボード用のデータ(test_data_for_leaderboard.zip)についてはリーダーボードページで配布していますので、そちらをご利用ください。
実行結果の提出対象と評価対象のデータは?
ターゲットデータ全体に対するシステムの実行結果を提出していただき、その一部を評価用のデータとして使用します。
なお、リーダーボード用のデータ(test_data_for_leaderboard.zip)についてはリーダーボードページで配布していますので、そちらをご利用ください。
リーダーボード用のデータは?
リーダーボード用のデータ(test_data_for_leaderboard.zip)についてはリーダーボードページで配布していますので、そちらをご利用ください。
対象カテゴリについて
前回のタスクからの変更は?
前回のJP-5については今回も継続します。
他のカテゴリについてはLocation、Organization、Event、Facilityの4つのグループを各々対象として行います。このうちLocation, OrganizationはJP-30からの継続ですが、国籍名、内閣名は今回は対象外です。
対象カテゴリの選び方は?
学習データが少ないカテゴリは対象外としています。
属性について
Bool値をもつ属性とは?
ENEの一般の属性の値は記事中の相当する文字列として抽出することができますが、属性の中には真(true)または偽(false)のいずれかの値を持つものもあり、森羅のWikipedia構造化タスクではこれを「Bool値をもつ属性」と呼んでいます。今回の2020-JPタスクで該当する属性は「総称」のみです。
Bool値をもつ属性の提出フォーマットでの記述方法は?
Bool値をもつ属性は今回は総称のみです。総称に該当する場合は、提出フォーマットのattributeは「総称」、flagに「true」の値を記述して下さい。
カテゴリの属性による傾向の違いを知るには?
属性により属性値のタイプが異なることがありますが、典型的な属性値については、ENE8.1の各カテゴリの属性定義の検索結果の表に記載されている「属性値の例」や「属性値の代表的なENE」等を参考にしてください。参加者の方も何かお気づきの点がありましたらSlack等で情報を提供していただけると助かります。
リーダーボードについて
リーダーボードには森羅のアカウントでそのまま参加できる?
リーダーボードの参加には専用のアカウントが必要です。リーダーボードの新規登録ページのSHINRA2020-JPの説明をご参照いただき、リーダーボード用アカウントの申請をしてください。
リーダーボード用のデータは?
リーダーボード用のデータ(test_data_for_leaderboard.zip)についてはリーダーボードページで配布していますので、そちらをご利用ください。
対象カテゴリは?
9カテゴリを予定しています。(現在(2020年8月3日)は5カテゴリですが、今後追加してSlack等でお知らせする予定です。)
2019年の結果と比較すると化合物(Compound)は差が見られるがなぜか?
データが少ないためと考えられます。システムとしてのパフォーマンスは他のカテゴリも含めた平均を参考にしていただくのが良いと思われます。
過去のデータを使ったかどうかで結果が大きく変わるのでは?
過去のデータを使った結果かどうかをリーダーボード上で区別できるように変更することを検討中です。詳細が決まりましたらお知らせします。
Wikipediaの構造化について
Wikipediaの構造化とは?
Wikipediaの膨大な記事は、人が読んで理解することを想定して書かれているため、語彙や記述方法が統一されていません。高度な情報処理のための知識ベースを構築するには、これらの記事の情報を共通の語彙や形式で整理し、機械可読な形に変換しておく必要があります。この機械可読な形式への変換を、森羅プロジェクトでは、構造化と呼んでいます。
構造化に必要なものは?
構造化を行うためには共通の統制された語彙を使って情報を整理する必要があります。森羅プロジェクトでは、拡張固有表現(ENE)という名前、数値表現、時間表現のオントロジーを利用します。ENEオントロジーでエンティティを分類するための階層的なカテゴリが定義され、各カテゴリのエンティティについて主要な情報を記述するための属性が用意されています。
構造化の方法は?
Wikipediaの構造化は、まず、拡張固有表現(ENE)のカテゴリ(例:人名)で記事を分類しておき、各カテゴリの属性(例:地位職業)の値(属性値)に相当する記述(例:歌手)を記事から取り出す、という二段階で行います。日本語構造化タスクではあらかじめENEカテゴリで分類された記事を対象に、後者の属性情報の抽出を行います。
評価型ワークショップで構造化を行う理由は?
膨大なWikipediaの記事に対してこのような構造化を人手で行うことは現実的ではありません。このため、森羅プロジェクトでは、評価型ワークショップを行い、自動的に構造化を行う手法を募うとともに、その結果をまとめることで、関係者全員の協働(RbCC)によるリソースの構築を目指しています。
拡張固有表現(ENE)について
前回のタスクからの変更は?
前回はENE ver. 8.0.0を利用しましたが、今回のタスクでは ENE ver. 8.1を利用します。
タスクに関わる変更点の概略は以下の通りです。詳しくはENE ver.8.1の変更履歴をご確認下さい。
項目 | 変更点 |
---|---|
カテゴリセットの変更 | ・施設名、イベント名の一部でカテゴリの変更があります。 |
ENE_idの変更 | ・イベント名のうち、自然災害名_その他、地震名はENE_idを変更しており、後者は今回の対象カテゴリです。 |
カテゴリ名の変更 | ・カテゴリの日本語名は全角、英語名は半角に統一したため、一部のカテゴリ名に形式的な変更があります。 ・施設名、イベント名の一部でカテゴリ名の変更があります。 |
属性名の変更 | ・属性名は全角に統一したため、一部のカテゴリ名に形式的な変更があります。 ・なお、2019-JPのデータでは属性名「地位職業」の代わりに「職業」が使われていましたが、今回の2020-JPのデータでは「地位職業」に修正しています。 |