新着情報
- 新しいホームページに移行しました。タスク参加を受け付けていますので、ぜひご検討ください。(2022/5/12)
- 5月12日にキックオフミーティングを行いますので是非ご参加ください。申し込みはこちらからぞうぞ。(2022/5/6)
- 森羅2022のホームページを公開しました。(2022/3/11)
目次
森羅プロジェクトの紹介
森羅プロジェクトは、 Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、Wikipediaを構造化するプロジェクトです。私達は、名前のオントロジーである「拡張固有表現(ENE)」にWikipediaの記事を分類し、拡張固有表現に定義されている属性情報をWikipedia記事にアノテーションし、対象Wikipediaページにリンクすることで、計算機利用可能な知識の構造化を目指しています。
構造化は3段階のステップにわけられます。
-
-
- Wikipedia項目のENEへの分類
(例:「島崎藤村」ページを「人名」に分類) - ENEで定義された属性に対応する属性値を抽出
(例:「人名」の「作品」という属性に対応する「嵐」を属性値として抽出) - 属性値を、それに対応するWikipediaページに紐づけ
(例:属性値「嵐」をWikipediaページの「嵐(小説)」に紐づけ)
- Wikipedia項目のENEへの分類
-
森羅プロジェクトは、様々なアプローチによる多数のシステムを評価型ワークショップを開催することで募り、それらを統合することで構造化データを構築する「Resource by Collaborative Contribution(協働による知識構築)」の考えに基づくプロジェクトです。
タスク概要
森羅プロジェクトは2017年にスタートしたリソース構築プロジェクトで、人が読むことを想定して書かれたWikipediaの知識を計算機が扱える形に構造化することを目指し、「協働によるリソース構築(Resource by Collaborative Contribution(RbCC))」という枠組みで、評価型タスクとリソース構築を同時に進めています。
日本語構造化タスクは森羅プロジェクトで2018年から実施している日本語Wikipediaを対象とした情報抽出タスクで、今回が4回目となります。
森羅2022ではこれまでの森羅プロジェクトのタスクを統合したEnd-to-Endタスクと、その構成要素となる3つのサブタスクを開催し、参加者を募集します。
End-to-Endタスクでは、以下の3つのステップを一気に実施することで、分類、属性抽出、リンクの複合タスクを実現し、相乗効果/End-to-Endで精度向上の可能性を探ります。
End-to-Endタスクの各ステップは過去の森羅プロジェクトと以下の関係にあります。
-
-
- ステップ1(分類)
- 日本語の分類システム(今回は30言語の分類は実施しません)
- ステップ2(属性値抽出)
- 日本語の属性値抽出:森羅2018、2019、2020-JP
- 全てのカテゴリーを実施(過去の森羅プロジェクトでは81カテゴリーのみ)
- ステップ3(リンクの紐づけ)
- 日本語の属性値に対してリンクを実施:森羅2021-LinkJP
- 7つのカテゴリーに対して
- ステップ1(分類)
-
これらの、過去の「森羅データ」を教師として利用することで、以下のように(半)自動的に知識を更新し続ける仕組みが実現できると考えています。
-
-
- 森羅2019を教師としてW2021を(半)自動で構造化
- 森羅2021を教師としてW2023を(半)自動で構造化
- 森羅2023を教師としてW2025を(半)自動で構造化
- …
-
一方で、End-to-Endタスクの各ステップに焦点を当てたタスクとして以下の3つのサブタスクも開催し、サブタスクのみの参加も歓迎いたします。
-
-
- 分類タスク
- 属性値抽出タスク
- リンクタスク
-
多くの方のご参加をお待ちしています。
タスク詳細
End-to-Endタスク
教師データ
Wikipedia2019の分類データ
入力データ
Wikipedia2021
評価データ
Wikipedia2021の属性値抽出データに対するリンク
-
-
- 81カテゴリー(森羅2018,2019,2020-JPの評価データ)
- 90カテゴリー(新規)
-
分類タスク
教師データ
-
-
- Wikipedia2019の分類データ
- Wikipedia2019の属性値抽出データ
-
- 81カテゴリー(森羅2018,2019,2020-JPの教師データ)
- 90カテゴリー(新規)
-
- Wikipedia2019のリンクデータ
-
- 7カテゴリー x 200ページ(森羅2021-LinkJPのサンプルデータ(7カテゴリーx50ページ)を含む)
- 164カテゴリー x 2ページ(新規)
-
-
入力データ
Wikipedia2021
評価データ
Wikipedia2021の分類済みデータ
属性値抽出タスク
教師データ
Wikipedia2019の属性値抽出データ
-
-
- 81カテゴリー(森羅2018,2019,2020-JPの教師データ)
- 90カテゴリー(新規)
-
入力データ
Wikipedia2021 / 分類システム出力データ(baseline)
-
-
- 分類システム:TypedKB (https://github.com/singletongue/TypedKB)
-
評価データ
Wikipedia2021の属性値抽出データ
-
-
- 81カテゴリー(森羅2018,2019,2020-JPの評価データ)
- 90カテゴリー(新規)
-
リンクタスク
サンプルデータ
Wikipedia2019のリンクデータ
-
-
- 7カテゴリー x 200ページ(森羅2021-LinkJPのサンプルデータ(7カテゴリーx50ページ)を含む)
- 164カテゴリー x 2ページ(新規)
-
入力データ
Wikipedia2021 / 属性値抽出システム出力データ(baseline)
-
-
- 属性値抽出システム:Shinra JP BERT (https://github.com/aiishii/shinra_jp_bert/tree/master)
-
評価データ
Wikipedia2021の属性値抽出データに対するリンク
-
-
- 81カテゴリー(森羅2018,2019,2020-JPの評価データ)
- 90カテゴリー(新規)
-
スケジュール
キックオフミーティング&データ公開: 2022年4月下旬~5月中旬
リーダーボードオープン: 2022年5月中旬(予定)
実行結果の提出締切: 2022年10月末日(予定)
評価結果の返却: 2022年11月中旬
最終報告会: 2022年12月
参加を検討される方はメーリングリスト(参加者用)、Slackにぜひご参加下さい。
配布データ
TBA
結果の提出
TBA
評価
TBA
リーダーボード
TBA
FAQ
本タスクに関しご不明な点がありましたら、連絡先までお問い合わせください。
実行委員
【委員長】 関根 聡(理研AIP)
【委員】野本昌子(理研AIP)中山功太(理研AIP/筑波大)隅田飛鳥(理研AIP)松田耕史(理研AIP/東北大)後藤美知子(理研AIP)宇佐美佑(Usami LLC)安藤まや(フリー)山田育矢(Studio Ousia/理研AIP)三浦明波(株式会社アティード)阪本浩太郎(株式会社BESNA研究所)渋木英潔(株式会社BESNA研究所)
メーリングリスト/Slack(参加者用)
連絡先
- Email(実行委員宛): shinra2022-info (at) googlegroups.com
- Slack: 森羅2022:Wikipedia構造化プロジェク ト(shinra2022.slack.com)