森羅プロジェクト 公開データ
このページでは、森羅プロジェクトで使用したデータを公開しています。
各データの概要は 森羅プロジェクト で説明されています。
森羅データ
本プロジェクトで構築・改変したデータ
- 拡張固有表現ver9.0定義書(JSON形式)
- 森羅2023 分類タスク 教師データ,開発データ,テストデータ
- 森羅2023 属性値抽出タスク 教師データ,テストデータ(分類タスク ベースラインシステムの出力)
- 森羅 2023 リンキングタスク 教師データ,テストデータ(属性値抽出タスク ベースラインシステムの出力)
- SHINRA 2021-ML 教師データ,開発データ
- SHINRA 2020-ML Wikipedia 言語間リンク情報
- SHINRA 2020-ML 各システムの出力
本プロジェクトで再配布するWikipediaデータ
- 20190120 版日本語・30 言語Wikipedia ダンプデータ(XML 形式:WikiDump)
- 20190121版 日本語・30言語Wikipediaダンプデータ(JSON形式:CirrusSearchDump)
- 20190120版 日本語Wikipeida(HTML形式,プレーンテキスト形式)
- 20210820版 日本語Wikipedia ダンプデータ(XML 形式:WikiDump,HTML 形式,プレーンテキスト形式)
- 20210823版 日本語Wikipediaダンプデータ(JSON形式:CirrusSearchDump)
ライセンス
上記の各データは、Wikipediaダンプデータより作成され、クリエイティブ・コモンズ・表示・継承ライセンス3.0(CC-BY-SA 3.0)の条件のもとに、利用・再配布が許諾されます。
森羅ベースラインシステム
- カテゴリー分類システム
- 属性値抽出システム
- エンティティリンキングシステム
森羅データアクセスAPI
その他