本ページでは、森羅:Wikipedia構造化プロジェクト2018にご参加いただくにあたり、同意していただきたい項目、把握していただきたい項目について列挙しております。ご参加に当たり、必ずご一読頂ますようお願いいたします。
プロジェクトへの参加について
- 参加方法について
- 提出物について
- 使用可能データについて
- 禁止行為について
成果物の外部への公開・頒布について
- ライセンス
- 開発された手法の著作権/所有権について
プロジェクトへの参加について
参加方法について
本プロジェクトにご参加いただくには、下記参加登録ページにて、参加者情報として、代表者氏名、メールアドレス、所属組織名(任意)をご入力ください。参加者情報を登録いただくと、登録時に後述の使用可能データをダウンロードできるデータ配布ページのURLが表示されます。
提出物について
下記使用可能データの項目にある、対象ENEカテゴリのWikipedia記事分類データにおける、すべてのWikipedia記事に対して、構造化を行って頂き、その結果をご提出ください。
- 構造化結果:
配布ページにて配布しております、構造化データ(トレーニングデータ)と同じ形式のJSONファイル(サンプル)を構築頂き、ご提出ください。
可能であれば、各属性値に、信頼度のスコアを付与したデータを構築頂けると、今後、アンサンブルラーニング等で使用しやすくなりますので、ご検討ください(サンプル。値の取りうる範囲は、別途下記の、「参加者が開発した構造化手法についての説明書」にてご記載ください)。
対象ENEカテゴリ:人名、企業名、市区町村名、空港名、化合物名(※一部カテゴリのみの提出も可能)
- 参加者が開発した構造化手法についての説明書:
考案・開発された手法の概要が把握できるような説明書をご提出ください。ご所属機関の知的財産に関わる場合につきましては、問題のある項目を伏せて頂いて構いません。また、判断が難しい場合などについては、実行委員に別途ご連絡ください。
ファイルフォーマット、記述形式についての指定はございません。提出頂いたファイルが実行委員で開封できないなどの状況によっては、ご連絡させていただく場合がございます。
使用可能データについて
森羅:Wikipedia構造化プロジェクトでは、参加にあたって必要となる、構造化のサンプルデータと、対象ENEカテゴリにおけるWikipedia記事分類データと、手法の開発に有用と思われるデータを配布しております。データの配布ページのURLは参加者登録時に表示されます。これらのデータは手法に使用頂いて構いません。また、これ以外の、公開・非公開、あるいは自作のデータなど、どのようなデータもご使用いただけます。現在、データ公開ページにて公開しておりますデータは以下通りです。
- 構造化データ(トレーニングデータ)
- 対象ENEカテゴリのWikipedia記事(以下、対象Wikipedia記事)分類データ
- Wikipedia CirrusSearch ダンプデータ
- ENEカテゴリ定義書
禁止行為について
参加いただくにあたり、ご提案手法として、すべての属性値を人手で抽出する手法をご提案いただくこと、また、成果物としてすべての属性値を人手で抽出された構造化データを提出いただくことは認められません。
成果物の外部への公開・頒布について
ライセンス
本プロジェクト配布データ、および、参加者によって配布ダンプデータより属性値が抽出された構造化データについては、元データであるWikipediaのCC-BY-SA 3.0ライセンスに基づき、著作権者を表示するとともに、当該ライセンスを継承します。
CC-BY-SAについて
https://ja.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License
※CC-BY-SAに基づく限り、営利目的の頒布も可能です。
開発手法の著作権/所有権について
開発された構造化の手法についての著作権や所有権などの権利はすべて開発者に帰属します。森羅プロジェクト実行委員を始め、開発者以外の関係者が権利を主張・権利の譲渡を要求することはありません。