2018年7月2日に開催いたしました、森羅:Wikipedia構造化プロジェクト2018 意見交換会についてのページです。多くの方にご参加いただきまして、誠にありがとうございました。意見交換会では、参加者の皆様から多くの建設的なご意見、ご報告をいただきました。
その中で、Infoboxからの抽出が有効な属性とそうでない属性が明確になってきた他、パターンによる抽出手法の構築方法などもご報告いただきました。これらのご報告により、値が複合名詞となるような属性については、構造化の道筋が見えてきたと思われます。Infoboxから抽出が難しい属性、あるいはパターンを構築することが困難な属性については、より多くのアプローチの検討が必要な状況であることも分かってまいりました。
森羅プロジェクトでは、多くの参加者様から手法や意見を頂き、これを集約することで、より大規模かつ高精度な知識源とその構築手法を作り上げることを目標としております。この達成に向けて、ご協力いただけますようお願い申し上げます。
開催情報
- 開催場所: 日本橋 理研AIPセンター
- 開催日時: 2018/7/2 16:00 – 1800
- 会議参加者: 実行委員5名、プロジェクト参加者14名
意見交換会の様子
連絡事項
- HTMLデータの配布
- 現在配布中の構造化(トレーニング)データは、ダンプデータから生成した、ローカル上で構築したWikipediaを用いてアノテーションを行っております。このため、テンプレートをパースする機能により、Infobox中の記述などに、ダンプデータには存在しない文字列が含まれていることがわかりました。このため、このローカル上のHTMLを保存したファイルについても配布を行うことと致しました。
現在、作成を行っております。7月第3週(7/16~)に全データを公開する予定です。- (7/12更新)公開致しました。 こちらからダウンロードいただけます。
- 構造化(トレーニング)データの修正
- 構造化(トレーニング)データ中に、BOM(Byte Order Mark)文字列が含まれていることをご報告いただきましたので、これを削除したものにデータを更新致しました。