学生・若手研究者のためのBERTワークショップ2(固有表現抽出タスク)

~BERTを使って固有表現抽出を体験!~

今後、ワークショップを通して集まったコミュニティの活性化を図るため定期的に交流会を開きたいと考えています。その第1回交流会を2日目のワークショップと合同で開催します。前回のワークショップの内容であるテキスト分類と今回の属性抽出にそれぞれ関連した2件の発表を予定しています。こちらもぜひ活発な議論をお願いいたします!

実際にコードを改良して、結果をリーダーボードにどんどん投稿してください! 分からないことがあれば、Slackの#bert_workshop2022で質問してみましょう!

300名を超える方にご参加いただいた1回目のワークショップに引き続き、2回目のBERTワークショップを行います。今回のタスクは固有表現抽出とし、9月30日(金) 13時からオンライン形式で行いました。

自然言語処理技術に対する期待と需要が高まる中、質の高い研究開発を行える人材の育成が望まれています。2018年にBERTが登場して以降、XLNet、ALBERT、RoBERTaといったBERTをベースとしたモデルが次々と登場しており、今後の自然言語処理において必須といえる状況となっています。こうした状況を踏まえ、「学生・若手研究者のためのBERTワークショップ」を8月4日(木)と8月10日(水)に開催しました。前回はテキスト分類タスクを対象としましたが、今回は参加者からの要望が多かった固有表現抽出タスクを対象に行います。

前回と同じく、ご自身のPCでGoogle Colaboratoryを利用してBERTを体験していただくことを想定しています。前回のワークショップに参加している必要はありませんが、前回の内容を踏まえた上での説明になりますので、前回の動画やスライド(こちらで公開しています)をご覧いただいた上での参加が望ましいです。

学生や若手研究者をメインターゲットとしていますが、それ以外の方も歓迎しています。前回同様、ご自身で自由な時間に行う体験期間を設け、10月末に2日目を行います。2日目の内容は、参加者からの報告などを予定しています。1日目の説明は動画として公開し、体験期間中はSlackなどを通して随時サポートを行います。

特に学生の皆さんへ

本ワークショップでは、運営が教材としてお渡しするコードで実際にBERTを動かし、そのコードを元に色々と独自の工夫をすることで改善していくという(単に講義を聞くという座学的なものから一歩踏み出した)研究や開発の基本的な部分も体験してもらいたいと考えています。そのために、皆さんが行った工夫がどのくらい改善につながったかがすぐにわかるようリーダーボードを用意しています。リーダーボードに結果を投稿すると、皆さんが頑張った結果がスコアという形で即座に反映されます。リーダーボードで優秀な結果を出した方やユニークなアプローチで取り組んだ方は、理研AIPの学生アルバイトとしてプロジェクトに参加していただくチャンスもあります。我こそは!と思う学生の皆さん、この機会にどんどんチャレンジしてください。

本ワークショップを通して、最新の自然言語処理技術に対する理解を深めてもらいたいと考えています。また、学生や研究者間の意見交換の場としても活用して頂ければと思います。

<日時>
9月30日(金) 13:00-15:00と10月27日(木) 14:00-16:00の2日間

<参加方法>
形式:オンライン(Zoom)
 ※当日はミーティングを録画し、後日Web公開する予定です。

<参加申し込み>
2日目:10月27日(木)の
申し込みはこちらからどうぞ
 ※1日目:9月30日(金)に申し込まれた方も再度申し込みをお願いいたします。

<プログラム>
1日目:9月30日(金) 13:00-15:00
13:00-13:05 オープニング(動画,スライド
13:05-13:15 前回のふりかえり(BERTおさらい)(動画
13:15-14:45 BERT体験(Google Colaboratory利用)(動画
14:45-14:50 定期交流会の案内(動画,スライド
14:50-15:00 森羅プロジェクトの説明&クロージング(動画

2日目:10月27日(木) 14:00-16:00
14:00-14:05 オープニング(動画,スライド
14:05-14:35 属性値抽出(動画,スライド
14:35-15:35 体験報告&第1回交流会(動画,スライド,発表者スライド[ktr,しまじろう,Akira Ogawa,Takemoto Kosuke,Yusuke Kimura]
15:35-16:00 森羅プロジェクト紹介&クロージング(動画

<リーダーボード>
リーダーボードはこちらになります。

<体験教材>
今回の体験教材として、拡張固有表現を元に作成した8種類のカテゴリーが付与された「Wikipediaを用いた日本語の固有表現抽出データセット」(ストックマーク株式会社)を用います。拡張固有表現は、Wikipedia構造化プロジェクトである森羅プロジェクトでも用いられています。

<参考資料>
当日は初学者の方にも分かりやすく説明していきますが、BERTの基本的な説明に関しては前回のワークショップを踏まえての説明となりますので、事前に前回のホームページにある動画やスライドをご覧になった上でご参加ください。また、Google Colaboratoryを利用しますので、こちらを参考に事前準備をお願いいたします。さらに、以下の動画などをご覧いただくと、より深い理解につながりますので是非ご覧ください。

以下の図書も参考になります。

<コミュニティ>
不明な点などありましたら、以下のslackの#bert_workshop2022チャンネルでお気軽にお尋ねください。

      • 森羅slack (shinra2022.slack.com)への参加リンク
        • スクリプト(ipynb)は#bert_workshop2022チャンネルで配布しています。
        • 森羅プロジェクトへの参加を義務付けるものではありませんのでご参加ください。

<アンケート>
参加された方は、アンケートにご協力ください。