大規模英会話データ収集・分析のエコシステムの構築

受講者の英会話能力がバランス良く観察できるように設計されたシナリオに基づく英会話データおよび実際のオンライン英会話の大規模データセットを構築しています．

一般的に，AIや機械学習で一番難しいことのひとつはデータ循環のエコシステムのグランドデザインです．昨今の会話AI研究分野における本質的な問題も，充分な会話コーパスが絶対的に不足していることである．今回，対象としている早稲田大学でのTutorial Englishのプログラムでは2018年度だけで年間約6万時間以上のグループ英会話が行われている実績があります．目的と構造を持ったマルチモーダル会話データをこれだけ収録しアノテーションした研究事例は世界的に見て過去になく（一般的には，総収録時間は高々数十〜数百時間程度），仮にこのような大規模会話データを適切に収録できたとすれば，それだけで当該分野のエポックであると言えるでしょう．

対象データセット

本テーマの基盤となるデータセットは大きく2種類に分類されます．

英会話能力判定用データセット
既存のテストでは計測できないコミュニケーション能力を観測できるように， 3つの英会話タスクシナリオを設定する．実際のTutorial Englishの受講者の母集団の英語能力の分布に従って，まず約200名分の標本データを作成する（必要に応じて追加収録を行う）．
オンライン英会話データセット
2020年5月から開始されているTutorial English Onlineの英会話データをオンライン授業プラットフォームのビデオ収録機能を用いて収録する．

収集方法

英会話能力判定用データセット

本研究では，英会話能力判定用データセットに求められる要件として，以下のように整理しています．

2者間での自然な会話形式であること．
スピーキング6能力を判定するのに必要な機会が出現しやすいシナリオであること．
将来的に一方の会話相手をAIエージェントで代替することを前提として，再現可能な程度の会話の複雑さに留めること．

英会話タスクの定義

上記の要件整理を踏まえ，本研究では，6種類のスピーキング能力について，既存のテストでは計測できないコミュニケーションにおける能力を観測できるように，いくつかの英会話タスクを設定しています．それぞれのタスクは，CEFRで定義されている会話の性質によって分類されています．

Tutorial English Online授業の構造

Tutorial English Onlineは，事前のリーディング・リスニングテストによりクラス分けされた2〜4名の受講者と1名のチュータから構成され，前述のMoodleオンライン学習プラットフォームを介して行われます．授業は1回90分，週2回合計10回で構成され，それぞれの授業ではCEFRに基づいて設計された通常2つの学習目標が設定されています．授業は簡単なアイスブレークに始まり，チュータによる当該学習課題や英語表現の解説，受講者同士のペアワーク，レッスン全体の振り返りへと展開していきます．このときチュータは，ペアワーク中の受講者の発言や行動を観察し，適宜フィードバックを与えます．チュータらは予め「発話機会80:20の原則を守れ」，「学生に主体的に取り組ませよ」，「適正に能力判定できるように時間を管理せよ」，「学生のレベルに合わせて適切に説明せよ」，「優先度をつけて適切な方法で誤りを指摘せよ」等の指導基本方針に基づいて訓練されています．この方針は，テーマ3「スマートなオンライン英会話学習体験環境」の設計指針ともなります．

オンライン英会話データの収録

このオンラインデータ収集は，Tutorial Englishを実施している株式会社早稲田アカデミックソリューション（再委託先）の語学教育部が担当します．学生と参加する各英会話クラスのチュータに収録許諾を得た上で，チュータ自身が録画を行い，早稲田大学知覚情報システム研究所の管理するサーバにデータを集約させます．なお，データ収集にあたっては，早稲田大学の「人を対象とする研究に関する倫理審査」の許諾を得ています．