原文:Versant Tests – What is the test development process you use for your speaking tests?
「機械にスピーキング力なんて判定できない。」
VERSANTのネガティブな意見としてよく聞くフレーズです。
この試験を深く学ぶまで、私自身もそう思っていました。
ある側面では、人間の評価よりもより正確にスピーキング力を測ることができるVERSANT。
本記事では、テスト制作団体Personの公式Youtubeチャンネルから、テスト開発のプロセスについて語られた動画を要約していきます。
この動画を3行で要約
- VERSANTには、厳格な開発と検証プロセスがある
- 何千ものデータを使い、AIと言語学の専門家が同じような評価をするように開発された
- 200人の被験者が検証し、人間とAIの評価が非常に高い相関を持つことが実証された
何千もの音声データを文字起こし、評価、精査し、専門家の評価と同等の品質を実現
VERSANTには、非常に厳格な開発と検証のプロセスがあります。
まずは、開発プロセスから説明します。
開発プロセスは、問題とテストを設計するところから始まります。
誰に対してのテストか、受験者の設定を行って、問題の開発し、問題を評価するアイテム・ライターをトレーニングし、これらの問題をレコーディングスタジオに持ち込みます。
問題の録音ができたら、それらを再度確認し、品質管理チェックを再度実施します。
そして、何千もの問題を作成したら、ようやくフィールド・テストの段階に進みます。
問題を解くのは、ネイティブスピーカーと非ネイティブスピーカーの英語学習者です。
何千もの彼らのテスト回答を収集し、次にそれを書き起こし、評価します。
これらのデータを使い、私達の音声認識装置 (The Recognizer)の認知機能を高めるのです。
たとえば、単語が誤って発音された場合、認識装置に誤りだと判定させるために、膨大な数のネイティブの正解音声を学習させ、同時に英語学習者のよくある発音間違いなどを学習させます。
また、内容とは無関係なノイズも学習させます。
口のノイズや、舌のクリック、呼吸のバックグラウンドノイズなど、特別なコーディングにより、ノイズ除去機能が高まり、最大の認識精度を実現します。
膨大な数の高品質な回答データが集まったら、次は評価です。
私たちには、言語学専門家達がいて、彼らが評価を担当し、発音や流暢さなどを評価します。
専門家とVERSANTのスコアリングモデルの両方で回答音声を評価し、差分を縮め、専門家がどのように評価するのかを予測できるレベルになるまで、スコアリングモデルの精度を高めていきます。
この時点で、どの問題を廃棄するか、どれを残すか、変更する必要があるか、品質管理の上、決定します。
ネイティブスピーカー全員がきちんと答えられるか、アイテムの中にトリッキーなものがあるかなどのチェックを行います。
このように、何千ものアイテムを、いくつものステップで高度な品質管理をおこなうことで、最高のテストが出来上がるのです。
様々な英語レベル200人で実証された、AIの高い判定精度
次に、すべてが期待どおりに機能していることを確認したいので、最終検証です。
さまざまな英語レベルの被験者200人を使い、彼らの回答をどのようにAIが判定するかを確認します。
彼らのテスト応答は、VERSANTの自動スコアリングモデルと専門家によって判定され、相関をみます。
相関は95点を超えると、非常に高い相関関係があると言えますが、私たちは予想通り、この基準を超えました。
フォローアップ検証は、受験者にTOEICまたはIELTSまたはTOEFLなど、別の試験を受験させることで、これら2つのスコアセットがどのように相関しているかを確認します。
そして、見事に相関関係が実証されました。
これが、VERSANTの開発と検証のプロセスの概要です。