英語発音アプリの選び方｜能力分解で決める正しい使い分けと限界

コラム 2026/06/09

英語の発音アプリを試したものの、効果を実感できないまま終わった経験を持つ社会人は珍しくありません。

本記事は『発音アプリ』に焦点を当てます。無料で使える発音サイト（YouGlish/BBC/Cambridge等の参照型）の使い分けは別記事『英語発音サイトの選び方』をご参照ください。

ELSA Speakを3か月続けても会議で聞き返される。Speak Buddyを毎日使っても発音に自信が持てない。そうした相談は珍しくありません。一方で、同じアプリで明確に伸びた人もいます。この差は、努力量ではなく、アプリの効果範囲と自分のボトルネックがかみ合っているかで決まります。

主要な英語発音アプリ・参照ツール比較表

選び方の前提として、本記事で扱う7つのツールを一覧化します。

アプリ名	料金	対象レベル	介入段階	日本語UI
ELSA Speak	無料版あり／プロ月額¥1,750〜	TOEIC 500〜850	発音認識・矯正	あり
Speak	月額¥3,000台〜	TOEIC 600〜900	AI会話・スピーキング	あり
Speak Buddy	月額¥3,000台〜	TOEIC 500〜800	AI会話・反復	あり
Cambridge Dictionary	無料	全レベル	単語音声参照	なし
BBC Learning English	無料	TOEIC 600〜900	リスニング素材	なし
YouGlish	無料	TOEIC 700〜	文中音声検索	なし
Forvo	無料	全レベル	単語音声参照	あり

※価格は公式で要確認・as-of 2026-06

英語発音アプリの効果は、研究で定量化されています。Liu (2023) のメタ分析[^liu2023]では、ASR（音声認識）を使った発音学習の全体効果量は g = 0.69 と中程度ですが、個別音素（母音・子音）に対しては g = 0.82 と大きく、リズムやイントネーションといった上位要素には g = 0.37 と小さいことが示されています。短期（1〜4週間）の効果はほぼゼロ（g = 0.07）です。

[^liu2023]: Liu, Y. (2023). ReCALL, Cambridge University Press.

この記事では、英語発音アプリで身につく能力と身につかない能力を構造で整理し、自分のボトルネックに合わせた選び方と使い方を提示します。Spotifyランキング型の「おすすめ◯選」ではなく、能力分解で判断するための記事です。

結論：発音アプリは「音素」には効くが「流暢性」には効きにくい

最初に結論を出します。

英語発音アプリは、音素（個別の母音・子音）の精度を上げる訓練には適しています。一方で、会話の中で即時に発音を組み立てる流暢性を直接鍛える訓練ではありません。

理由はシンプルです。多くの発音アプリが採用しているASR（自動音声認識）は、用意された英文を読み上げる形式で音素レベルの誤りを検出します。これは「すでに何を言うか決まっている状態」での発音チェックです。一方、実際の会議では「何を言うかを考えながら同時に発音する」必要があります。前者と後者は、認知的に別のプロセスです。

ここで重要なのは、アプリの効果範囲を自分のボトルネックと照合することです。

音素単位の精度が低い人 → 発音アプリは有効
個別音素は正確だが、文中の音声変化やリズムが崩れる人 → 発音アプリ単体では足りない
そもそも即時に英文を組み立てられない人 → 発音アプリは優先順位が低い

「発音アプリを使えば話せるようになる」ではなく、「どの能力をどう鍛えるか」をまず決める。それが選び方の前提です。

英語発音アプリで身につく能力・身につかない能力

発音アプリの効果範囲を理解するには、スピーキング能力を分解する必要があります。

スピーキング能力の4階層（Leveltの産出モデル）

第二言語習得研究で最も広く参照される Levelt (1989) の発話産出モデルは、発話を4つの段階に分けます。

段階	内容	自動化レベル
概念化（Conceptualization）	何を言うか決める	母語話者で自動化済み
形式化（Formulation）	文法・語彙・音韻を組み立てる	L2では未自動化が多い
調音（Articulation）	実際に口で音を出す	訓練で自動化可能
自己監視（Monitoring）	出した音をチェックする	訓練で精度が上がる

英語学習者がつまずく多くの問題は、Formulation（形式化）または Articulation（調音）の未自動化にあります。

アプリが介入する範囲：Articulation（調音）

ASRベースの発音アプリは、主に Articulation 段階に介入します。

具体的には、ユーザーが英文を読み上げると、ASRが音素単位で「正しい音が出ているか」を判定します。ELSA Speakが /æ/ と /ʌ/ の混同を指摘するのは、調音段階での誤りを音素レベルで検出する処理です。

Liu (2023) のメタ分析が segmental（音素単位）に g = 0.82 という大きな効果を示したのは、まさにこの介入が機能している領域です。

アプリが介入しない範囲：Formulation と上位の suprasegmental

一方、Formulation 段階や、リズム・イントネーションといった文を超える音声特徴（suprasegmental）には、アプリの介入は弱くなります。

理由は2つあります。

1つは、Formulation は「何を言うか考える」処理を伴うため、英文を読み上げるアプリ形式では訓練対象になりません。 2つ目は、リズムやイントネーションは文脈や意図と結びついて変化するため、定型文の音素チェックでは捉えきれません。Liu (2023) のメタ分析で suprasegmental の効果量が g = 0.37 にとどまったのは、この限界の数値化です。

つまり、発音アプリは「個別音素の精度を上げる」には強い。しかし、「会話の中で即座に組み立てて、自然なリズムで話す」までは届きません。ここを混同すると、アプリを使い続けても会議で結果が出ないという状態になります。

主要な英語発音アプリと効果の構造

ここからは具体的なアプリを、能力分解の軸で位置づけます。アプリ名のランキングではなく、「どのアプリが、どの能力に、どの程度効くか」で整理します。

ELSA Speak — 音素特化のASR型

ELSA Speakは、ASRによる音素単位の判定精度が高いことで知られるアプリです。1,600以上のレッスンが収録され、音素ごとのフィードバックが詳細に出ます。

向いているのは、個別音素の誤りが多い学習者です。/r/ と /l/ の混同、/θ/ と /s/ の混同、/æ/ の弱さといった、日本人学習者に典型的な誤りに対して、明示的なフィードバックが得られます。

ただし、文を超える領域（リズム・即時応答）への効果は限定的です。「ELSAを使ったが会話で改善を感じない」という声の多くは、音素ではなく Formulation や suprasegmental がボトルネックだった場合です。

Speak / Speak Buddy — 会話統合型

Speak や Speak Buddy は、AIキャラクターとの会話を通じてスピーキング全体を練習させる設計です。発音判定機能も持ちますが、軸は「会話の流れの中で話す」体験を作ることにあります。

向いているのは、Formulation の練習量を増やしたい学習者です。話す機会そのものを増やすことで、概念化と形式化の処理速度を底上げできます。ただし、音素単位のフィードバックはELSAほど詳細ではないため、特定の音素誤りを集中的に直したい人には向きません。

辞書系・音声教材系 — Cambridge Dictionary、BBC Learning Englishなど

アプリではない選択肢として、Cambridge Dictionary（IPA表記と音声付き）や BBC Learning English の音声教材があります。これらは「正しい音のモデル」を提示する役割で、自己監視（Monitoring）能力の精度を上げます。

向いているのは、そもそも正しい音のイメージを持てていない学習者です。ASRの判定を受ける前に、自分が出すべき音の正解を聴覚的に持っていないと、フィードバックを解釈できません。

さらに、文の中で単語がどう発音されるかを確認したい段階では、YouGlish と Forvo の併用が有効です。YouGlish は YouTube 動画から該当単語・フレーズを含む実音声を文脈つきで検索でき、TOEIC 700以上の学習者がリエゾンや自然なリズムを把握するのに向きます。Forvo は単語単位のネイティブ発音音声を無料で参照でき、日本語UI も対応しています。どちらも産出練習にはなりませんが、ELSA や Speak で訓練する前段階の「正しい音モデル」を整える参照型ツールとして組み合わせると、Monitoring 段階の精度が安定します。

効果の構造を表で整理

アプリ種別	主な介入段階	強み	弱み
ASR型（ELSA等）	Articulation（音素）	音素誤りの明示的検出	リズム・即時応答に弱い
会話統合型（Speak等）	Formulation	話す機会の量	音素フィードバックが浅い
辞書・音声教材型	Monitoring	正しい音のモデル提示	産出練習にはならない

この表が示す通り、「最強のアプリ」は存在しません。能力ごとに役割が分かれており、自分のボトルネックに応じて選ぶか、組み合わせる必要があります。

よくある失敗：発音アプリの使い方を間違える3パターン

発音アプリで成果が出ない人には、共通する3つの典型パターンがあります。

失敗1：流暢性を求めて音素特化アプリを使う

「会議で堂々と話せるようになりたい」という目的でELSA Speakを始め、3か月続けても会議での体験が変わらない、という相談はよくあります。

原因は明確です。会議で堂々と話せない理由は、多くの場合 Formulation の処理速度不足です。何を言うか組み立てる段階が遅いから、結果として発話全体が崩れます。音素は正しく出せても、即時に組み立てる訓練を別途行わないと、会議のパフォーマンスは変わりません。

音素特化アプリは「音素のボトルネック」にのみ効く、と理解する必要があります。

失敗2：1〜2週間で見切る

Liu (2023) のメタ分析では、1〜4週間の短期介入の効果量は g = 0.07 と、ほぼゼロに近い数値が出ています。

これは、発音学習が運動学習に近い性質を持つことの反映です。新しい音素の調音は、舌や唇の動きを習慣として定着させる過程です。1日10分を2週間続けても、習慣が書き換わるには足りません。

メタ分析で意味のある効果が確認されているのは、中長期（数か月単位）の継続介入です。アプリを2週間試して効果がないと判断するのは、研究の知見からはまだ判定不能の段階です。

失敗3：単独練習だけで終わる

同じメタ分析では、ペア練習を組み込んだ場合の効果量が g = 0.89、単独練習が g = 0.44 と、約2倍の差が出ています。

理由は、発音の自己監視には限界があるためです。自分の音は、自分の頭蓋骨を伝わる骨伝導と、空気を伝わる音の両方が混ざって聞こえます。録音した自分の声に違和感を覚えるのは、この差です。アプリのASR判定は機械的なフィードバックを補いますが、人間の聞き手からのフィードバックには別の情報が含まれます。

「発音アプリだけで完結させる」設計は、効果の天井を自分で下げる選択です。

TOEIC帯別の推奨アプリ早見

ボトルネック診断を行う前のラフな目安として、現在のTOEICスコア帯別に推奨される組み合わせを示します。

TOEIC帯	推奨アプリの組み合わせ	狙い
600〜700	Cambridge Dictionary ＋ ELSA Speak	正しい音モデルの確立と個別音素の矯正から開始
700〜850	ELSA Speak 本格活用＋短文応答訓練	音素精度を維持しつつ即時運用に橋渡し
850〜900	Speak Buddy／Speak など会話統合型で即時運用	Formulation の処理速度を底上げし会議で結果を出す

あくまで起点としての目安です。最終的にはこの後の能力分解診断でボトルネックを特定してから、組み合わせを微調整します。

The Past式 — 能力分解で発音アプリを選ぶ4ステップ

ここまでの理論を、具体的な選び方の手順に落とします。

Step 1：ボトルネックを特定する

まず、自分の弱点が以下のどれに該当するかを判定します。

A. 個別音素の精度（/r/、/l/、/θ/、/æ/ などが曖昧）
B. 音声変化・リズム（チャンクで聞き取れず、自分の発話もぶつ切り）
C. 即時運用（何を言うか考えるのに時間がかかり、結果として発音も崩れる）

複数該当することもありますが、最も影響が大きい1つを特定します。次の章のミニ診断で判定できます。

Step 2：介入対象に合うアプリを選ぶ

ボトルネックごとに選ぶ方向性が変わります。

Aが主たるボトルネック → ELSA Speakなどの音素特化アプリ
Bが主たるボトルネック → ディクテーション系アプリ、シャドーイング教材（補助的に）
Cが主たるボトルネック → アプリだけでは不足。会話量を増やすか、即時応答訓練を別途設計

Step 3：学習期間とフィードバック頻度を設計する

メタ分析の知見に基づき、最低でも2〜3か月の継続を前提に設計します。1日10〜15分、週5日が目安です。

フィードバックの頻度も重要です。ASRの自動フィードバックに加えて、週1回でも人間（コーチ、ネイティブ、上達した学習仲間など）からのフィードバックを受ける設計にすると、効果量がg=0.44からg=0.89帯に近づきます。

Step 4：アプリ外の補完訓練を組み込む

アプリだけでは届かない領域は、別の訓練で補います。

音声変化・リズム → 音読時にチャンク区切りを意識する練習
即時運用 → 短文応答訓練（例：質問を聞いて3秒以内に1文で答える）
自己監視 → 自分の発話を録音して、ASRと耳で二重チェック

なお、シャドーイングはここで補助的に登場します。シャドーイングは音声処理（入力側の自動化）には効きますが、Formulation 段階に直接介入する訓練ではありません。「シャドーイングをやれば話せる」は典型的な誤学習で、位置づけはあくまで補助です。

記事内トレーニング：自分の発音ボトルネックを1分で診断

アプリを選ぶ前に、自分のボトルネックを判定する3ステップ診断を用意しました。所要時間は5分以内です。

Practice 1：音素レベルチェック（2分）

以下の単語ペアを、自分で発音してから録音し、聴き返してください。違いが自分で聞き取れるかが判定軸です。

ペア	発音記号
right / light	/raɪt/ vs /laɪt/
think / sink	/θɪŋk/ vs /sɪŋk/
bat / but	/bæt/ vs /bʌt/
ship / sheep	/ʃɪp/ vs /ʃiːp/

判定：自分の発音で2ペア以上の区別が曖昧、または聴き返して同じに聞こえる場合、Aの音素レベルがボトルネックです。

Practice 2：音声変化チェック（1分）

以下の英文を、ナチュラルスピードで音読してみてください。

I’m going to talk about the next quarter’s priorities.

ポイントは2つです。

“going to” が “gonna” のように圧縮されるか
“talk about” が “tal-ka-bout” のように連結するか

判定：単語を1つずつ区切って読んでいる、リエゾン（連結）がほぼ出ていない場合、Bの音声変化・リズムがボトルネックです。

Practice 3：即時応答チェック（2分）

以下の質問に、それぞれ3秒以内に1文で答えてください。録音してください。

What did you do last weekend?
What’s the main challenge in your current project?
Why do you want to improve your English?

判定：3秒以内に1文を始められない、または途中で詰まる場合、Cの即時運用がボトルネックです。発音の問題ではなく、Formulation の処理速度が課題です。

診断結果の使い方

主たるボトルネックが特定できたら、前章 Step 2 で対応するアプリと訓練を選びます。

複数該当する場合は、Cが該当するなら最優先で対応します。即時運用ができていないと、いくら音素を磨いても会議では結果が出ません。次に B、最後に A の順で対応するのが効率的です。

アプリ別の使い分け実例：ビジネスパーソンの3パターン

実際にThe Pastで対応する典型ケースを3つ示します。

パターンA：個別音素が弱い学習者（30代・営業職）

TOEIC 850。読み書きはできるが、海外顧客との電話で「pardon?」と聞き返される頻度が高い。ミニ診断で /r/-/l/ と /θ/-/s/ の混同を確認。

選んだ訓練：

メイン：ELSA Speakで音素レッスンを毎日15分、3か月継続
補助：Cambridge Dictionaryで未知単語の発音記号を都度確認
フィードバック：週1回、コーチに録音音声をチェックしてもらう

3か月後、ASRスコアが向上し、電話での聞き返し頻度が体感で半減。

パターンB：音声変化が苦手な学習者（40代・エンジニア）

TOEIC 900。個別音素は明瞭だが、英語ニュースが速いと崩れて聞こえる。自分の発話もぶつ切りでリズムが英語的でない。

選んだ訓練：

メイン：BBC Learning English の Pronunciation in News 教材でチャンク区切りを意識した音読
補助：シャドーイングを短文(1文10語程度)で実施
アプリ：ELSAは補助的に使用（音素は維持の目的）

2か月後、英語の自然な強弱が出るようになり、会議で聞き取られやすくなった。

パターンC：即時運用ができない学習者（30代・マネージャー）

TOEIC 920。発音は綺麗だが、会議で意見を求められると沈黙してしまう。読み上げ式のアプリでは高評価だが、実会話で出てこない。

選んだ訓練：

メイン：短文応答訓練（コーチからの英語質問に3秒以内で1文応答）
補助：Speak Buddy で会話の流れに乗る練習
アプリ：ELSAなど発音特化型は優先度を下げた

3か月後、会議で自分から発言する回数が増えた。発音アプリを集中的に使う前段階として、Formulation の処理速度訓練が必要だった典型例です。

まとめ

英語発音アプリは、能力構造の中で位置づけて使うと効果が出ます。

アプリが効く範囲は、主に Articulation 段階の音素精度（メタ分析で g = 0.82）
リズム・即時運用といった上位の能力には、アプリ単体では届かない（g = 0.37 〜効果不明）
1〜2週間の短期使用ではほぼ効果が出ない（g = 0.07）
単独使用よりも人間のフィードバックを組み合わせる方が効果が大きい（単独 g = 0.44 → 併用 g = 0.89）

選び方の順番は以下です。

自分のボトルネックを音素／音声変化／即時運用のどこかに特定する
ボトルネックに合うアプリを選ぶ
2〜3か月の継続を前提に設計する
アプリ外の補完訓練と人間のフィードバックを組み合わせる

「アプリを使えば話せる」ではなく、「自分のどの能力をアプリで鍛えるか」を決める。これが、発音アプリで結果を出している学習者に共通する設計です。

自分のボトルネックを言語化したい方へ

英語発音アプリの選び方の前段階で、「自分の本当のボトルネックがどこにあるか」を専門家と一緒に整理することが、最短ルートです。

The Pastでは、Versant30回以上の受験データと、ビジネスパーソンの英語指導実績から、スピーキング能力を能力単位で診断する無料カウンセリングを実施しています。

音素・音声変化・即時運用のどの段階に課題があるかを30分で言語化
アプリを使うべきか、別の訓練を優先すべきかを判断
自分専用の学習設計案を提示

「発音アプリを試したが伸びを感じない」「どのアプリが自分に合うか分からない」という方は、診断から始めることをおすすめします。

[無料カウンセリングを申し込む]

アプリは便利ですが、何の能力を鍛えているか分からず使うと限界があります。The Past の無料eBook『シャドーイングを今すぐ捨てよ』（LINE登録）では、ツール選びの前に知るべき“伸びる学習法”の全体像を解説します。