大手AI文字起こしの精度を比較〜GCP vs Azure vs OpenAI〜

2024年2月16日 2024年4月2日

Taisei Shimoyama

文字起こしサービスには国内外複数のサービスが存在し、サービスごとに精度や特徴が異なります。
本記事では、特に高い精度が期待されている、AI音声認識（STT）サービスの主要3社（Azure, Google Cloud, OpenAI）の精度を検証・比較してみました。

1 1. Azure vs GCP vs Whisper
2 2. 比較方法
3 3. STTの精度比較結果
4 4. まとめ

1. Azure vs GCP vs Whisper

① Azure "Speech Service"

引用：Microsoft社 Azure AI Service

文字起こし料金：
1時間あたり$0.36（約54円）
1通話3分*2話者当たり約5.5円
参照：Azure AI Speechの価格（2024年2月時点）

② Google Cloud "Speech-to-Text"

引用：Google社 Google Cloud Speech-to-Text

文字起こし料金：
1時間あたり$0.96~0.24$（約144~36円）
1通話3分*2話者当たり（約14.4円~3.6円）
参照：Speech-to-Text の料金（2024年2月時点）

③ OpenAI "Whisper"

引用：OpenAI社 Whisper

文字起こし料金：
1分あたり$0.006（約0.9円）
1通話3分*2話者当たり（約5.4円）
参照：OpenAI Pricing, Audio models（2024年2月時点）

2. 比較方法

2-1.各モデルの使用条件

・Azure ”Speech to Text”
使用したモデルはSpeechConfig（Speech SDK）
言語は日本語、その他各種パラメータはデフォルト値

・Google Cloud "Speech-to-Text"
使用したモデルは今回はデフォルト状態のSpeech-to-Text v2（2024年2月現在、最高精度のモデル）、サンプリング周波数 : 48000
言語は日本語、その他各種パラメータはデフォルト値

・Open AI "Whisper"
モデルを tiny, small, medium, large から選べるが、largeはあまりに計算コストが大きかったため mediumで実行しました。largeで実行すれば時間がかかりますが、精度は上がります。
言語は日本語、その他各種パラメータはデフォルト値

2-2. 比較データ

各モデルにおいてサンプルの種類による音声認識の差が影響することを防ぐため、男声と女声、朗読と会話で認識差が生まれる可能性を考慮し、

男性・単数（朗読のみ）
男性・複数（会話のみ）
女性・単数①（朗読のみ）
女性・単数②（朗読・会話調）
男女混合（会話のみ）

の5種類、計60分のサンプルボイスを使用しました。

2-3. 文字起こし精度の計算方法

音声認識においては「精度（正解率）」として、BLEUやCER（文字誤り率）などの評価指標がありますが、今回は、漢字の変換や単語の区切りなど、意味が通る文章であるかどうかを測定するため、単語の誤り率（WER：Words Error Rate）を採用しました。単語の誤り率は、単語ごとに区切って、それらの誤り率の計算をします。したがって、誤り率が高い方が精度は低いということになります。
なお、単語で区切るために、オープンソース形態素解析エンジン「MeCab」を利用しました。

また、正解文と比較する上で以下のように単語の変換自体が難しい場合に留意する必要があります。

「こと」を「こと」「事」、「という」を「と、言う」「と云う」などの漢字書き換え。

2. フィラー（「ああ」「あー」「ええ」「えー」など、口頭

1つ目の問題点については、朗読などはあえてそのままの文章を正解とし、会話文は聞こえる範囲で独自に解答を作成し、文脈的に正しいと思われる文章・表記を正解としました。

2つ目の問題点については、以下に当てはまるように句読点や感嘆符などは取り除きました。

句点　。
読点　、
会話文のかっこ　「」
クエスチョン　？
フィラー　ええ、えー、ああ、あー　等

3. STTの精度比較結果

結果は以下の表の通りです。正解の文章は一意に定まらないことに注意しなければいけませんが、Azure STTの成績が一番良く、OpenAI Whisperの成績が一番悪い結果となりました。

会話文のない女性単数（朗読のみ）は、どのサービスも精度が良い
会話文のみの男女混合では、複数人の発話が重複する箇所があり、Google STTとOpenAI Whisperの精度が悪い
Google STTは会話文に弱い傾向がある
Open AI Whisperは全体的にやや成績が悪い

表：音声認識AIの誤り率（単位は%）（赤：精度◯、青：精度×）

	Azure STT	Google STT	OpenAI Whisper
男性単数（朗読のみ）	14.382	11.564	17.48
男性複数（会話のみ）	2.939	11.959	13.388
女性単数（朗読のみ）	4.033	3.529	7.309
女性単数（朗読・会話調）	15.925	16.836	15.301
男性・女性混合（会話のみ）	6.758	21.527	16.210

音声変換の失敗例としては以下のようなものがありました。

正解文：国会の情勢が許せば→国会の女性が許せば
正解文：ある朝、ほら穴から→ある朝、ホラー名から
正解文：アナログ規制の見直し→アナログ帰省の見直し
正解文：ぬくとい母さんの手で→抜くとイカあさんの手で

このように、音声の認識ミス、変換ミスによる失敗例が多くみられました。

4. まとめ

以下に精度の検証結果と各モデルの価格、筆者の使用感をまとめました。

	Azure STT	Google STT	OpenAI Whisper
価格	1ヶ月５時間まで無料（超過後は１$/時間、他オプションあり）	1ヶ月１時間まで無料 (超過後は0.024$/分、他オプションあり）	$0.006/分
精度	朗読：◎ 　会話：⚪︎	朗読：◎　会話：⚪︎	朗読：⚪︎ 会話：△

各モデルの使用感

Azure STT
・Azure Portal等からAPIキーを取得して実行可能です。
・実行環境の構築（APIの取得、コード作成）が他サービスと比較するとやや面倒でした。ただ、Azureに慣れ親しんだ方であれば、そこまで苦労せずに実行できると思います。

Google STT
・Google Cloud Storageを利用することで、ノーコードでSTTを利用可能です。
・v1、v2のモデルがあり、APIが利用可能です。
・また、各種パラメータ（言語、サンプルレートなど）を設定することも可能です。

Open AI STT
・OpenAIのAPIを利用したことがある方なら、ファイル名などを指定するだけで簡単に利用可能です。
・v2、v3のモデルがあり、v2はAPIが利用可能です（2024年1月現在）
・v3モデルでは tiny、small、medium、large から選択可能です。
なお、large-v3モデルは、2024年1月現在では、グラフィックボードを用いると実行可能ですが、今回は条件を揃えるためにグラフィックボードなしで実行できるモデルである large-v2 を使用しました。

自動文字起こし技術について、主要3社のモデルを実際に使用して、検証してみた結果は以上のようになりました。
自動文字起こし技術を実際に会議での文字起こしやコールセンターなど、業務で利用する場合には、

専門用語が多くなる
滑舌が悪くなる
外の環境音や他人の話し声などの雑音が入り混じる

など今回の環境とはやや異なることが想定されるため、WERはやや大きくなると思われます。

しかし、ある研究によると、誤り率が20%程度でも概要把握は可能であり、10％程度であれば内容理解にほとんど支障がないとされています。今回の検証結果を省みるに、Google STT、Azure STTであれば誤字はあれど十分に理解可能であり、これらの出力結果を言語生成AIを利用して自然な日本語に修正する、といった工夫をすることで十分に実用的な運用が可能であると言えるでしょう。

当社では、生成AI導入支援コンサルティングやAIシステム受託開発を行っております。
STTをどうやって業務に活用すれば良いのだろうか、STTを業務に導入してみたい、という方はぜひ当社にお問い合わせください！