【Windows】音声ファイルから無料で文字起こしする方法

　 2021年7月13日

ちょっとトリッキーではあるんですが、Windows で mp3・WAV・flac・mp4 などの音声ファイルから無料で文字起こしする方法を書いておきます。

今回は、Google ドキュメントを使う方法を中心に紹介しておきますが、最後に他の方法も紹介しておきます。

Googleドキュメントの音声入力機能

以前も紹介したとおり、Chrome 上から利用する Google ドキュメントでは、音声認識機能による音声入力が可能です。

具体的には「ツール」→「音声入力」を開き、
speech_to_text_with_single_pc_2

表示されるマイクのアイコンをタップして音声入力すれば、専門用語などでなければかなりの精度で文字に起こしてくれる、という使い方になります。
speech_to_text_with_single_pc_10

ただ、単純にこの操作をした場合はマイクから喋る必要があり、手元にある .wav / .mp3 などの音声ファイルの中身を音声認識してはくれません。

そこで一工夫。Windowsで再生した音声をWindowsで録音できれば、再生中の WAV ファイルの内容を Google ドキュメントで音声認識できるようになるわけです。

方法はいくつかありますが、設定だけでできる方法としては「ステレオミキサー」を使う手があります。

設定方法は、「サウンド」設定の「録音」タブを開いて、
speech_to_text_with_single_pc_6

「ステレオミキサー」を「既定のデバイスとして設定」し、
speech_to_text_with_single_pc_9

この状態で文字起こしをしたい音声ファイルを Windows 上で再生。同時に、先の方法で Google ドキュメントの音声入力を開始すれば、こんな感じで勝手に文字起こししてくれます。
speech_to_text_with_single_pc_1

注意点としては通知類を一旦止めておかないと雑音が入ること。また、文字起こし中は、その他の音が再生されないようにしておく必要があることです。

通知に関しては、アクションセンターを右クリック →「集中モード」から、ある程度抑止可能。また、Chrome プラグインの「Checker for Gmail」なんかにも、時間指定の非通知モードがあるので、不都合がある場合は活用すると良いでしょう。

なお、機種や環境によってはステレオミキサーが表示されない場合があります。その場合の対処方法については、次の記事を参照してください。

上記記事では、ステレオミキサーがまったく使えない場合の対処方法についてもいくつかのアイディアを書いています。

よろしければご一読ください。

今回紹介した Google ドキュメントを使う方法以外にも、小さい音声ファイルなら「Google Cloud Speech-to-Text」から文字起こしすることもできます。

ただし、こちらは1分以内、かつ、50MB以内のファイルのみテキストへの変換が可能です。

また、有料の前提にはなりますが、「Google Cloud Speech-to-Text」の API を直接叩く方法や、おなじくAPI提供になりますが、「IBM Watson Speech to Text」を利用する方法もあります。

いずれも多少のプログラミングの知識が必要になりますが、比較的簡単に作れますので、できそうな方はそちらを使ってみても良いでしょう。

いずれのサービスも2021年7月現在、時間制限はあるものの無料で利用可能な方法が用意されていますので、試してみやすいのではないでしょうか。