You are currently viewing 文字起こしAI「Whisper」をバイクブログで利用してみた

文字起こしAI「Whisper」をバイクブログで利用してみた

巷で話題になっているWhisperを利用してみました
環境は以下のようになります

・Intel Mac 2019 Monterey 12.6

導入

公式ページ(GitHub)の手順で導入してみます
https://github.com/openai/whisper

Anacondaを利用してPython 3.10 の環境を作りました

conda create -n whisper python=3.10

環境作成後、以下のコマンドで環境を有効化します

conda activate whisper

公式ページのコマンドでインストールを行います

pip install git+https://github.com/openai/whisper.git

ffmpegも必要とのことなので、brewでインストールします

brew install ffmpeg

環境構築は以上になります

早速使ってみる

Whisperを試してみたいがためだけにモトブログを撮ってきました

QuickTImeから音声のみ出力してm4aファイルを出力しました
以下のコマンドで文字起こしが開始されます

whisper audio.m4a --language Japanese

結果はyoutubeでどうぞ

実際の解析結果は以下のようになります

一部拾われていなかったセリフはあったにせよ、かなり高精度に認識している印象です
何より喋っている時間帯も表示されるので、単純に「ここ動画で使う!」みたいなキーワードを喋っておけば、それを目印に動画編集すれば良いので、編集作業も楽になりそうですね。

もちろん、ビジネスのシーンでは会議や記者会見の文字起こしなどにも利用できそうな気がします。

以上

Whisperがモトブログに利用できるのかという実験を行ったというお話でした。
かなりの高精度で、いろいろな用途に利用できるのではないでしょうか?
一部拾われないセリフや、漢字の変換間違いはあれど、1からセリフを文字に起こしていく場合と比較して、かなり編集作業が楽になりそうです

イラスト生成AIといい、文字起こしAIといい、最近は機械学習の進歩が著しいですね
便利な技術はどんどん取り入れていって、創作活動を楽しんで行きたいと思います。

コメントを残す