巷で話題になっているWhisperを利用してみました
環境は以下のようになります
・Intel Mac 2019 Monterey 12.6
導入
公式ページ(GitHub)の手順で導入してみます
https://github.com/openai/whisper
Anacondaを利用してPython 3.10 の環境を作りました
conda create -n whisper python=3.10
環境作成後、以下のコマンドで環境を有効化します
conda activate whisper
公式ページのコマンドでインストールを行います
pip install git+https://github.com/openai/whisper.git
ffmpegも必要とのことなので、brewでインストールします
brew install ffmpeg
環境構築は以上になります
早速使ってみる
Whisperを試してみたいがためだけにモトブログを撮ってきました
QuickTImeから音声のみ出力してm4aファイルを出力しました
以下のコマンドで文字起こしが開始されます
whisper audio.m4a --language Japanese
結果はyoutubeでどうぞ
実際の解析結果は以下のようになります
一部拾われていなかったセリフはあったにせよ、かなり高精度に認識している印象です
何より喋っている時間帯も表示されるので、単純に「ここ動画で使う!」みたいなキーワードを喋っておけば、それを目印に動画編集すれば良いので、編集作業も楽になりそうですね。
もちろん、ビジネスのシーンでは会議や記者会見の文字起こしなどにも利用できそうな気がします。
以上
Whisperがモトブログに利用できるのかという実験を行ったというお話でした。
かなりの高精度で、いろいろな用途に利用できるのではないでしょうか?
一部拾われないセリフや、漢字の変換間違いはあれど、1からセリフを文字に起こしていく場合と比較して、かなり編集作業が楽になりそうです
イラスト生成AIといい、文字起こしAIといい、最近は機械学習の進歩が著しいですね
便利な技術はどんどん取り入れていって、創作活動を楽しんで行きたいと思います。
created by Rinker
¥1,870
(2024/12/17 11:55:03時点 楽天市場調べ-詳細)
created by Rinker
¥3,300
(2024/12/17 11:55:04時点 楽天市場調べ-詳細)