本文へスキップ
yadokani389
← Worksに戻る

whisper-typing

ローカルで動く音声入力アプリ

公開日:
最終更新:

音声入力ツールが欲しかったのですが、 Linux対応だったりローカルで動くアプリがなかったように思ったので作りました。 モデルはOpenAIのWhisperを使っています。

クラウドの音声入力に依存せず、ローカル環境や自宅のGPUマシンで完結できることを重視しています。 録音した音声をWhisperモデルで文字起こしし、入力したい場所へテキストとして渡す用途を想定しています。

構成はサーバーとクライアントに分けています。 GPUのあるマシンで推論サーバーを動かし、軽いノートPCなどから音声を送ります。 これにより、手元の端末へ大きな負荷をかけず使えるようにしました。

録音の開始と停止はシグナルで切り替えられるようにしています。 ショートカットキーなどからシグナルを送ると録音を開始し、もう一度送ると録音を止めて文字起こしする、という流れで常用しやすくすることを意識しました。

詳細はZennの記事をご覧ください。