リアルタイム音声テキスト変換のために、NVIDIA Jetson Orin上でWhisperをデプロイする
リアルタイム音声テキスト変換のために、NVIDIA Jetson Orin上でWhisperをデプロイする
イントロダクション
リアルタイム音声テキスト変換 (Speech-to-Text, STT)システムは、音声アシスタントから文字起こしサービスまで、今日のアプリケーションで重要な役割を果たしています。 人気のSSTモデルには、WhisperやRiva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.aiなどがあります。 高性能と高エネルギー効率で知られるNVIDIA Jetson Orinは、このような厳しいアプリケーションをエッジでデプロイするために有力なプラットフォームを提供します。
深層学習を活用した先進的なSSTシステムであるWhisperは、精度と効率性に優れています。 Rivaは、NVIDIAによって開発された包括的でマルチモーダルな会話型AIフレームワークです。 WhisperかRivaをJetson Orinでデプロイすることで、開発者は、Tensor CoresのようなハードウェアアクセラレーションとともにパワフルなGPUとCPUコアを利用して、低遅延なリアルタイムSSTを実現できます。
この記事では、Jetson上のリアルタイムWhisperを紹介します。 この組み合わせにより、デバイス上で音声を直接処理することが可能になる他、ネットワークの常時接続が不要になり、プライバシーとセキュリティが強化されます。また、加えて同じJetson Orinデバイス上にWhisperとRivaを両方デプロイして、推論速度を比較していきます。
WhisperをJetson Orinにデプロイすると、最終的に開発者は、スマートホームから産業オートメーションまで様々な分野で堅牢で効率の良い、高精度と低遅延を実現するSSTアプリケーションを構築できるようになります。
ハードウェアの準備
ハードウェアの構成
- reComputer (またはJetsonの他のデバイス)
- reSpeaker (または他のUSBインターフェイスのマイク)
ハードウェアの接続
画像のように接続します。reComputerに電源、HDMI、USBマイクを接続します。
実行環境の準備
Step1. 依存関係をインストール
git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000
Step2. 環境をテスト
python test.py
以下の情報がターミナルに出力されれば、必要なライブラリが正しくインストールされています。
ターミナルでffmpeg -version
と入力すると、インストールされているffmpegの情報が得られます。
実行してみよう
python main.py
Riva vs Whisper
高度なAI型音声認識と自然言語処理で知られるRivaは、会話内容のリアルタイム文字起こし、翻訳、分析の機能を提供します。
Whisperは、ウェブから収集された680,000時間の多言語およびマルチタスクの監視データを学習した自動音声認識 (Automatic Speech Recognition, ASR)システムです。 さらに複数言語の文字起こしや、他言語から英語への翻訳も可能です。
この比較動画では、NVIDIA JetsonにデプロイされたRivaとWisperの音声テキスト変換の実力を比較します。
プロジェクトの展望
このプロジェクトでは、Whisperを用いて、マイク入力からリアルタイムでデータを収集して表示してみました。 今後、Whisperのリアルタイム処理能力を強化し、遅延をさらに減少させ、音声認識の精度が向上されるとともに、アプリケーションの機能を充実させるために他のAIサービスやAPIとの統合を検討していきたいと思います。
テクニカルサポートと製品に関するフォーラム
ご購入いただいた製品をスムーズにお使いいただけるよう、Seeedでは様々なサポートを提供しています。ご希望に合わせてコンタクトの方法をお選びください。
出典 : Seeed Studio資料 Wiki - Deploy Whisper on NVIDIA Jetson Orin for Real time Speech to Text
*このガイドはSeeed Studioの許可を得て、スイッチサイエンスが翻訳しています。