リアルタイム音声テキスト変換のために、NVIDIA Jetson Orin上でWhisperをデプロイする

イントロダクション

リアルタイム音声テキスト変換 (Speech-to-Text, STT)システムは、音声アシスタントから文字起こしサービスまで、今日のアプリケーションで重要な役割を果たしています。 人気のSSTモデルには、WhisperやRiva、DeepSpeech、Google Cloud Speech-to-Text API、Microsoft Azure Speech Service、IBM Watson Speech to Text、Kaldi、Wit.aiなどがあります。 高性能と高エネルギー効率で知られるNVIDIA Jetson Orinは、このような厳しいアプリケーションをエッジでデプロイするために有力なプラットフォームを提供します。

深層学習を活用した先進的なSSTシステムであるWhisperは、精度と効率性に優れています。 Rivaは、NVIDIAによって開発された包括的でマルチモーダルな会話型AIフレームワークです。 WhisperかRivaをJetson Orinでデプロイすることで、開発者は、Tensor CoresのようなハードウェアアクセラレーションとともにパワフルなGPUとCPUコアを利用して、低遅延なリアルタイムSSTを実現できます。

この記事では、Jetson上のリアルタイムWhisperを紹介します。 この組み合わせにより、デバイス上で音声を直接処理することが可能になる他、ネットワークの常時接続が不要になり、プライバシーとセキュリティが強化されます。また、加えて同じJetson Orinデバイス上にWhisperとRivaを両方デプロイして、推論速度を比較していきます。

WhisperをJetson Orinにデプロイすると、最終的に開発者は、スマートホームから産業オートメーションまで様々な分野で堅牢で効率の良い、高精度と低遅延を実現するSSTアプリケーションを構築できるようになります。

ハードウェアの準備

ハードウェアの構成

  • reComputer (またはJetsonの他のデバイス)
  • reSpeaker (または他のUSBインターフェイスのマイク)

ハードウェアの接続

画像のように接続します。reComputerに電源、HDMI、USBマイクを接続します。

実行環境の準備

Step1. 依存関係をインストール

git clone https://github.com/LJ-Hao/Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text.git
cd Deploy-Whisper-on-NVIDIA-Jetson-Orin-for-Real-time-Speech-to-Text
pip install -r requirements.txt
sudo apt update && sudo apt install ffmpeg
arecord -D hw:2,0 --dump-hw-params #set microphone rate to 16000

Step2. 環境をテスト

python test.py

以下の情報がターミナルに出力されれば、必要なライブラリが正しくインストールされています。

ターミナルでffmpeg -versionと入力すると、インストールされているffmpegの情報が得られます。

実行してみよう

python main.py

Riva vs Whisper

高度なAI型音声認識と自然言語処理で知られるRivaは、会話内容のリアルタイム文字起こし、翻訳、分析の機能を提供します。

Whisperは、ウェブから収集された680,000時間の多言語およびマルチタスクの監視データを学習した自動音声認識 (Automatic Speech Recognition, ASR)システムです。 さらに複数言語の文字起こしや、他言語から英語への翻訳も可能です。

この比較動画では、NVIDIA JetsonにデプロイされたRivaとWisperの音声テキスト変換の実力を比較します。

プロジェクトの展望

このプロジェクトでは、Whisperを用いて、マイク入力からリアルタイムでデータを収集して表示してみました。 今後、Whisperのリアルタイム処理能力を強化し、遅延をさらに減少させ、音声認識の精度が向上されるとともに、アプリケーションの機能を充実させるために他のAIサービスやAPIとの統合を検討していきたいと思います。

テクニカルサポートと製品に関するフォーラム

ご購入いただいた製品をスムーズにお使いいただけるよう、Seeedでは様々なサポートを提供しています。ご希望に合わせてコンタクトの方法をお選びください。


出典 : Seeed Studio資料 Wiki - Deploy Whisper on NVIDIA Jetson Orin for Real time Speech to Text

https://wiki.seeedstudio.com/Edge/NVIDIA_Jetson/Application/Generative_AI/Whisper_on_Jetson_for_Real_Time_Speech_to_Text/

*このガイドはSeeed Studioの許可を得て、スイッチサイエンスが翻訳しています。