概要
ESPnet-ONNX は、ESPnet で開発された PyTorch ベースの音声処理モデルを ONNX 形式に変換し、実運用向けに最適化するフレームワークです。これにより、C++ やモバイル環境などへのデプロイが容易になります。
背景
研究開発ではモデルの精度や新規性が重視される一方、実運用では軽量性・高速性・移植性が求められます。ESPnet-ONNX は、この両者のギャップを埋めるため、追加学習を行うことなくモデルの変換と最適化を可能にします。
1分以内
ESPnet-ONNX は、ESPnet で開発された PyTorch ベースの音声処理モデルを ONNX 形式に変換し、実運用向けに最適化するフレームワークです。これにより、C++ やモバイル環境などへのデプロイが容易になります。
研究開発ではモデルの精度や新規性が重視される一方、実運用では軽量性・高速性・移植性が求められます。ESPnet-ONNX は、この両者のギャップを埋めるため、追加学習を行うことなくモデルの変換と最適化を可能にします。
Autoregressive(AR)なデコード処理と、Non-Autoregressive(NAR)なデコード処理を組み合わせることで、それぞれが持つ弱みを消しあいながら、強みを生かしあうデコード処理を実現しました。 結果として、ARな処理と比較して精度をほとんど落とすことなく、大体12-13倍の高速化に成功しました。 このデコード処理のための特殊な学習は必要なく、学習済みのCTC/AttentionなARモデルをそのまま利用できることもメリットの一つです。 ESPnetに追加済みです。→ 5760