arXiv/ICLR 2025 Accepted Paper
Abstract
本研究は、マルチタスク・マルチリンガルな音声基盤モデルに対して、コンテキストに応じた動的プルーニングを提案。これにより、推論時の計算コストを最大約30%削減しつつ、精度を維持することに成功した。従来のプルーニングが訓練時固定であるのに対し、本手法では言語・話者・タスクなどの文脈に応じて、モジュールレベルでの柔軟な構造最適化を行う。
arXiv/ICLR 2025 Accepted Paper
本研究は、マルチタスク・マルチリンガルな音声基盤モデルに対して、コンテキストに応じた動的プルーニングを提案。これにより、推論時の計算コストを最大約30%削減しつつ、精度を維持することに成功した。従来のプルーニングが訓練時固定であるのに対し、本手法では言語・話者・タスクなどの文脈に応じて、モジュールレベルでの柔軟な構造最適化を行う。
ESPnetは実験の再現を行ったり、クラスター環境で実験を行うには非常に優れたツールですが、shell scriptの複雑さや種類の多さから、入門するための敷居がとても高いという問題がありました。 この問題に対応するため、ESPnetのレシピの多さや機能性を損なわずに、Pythonicな実装を可能にしました。 これによって、ESPnet入門の敷居がかなり下がったように感じています。(体感)
ESPnet-ONNX は、ESPnet で開発された PyTorch ベースの音声処理モデルを ONNX 形式に変換し、実運用向けに最適化するフレームワークです。これにより、C++ やモバイル環境などへのデプロイが容易になります。
研究開発ではモデルの精度や新規性が重視される一方、実運用では軽量性・高速性・移植性が求められます。ESPnet-ONNX は、この両者のギャップを埋めるため、追加学習を行うことなくモデルの変換と最適化を可能にします。
Autoregressive(AR)なデコード処理と、Non-Autoregressive(NAR)なデコード処理を組み合わせることで、それぞれが持つ弱みを消しあいながら、強みを生かしあうデコード処理を実現しました。 結果として、ARな処理と比較して精度をほとんど落とすことなく、大体12-13倍の高速化に成功しました。 このデコード処理のための特殊な学習は必要なく、学習済みのCTC/AttentionなARモデルをそのまま利用できることもメリットの一つです。 ESPnetに追加済みです。→ 5760
この論文では、Transformerと再帰型ニューラルネットワーク(RNN)を、音声認識(ASR)、音声翻訳(ST)、音声合成(TTS)といった幅広い音声タスクにおいて比較検討しています。驚くべきことに、ASRの15ベンチマーク中13でTransformerがRNNを上回る精度を達成し、STやTTSにおいても同等の性能を示しました。また、Transformerの学習には大規模なミニバッチやマルチGPUによる恩恵が大きいことも報告されており、実験再現性の高いレシピがESPnetに統合されています。