publications カテゴリ

Context-Aware Dynamic Pruning for Speech Foundation Models

arXiv/ICLR 2025 Accepted Paper

Abstract

本研究は、マルチタスク・マルチリンガルな音声基盤モデルに対して、コンテキストに応じた動的プルーニングを提案。これにより、推論時の計算コストを最大約30%削減しつつ、精度を維持することに成功した。従来のプルーニングが訓練時固定であるのに対し、本手法では言語・話者・タスクなどの文脈に応じて、モジュールレベルでの柔軟な構造最適化を行う。

Masao Someki約2分

ESPnet-EZ: Python-Only ESPnet for Easy Fine-Tuning and Integration

arXiv

概要

ESPnetは実験の再現を行ったり、クラスター環境で実験を行うには非常に優れたツールですが、shell scriptの複雑さや種類の多さから、入門するための敷居がとても高いという問題がありました。この問題に対応するため、ESPnetのレシピの多さや機能性を損なわずに、Pythonicな実装を可能にしました。これによって、ESPnet入門の敷居がかなり下がったように感じています。（体感）

Masao Someki約2分

ESPnet-ONNX: Bridging a Gap Between Research and Production

arXiv

概要

ESPnet-ONNX は、ESPnet で開発された PyTorch ベースの音声処理モデルを ONNX 形式に変換し、実運用向けに最適化するフレームワークです。これにより、C++ やモバイル環境などへのデプロイが容易になります。

背景

研究開発ではモデルの精度や新規性が重視される一方、実運用では軽量性・高速性・移植性が求められます。ESPnet-ONNX は、この両者のギャップを埋めるため、追加学習を行うことなくモデルの変換と最適化を可能にします。

Masao Someki1分以内

Segment-Level Vectorized Beam Search Based on Partially Autoregressive Inference

arXiv

概要

Autoregressive(AR)なデコード処理と、Non-Autoregressive(NAR)なデコード処理を組み合わせることで、それぞれが持つ弱みを消しあいながら、強みを生かしあうデコード処理を実現しました。結果として、ARな処理と比較して精度をほとんど落とすことなく、大体12-13倍の高速化に成功しました。このデコード処理のための特殊な学習は必要なく、学習済みのCTC/AttentionなARモデルをそのまま利用できることもメリットの一つです。 ESPnetに追加済みです。→ 5760

Masao Someki約3分

A Comparative Study on Transformer vs RNN in Speech Applications

arXiv

概要

この論文では、Transformerと再帰型ニューラルネットワーク（RNN）を、音声認識（ASR）、音声翻訳（ST）、音声合成（TTS）といった幅広い音声タスクにおいて比較検討しています。驚くべきことに、ASRの15ベンチマーク中13でTransformerがRNNを上回る精度を達成し、STやTTSにおいても同等の性能を示しました。また、Transformerの学習には大規模なミニバッチやマルチGPUによる恩恵が大きいことも報告されており、実験再現性の高いレシピがESPnetに統合されています。

Masao Someki約3分