arXiv/ICLR 2025 Accepted Paper
Abstract
本研究は、マルチタスク・マルチリンガルな音声基盤モデルに対して、コンテキストに応じた動的プルーニングを提案。これにより、推論時の計算コストを最大約30%削減しつつ、精度を維持することに成功した。従来のプルーニングが訓練時固定であるのに対し、本手法では言語・話者・タスクなどの文脈に応じて、モジュールレベルでの柔軟な構造最適化を行う。
arXiv/ICLR 2025 Accepted Paper
本研究は、マルチタスク・マルチリンガルな音声基盤モデルに対して、コンテキストに応じた動的プルーニングを提案。これにより、推論時の計算コストを最大約30%削減しつつ、精度を維持することに成功した。従来のプルーニングが訓練時固定であるのに対し、本手法では言語・話者・タスクなどの文脈に応じて、モジュールレベルでの柔軟な構造最適化を行う。
ESPnetは実験の再現を行ったり、クラスター環境で実験を行うには非常に優れたツールですが、shell scriptの複雑さや種類の多さから、入門するための敷居がとても高いという問題がありました。 この問題に対応するため、ESPnetのレシピの多さや機能性を損なわずに、Pythonicな実装を可能にしました。 これによって、ESPnet入門の敷居がかなり下がったように感じています。(体感)
高校卒業後、名古屋大学経済学部に入学し、主に統計の分野を専攻していました。 大学在学中、Human Dataware Lab でインターンを実施し、Tarvoでパートタイムの仕事をしました。 大学卒業後は日本IBM株式会社に入社し、主に保険会社様に対するシステム開発案件に携わりました。 また、生成AI関連のプロジェクトで実績を残しました。
こんにちは!
私はカーネギーメロン大学(CMU)で研究を行っていて、渡邉先生の研究室に所属している修士の学生です。
ここでは、Pittsburghでの暮らしやアメリカでの生活でいろいろ気が付いたところについて書いていきたいなと思っています。
誰向けなのかよくわかりませんが、日記(週記?)的な感じで書いていきたいと思います。
フライトをビジネスクラスにアップグレードできたので、空の旅はとても快適でした。
日本の羽田空港からまずシカゴのオヘア空港に行き、そこからピッツバーグに向かいました。
準備中。。。
このブログは、音声を録音→文字起こし→LLMで生成したものをベースとして修正してアップロードしています。 1年分くらい溜まったら、音声とsegmentの情報、文字起こし結果、文字起こしを手直ししたもの、LLMでの生成結果、LLMの結果を手直ししたもの(BlogPost)をまとめてデータセットとして公開しようかと思います。
このブログはVuePressを使って開発しています。 画面のデザインにはVuepress-hopeを使っています。
一度セットアップすると、マークダウンを書くだけできれいにフォーマットしてくれたり、自動でタグを認識してくれたりするので便利です。 日本語/英語の切り替えも自動でできるようになるので、作った人はすごいなぁと感じています。
ESPnet-ONNX は、ESPnet で開発された PyTorch ベースの音声処理モデルを ONNX 形式に変換し、実運用向けに最適化するフレームワークです。これにより、C++ やモバイル環境などへのデプロイが容易になります。
研究開発ではモデルの精度や新規性が重視される一方、実運用では軽量性・高速性・移植性が求められます。ESPnet-ONNX は、この両者のギャップを埋めるため、追加学習を行うことなくモデルの変換と最適化を可能にします。
ここでは、自分の携わった研究についての説明をしようと思います。 理系のほかの分野を専攻して大学を卒業した方で、最近機械学習に興味が出てきて勉強をしてみたという方が概要をつかめることを目標としています。
Segment-Level Vectorized Beam Search Based on Partially Autoregressive Inference: 自回帰と非自回帰の推論を組み合わせた新しいデコーディング手法を提案。精度と推論速度のトレードオフを改善しました。
On-device Streaming Discrete Speech Units
Context-Driven Dynamic Pruning for Large Speech Foundation Models