SLT2024で発表します。 arXiv
概要
ESPnetは実験の再現を行ったり、クラスター環境で実験を行うには非常に優れたツールですが、shell scriptの複雑さや種類の多さから、入門するための敷居がとても高いという問題がありました。 この問題に対応するため、ESPnetのレシピの多さや機能性を損なわずに、Pythonicな実装を可能にしました。 これによって、ESPnet入門の敷居がかなり下がったように感じています。(体感)
SLT2024で発表します。 arXiv
ESPnetは実験の再現を行ったり、クラスター環境で実験を行うには非常に優れたツールですが、shell scriptの複雑さや種類の多さから、入門するための敷居がとても高いという問題がありました。 この問題に対応するため、ESPnetのレシピの多さや機能性を損なわずに、Pythonicな実装を可能にしました。 これによって、ESPnet入門の敷居がかなり下がったように感じています。(体感)
高校卒業後、名古屋大学経済学部に入学し、主に統計の分野を専攻していました。 大学在学中、Human Dataware Lab でインターンを実施し、Tarvoでパートタイムの仕事をしました。 大学卒業後は日本IBM株式会社に入社し、主に保険会社様に対するシステム開発案件に携わりました。 また、生成AI関連のプロジェクトで実績を残しました。
こんにちは!
私はカーネギーメロン大学(CMU)で研究を行っていて、渡邉先生の研究室に所属している修士の学生です。
ここでは、Pittsburghでの暮らしやアメリカでの生活でいろいろ気が付いたところについて書いていきたいなと思っています。
誰向けなのかよくわかりませんが、日記(週記?)的な感じで書いていきたいと思います。
フライトをビジネスクラスにアップグレードできたので、空の旅はとても快適でした。
日本の羽田空港からまずシカゴのオヘア空港に行き、そこからピッツバーグに向かいました。
準備中。。。
このブログは、音声を録音→文字起こし→LLMで生成したものをベースとして修正してアップロードしています。 1年分くらい溜まったら、音声とsegmentの情報、文字起こし結果、文字起こしを手直ししたもの、LLMでの生成結果、LLMの結果を手直ししたもの(BlogPost)をまとめてデータセットとして公開しようかと思います。
このブログはVuePressを使って開発しています。 画面のデザインにはVuepress-hopeを使っています。
一度セットアップすると、マークダウンを書くだけできれいにフォーマットしてくれたり、自動でタグを認識してくれたりするので便利です。 日本語/英語の切り替えも自動でできるようになるので、作った人はすごいなぁと感じています。
ここでは、自分の携わった研究についての説明をしようと思います。 理系のほかの分野を専攻して大学を卒業した方で、最近機械学習に興味が出てきて勉強をしてみたという方が概要をつかめることを目標としています。
Autoregressive(AR)なデコード処理と、Non-Autoregressive(NAR)なデコード処理を組み合わせることで、それぞれが持つ弱みを消しあいながら、強みを生かしあうデコード処理を実現しました。 結果として、ARな処理と比較して精度をほとんど落とすことなく、大体12-13倍の高速化に成功しました。 このデコード処理のための特殊な学習は必要なく、学習済みのCTC/AttentionなARモデルをそのまま利用できることもメリットの一つです。 ESPnetに追加済みです。→ 5760