概要
この論文では、Transformerと再帰型ニューラルネットワーク(RNN)を、音声認識(ASR)、音声翻訳(ST)、音声合成(TTS)といった幅広い音声タスクにおいて比較検討しています。驚くべきことに、ASRの15ベンチマーク中13でTransformerがRNNを上回る精度を達成し、STやTTSにおいても同等の性能を示しました。また、Transformerの学習には大規模なミニバッチやマルチGPUによる恩恵が大きいことも報告されており、実験再現性の高いレシピがESPnetに統合されています。
約3分