Less is More: Accurate Speech Recognition & Translation without Web-Scale Data (Canary)
2025.04.11
2024년 6월 arxiv, Interspeech 2024NVIDIA Santa Clara대규모 데이터, 학습 시간을 요구하는 Transformer Attention Encoder-Decoder (AED) 구조의 기존 Automatic Speech Recognition 모델들보다 효율적으로 학습한 Canary 모델 제안Whisper, Seamless, OWSM을 위시한 기존 모델들은 autoregressive 구조로 inference time이 길고, 학습 단계에서 엄청난 양의 데이터와 시간을 요구함. 학습 자원이 상세하게 공개된 OWSM은 64 A100 40G에서 16일간 180k 시간의 데이터를 사용하여 학습하였는데, Whisper 등 다른 모델은 OWSM보다도 대규모로 학습된 것으로 추정됨.특히, ..