|
O reconhecimento automático de fala (ASR) continua sendo um dos desafios mais importantes abordados pela aprendizagem profunda, com o progresso contínuo levando a modelos cada vez mais robustos. Apesar desse avanço, a maioria dos sistemas ASR de última geração é treinada do zero em idiomas com muitos recursos, como o inglês ou o chinês, ou emprega estratégias multilíngues que muitas vezes sub-representam idiomas como o português. Além disso, as principais arquiteturas, como a Whisper, demonstraram um desempenho impressionante em vários idiomas, mas dependem de pipelines de treinamento proprietários e em grande escala, que são computacionalmente intensivos e não são totalmente de código aberto. Este estudo aborda essas limitações, concentrando-se na ASR em português usando uma abordagem mais acessível e adaptável. Primeiro, uma reprodução completa da metodologia de treinamento do Whisper é implementada, visando a uma arquitetura menor e ao treinamento do zero em quatro conjuntos de dados portugueses selecionados. Isso permite a avaliação do paradigma de treinamento do Whisper em um contexto específico de idioma e com recursos limitados. Além disso, o estudo explora modificações arquitetônicas do bloco codificador integrando duas variantes: (i) o bloco Conformer, que combina a autoatenção de várias cabeças com camadas convolucionais para capturar recursos globais e locais, e (ii) o bloco E-Branchformer, que introduz uma ramificação cgMLP paralela fundida por meio de convolução, projetada para aprimorar a capacidade de representação. Todos os modelos são treinados sob a mesma configuração experimental, acompanhando as principais métricas, como precisão, perda de classificação temporal conexionista, perda de divergência de Kullback-Leibler e taxa de erro de palavras. Os resultados destacam não apenas a viabilidade de replicar um desempenho semelhante ao do Whisper com um número significativamente menor de recursos, mas tambémmostram que os aprimoramentos arquitetônicos propostos- especialmente o EBranchformer- produzem um desempenho superior em conjuntos de validação e teste, incluindo benchmarks padronizados, como o Common Voice. Este trabalho contribui com uma abordagem integrada e prática para aprimorar a ASR para idiomas sub-representados, demonstrando que modelos leves treinados do zero podem oferecer desempenho competitivo, tornando as tecnologias avançadas de fala mais acessíveis para aplicações reais em português.
|