Logo Eletrica On-Line
início      o projeto      quem somos      links      fale conosco
Imagem Topo Miolo
Imagem do fundo do titulo
Aumentar Letra Diminuir Letra Normalizar Letra Contraste

Livros
OEE
OEFis
CeV
SisEE
SimEE
CDEE
CIS
TFCs
ETDs
IRR
PeA

 


Título: RECONHECIMENTO AUTOMÁTICO DE FALA EM PORTUGUÊS: AVANÇANDO A ARQUITETURA WHISPER POR MEIO DE PROJETOS DE CODIFICADORES HÍBRIDOS
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Autor(es): ABDIGAL GABRIEL CAMARGO BARRA
Colaborador(es): MARCO AURELIO CAVALCANTI PACHECO - Orientador
MANOELA RABELLO KOHLER - Coorientador
Catalogação: 11 11:49:16.755949/09/2025
Tipo: TESE Idioma(s): INGLÊS - ESTADOS UNIDOS
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/eletricaonline/serieConsulta.php?strSecao=resultado&nrSeq=72900@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/eletricaonline/serieConsulta.php?strSecao=resultado&nrSeq=72900@2
Resumo:
O reconhecimento automático de fala (ASR) continua sendo um dos desafios mais importantes abordados pela aprendizagem profunda, com o progresso contínuo levando a modelos cada vez mais robustos. Apesar desse avanço, a maioria dos sistemas ASR de última geração é treinada do zero em idiomas com muitos recursos, como o inglês ou o chinês, ou emprega estratégias multilíngues que muitas vezes sub-representam idiomas como o português. Além disso, as principais arquiteturas, como a Whisper, demonstraram um desempenho impressionante em vários idiomas, mas dependem de pipelines de treinamento proprietários e em grande escala, que são computacionalmente intensivos e não são totalmente de código aberto. Este estudo aborda essas limitações, concentrando-se na ASR em português usando uma abordagem mais acessível e adaptável. Primeiro, uma reprodução completa da metodologia de treinamento do Whisper é implementada, visando a uma arquitetura menor e ao treinamento do zero em quatro conjuntos de dados portugueses selecionados. Isso permite a avaliação do paradigma de treinamento do Whisper em um contexto específico de idioma e com recursos limitados. Além disso, o estudo explora modificações arquitetônicas do bloco codificador integrando duas variantes: (i) o bloco Conformer, que combina a autoatenção de várias cabeças com camadas convolucionais para capturar recursos globais e locais, e (ii) o bloco E-Branchformer, que introduz uma ramificação cgMLP paralela fundida por meio de convolução, projetada para aprimorar a capacidade de representação. Todos os modelos são treinados sob a mesma configuração experimental, acompanhando as principais métricas, como precisão, perda de classificação temporal conexionista, perda de divergência de Kullback-Leibler e taxa de erro de palavras. Os resultados destacam não apenas a viabilidade de replicar um desempenho semelhante ao do Whisper com um número significativamente menor de recursos, mas tambémmostram que os aprimoramentos arquitetônicos propostos- especialmente o EBranchformer- produzem um desempenho superior em conjuntos de validação e teste, incluindo benchmarks padronizados, como o Common Voice. Este trabalho contribui com uma abordagem integrada e prática para aprimorar a ASR para idiomas sub-representados, demonstrando que modelos leves treinados do zero podem oferecer desempenho competitivo, tornando as tecnologias avançadas de fala mais acessíveis para aplicações reais em português.
Descrição: Arquivo:
NA ÍNTEGRA PDF

<< voltar