Maxwell

XINFORMAÇÕES SOBRE DIREITOS AUTORAIS

As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.

A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.

A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.

A violação de direitos autorais é passível de sanções civis e penais.

Coleção Digital

Estatísticas |

Título: BUILDING A NOISY AUDIO DATASET TO EVALUATE MACHINE LEARNING APPROACHES FOR AUTOMATIC SPEECH RECOGNITION SYSTEMS
Autor: JULIO CESAR DUARTE

Veja mais

Duarte, Júlio César

19-

Aluno de Pós-Graduação 

Programa de Pós-Graduação em Informática

PUC-Rio

CURRICULO LATTES

SERGIO COLCHER

Veja mais

Colcher, Sergio

19-

Professor

Departamento de Informática

PUC-Rio

CURRICULO LATTES

ORCID

Instituição: -
Colaborador(es): -
Nº do Conteudo: 60957
Catalogação: 26/10/2022 Idioma(s): ENGLISH - UNITED STATES
Tipo: TEXT Subtipo: RESEARCH REPORT
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60957@2
Referência DOI: https://doi.org/10.17771/PUCRio.DImcc.60957

Resumo:

Automatic speech recognition systems are part of people’s daily lives, embedded in personal assistants and mobile phones, helping as a facilitator for human-machine interaction while allowing access to information in a practically intuitive way. Such systems are usually implemented using machine learning techniques, especially with deep neural networks. Even with its high performance in the task of transcribing text from speech, few works address the issue of its recognition in noisy environments and, usually, the datasets used do not contain noisy audio examples, while only mitigating this issue using data augmentation techniques. This work aims to present the process of building a dataset of noisy audios, in a specific case of degenerated audios due to interference, commonly present in radio transmissions. Additionally, we present initial results of a classifier that uses such data for evaluation, indicating the benefits of using this dataset in the recognizer’s training process. Such recognizer achieves an average result of 0.4116 in terms of character error rate in the noisy set (SNR = 30).

Descrição	Arquivo
COMPLETE	PDF