Maxwell Para Simples Indexação

Título

[en] QUALITY ENHANCEMENT OF HIGHLY DEGRADED MUSIC USING DEEP LEARNING-BASED PREDICTION MODELS

Título

[pt] RECONSTRUÇÃO DE MÚSICAS ALTAMENTE DEGRADADAS USANDO MODELOS DE APRENDIZADO PROFUNDO

Autor

[pt] ARTHUR COSTA SERRA

Vocabulário

[pt] APRENDIZADO PROFUNDO

Vocabulário

[pt] RECONSTRUCAO DE MUSICA

Vocabulário

[pt] AUDIO INPAINTING

Vocabulário

[pt] AUTOENCODER

Vocabulário

[en] DEEP LEARNING

Vocabulário

[en] MUSIC RECONSTUCTION

Vocabulário

[en] AUDIO INPAINTING

Vocabulário

[en] AUTOENCODER

Resumo

[pt] A degradação da qualidade do áudio pode ter muitas causas. Para aplicações musicais, esta fragmentação pode levar a experiências altamente desagradáveis. Algoritmos de restauração podem ser empregados para reconstruir partes do áudio de forma semelhante à reconstrução da imagem, em uma abordagem chamada Audio Inpainting. Os métodos atuais de última geração para Audio Inpainting cobrem cenários limitados, com janelas de intervalo bem definidas e pouca variedade de gêneros musicais. Neste trabalho, propomos um método baseado em aprendizado profundo para Audio Inpainting acompanhado por um conjunto de dados com condições de fragmentação aleatórias que se aproximam de situações reais de deficiência. O conjunto de dados foi coletado utilizando faixas de diferentes gêneros musicais, o que proporciona uma boa variabilidade de sinal. Nosso melhor modelo melhorou a qualidade de todos os gêneros musicais, obtendo uma média de 13,1 dB de PSNR, embora tenha funcionado melhor para gêneros musicais nos quais os instrumentos acústicos são predominantes.

Resumo

[en] Audio quality degradation can have many causes. For musical applications, this fragmentation may lead to highly unpleasant experiences. Restoration algorithms may be employed to reconstruct missing parts of the audio in a similar way as for image reconstruction - in an approach called audio inpainting. Current state-of-theart methods for audio inpainting cover limited scenarios, with well-defined gap windows and little variety of musical genres. In this work, we propose a Deep-Learning-based (DLbased) method for audio inpainting accompanied by a dataset with random fragmentation conditions that approximate real impairment situations. The dataset was collected using tracks from different music genres to provide a good signal variability. Our best model improved the quality of all musical genres, obtaining an average of 13.1 dB of PSNR, although it worked better for musical genres in which acoustic instruments are predominant.

Orientador(es)

SERGIO COLCHER

Banca

SERGIO COLCHER

Banca

EDWARD HERMANN HAEUSLER

Banca

JULIO CESAR DUARTE

Catalogação

2022-10-21

Apresentação

2022-08-15

Tipo

[pt] TEXTO

Formato

application/pdf

Idioma(s)

PORTUGUÊS

Referência [pt]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60905@1

Referência [en]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60905@2

Referência DOI

https://doi.org/10.17771/PUCRio.acad.60905

Arquivos do conteúdo

NA ÍNTEGRA PDF