Maxwell Para Simples Indexação

Título
[en] INDEPENDENT TEXT ROBUST SPEAKER RECOGNITION IN THE PRESENCE OF NOISE USING PAC-MFCC AND SUB BAND CLASSIFIERS

Título
[pt] RECONHECIMENTO DE LOCUTOR INDEPENDENTE DO TEXTO EM PRESENÇA DE RUÍDO USANDO PAC-MFCC E CLASSIFICADORES EM SUB-BANDAS

Autor
[pt] HARRY ARNOLD ANACLETO SILVA

Vocabulário
[pt] SUB-BANDA

Vocabulário
[pt] COEFICIENTES CEPESTRAIS DE FREQUENCIA MEL

Vocabulário
[pt] RECONHECIMENTO INDEPENDENTE DE LOCUTOR

Vocabulário
[en] SUB-BAND

Vocabulário
[en] MEL-FREQUENCY CEPSTRAL COEFFICIENTS

Vocabulário
[en] SPEAKER INDEPENDENT RECONIGTION

Resumo
[pt] O presente trabalho é proposto o atributo PAC-MFCC operando com Classificadores em Sub-Bandas para a tarefa de identificação de locutor independente do texto em ruído. O sistema proposto é comparado com os atributos MFCC (Coeficientes Cepestrais de Frequência Mel), PAC- MFCC (Fase Autocorrelação-MFCC ) sem uso de classificadores em sub-bandas, SSCH(Histogramas de Centróides de Sub-Bandas Espectrais) e TECC (Coeficientes Cepestrais da Energia Teager). Nesta tarefa de reconhecimento, utilizou-se a base TIMIT a qual é composta de 630 locutores onde cada um deles falam 10 frases de aproximadamente 3 segundos cada frase, das quais 8 frases foram utilizadas para treinamento e 2 para teste, obtendo-se um total de 1260 locuções para o reconhecimento. Investigou-se o desempenho dos diversos sistemas utilizando diferentes tipos de ruídos da base Noisex 92 com diferentes relação sinal ruído. Verificou-se que a taxa de acerto da técnica PAC-MFCC com classificador em Sub-Bandas apresenta o melhor desempenho em comparação com as outras técnicas quando se tem uma relação sinal ruído menor que 10dB.

Resumo
[en] In this work is proposed the use of the PAC-MFCC feature with Sub-band Classifiers for the task of text-independent speaker identification in noise. The proposed scheme is compared with the features MFCC (Mel-Frequency Cepstral Coefficients ), PAC-MFCC (Phase Autocorrelation MFCC) without subband classifiers, SSCH (Subband Spectral Centroid Histograms) and TECC (Teager Energy Cepstrum Coefficients). In this recognition task, we used the TIMIT database which consists of 630 speakers, where every one of them speak 10 utterances of 3 seconds each one approximately, of which eight utterance were used for training and two for testing, thus obtaining a total of 1260 test utterance for the recognition. We investigated the performance of these techniques using differents types of noise from the base Noisex 92 with different signal to noise ratios. It was found that the accuracy rate of the PAC-MFCC feature with Sub-band Classifiers performs better in comparison with other techniques at a lower signal noise(less than 10dB).

Orientador(es)
ABRAHAM ALCAIM

Banca
MARCO ANTONIO GRIVET MATTOSO MAIA

Banca
ABRAHAM ALCAIM

Banca
FERNANDO GIL VIANNA RESENDE JUNIOR

Catalogação
2011-09-06

Apresentação
2011-04-01

Tipo
[pt] TEXTO

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Formato
application/pdf

Idioma(s)
PORTUGUÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18212@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18212@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.18212


Arquivos do conteúdo
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS PDF
CAPÍTULO 1 PDF
CAPÍTULO 2 PDF
CAPÍTULO 3 PDF
CAPÍTULO 4 PDF
CAPÍTULO 5 PDF
REFERÊNCIAS BIBLIOGRÁFICAS, APÊNDICES PDF