Título
[en] EXTRACTING SECTION STRUCTURE FROM RESUMES IN BRAZILIAN PORTUGUESE
Título
[pt] EXTRAINDO A ESTRUTURA DE SEÇÃO DE CURRÍCULOS EM PORTUGUÊS
Autor
[pt] MATHEUS TELLES WERNER
Vocabulário
[pt] RECURSO HUMANO
Vocabulário
[pt] ANALISADOR DE CURRICULO
Vocabulário
[pt] SEGMENTACAO DE TEXTO
Vocabulário
[pt] CLASSIFICACAO DE IMAGEM
Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
Vocabulário
[pt] EXTRACAO DE INFORMACAO
Vocabulário
[en] HUMAN RESOURCE
Vocabulário
[en] RESUME PARSER
Vocabulário
[en] TEXT SEGMENTATION
Vocabulário
[en] IMAGE CLASSIFICATION
Vocabulário
[en] NATURAL LANGUAGE PROCESSING
Vocabulário
[en] EXTRACTION OF INFORMATION
Resumo
[pt] Esta tese apresenta um novo analisador de currículos projetado para
reorganizar o conteúdo textual de qualquer currículo em sua estrutura de
seção original. Nosso trabalho aborda dois desafios práticos negligenciados
pela literatura existente: (i) garantir a ordem de leitura correta do texto
recuperado do arquivo de currículo e (ii) extrair individualmente todas as
seções, bem como as subseções de experiências de trabalho e educação.
Levando em consideração a observação de que a maioria dos currículos adere
a modelos básicos de documentos, reformulamos o problema da ordem de
leitura como uma tarefa de identificação de modelos de documento. Nossos
experimentos sugerem que mesmo um pequeno modelo amplamente utilizado
como o EfficientNet-B0 pode identificar com precisão modelos de documento
comuns. Além disso, propomos uma abordagem de rotulação de sequências que
identifica simultaneamente todas as seções do currículo e algumas subseções.
Implementamos e comparamos duas soluções baseados nos conhecidos modelos
CRF e BERT. Nossa avaliação fornece fortes evidências de que o CRF pode
servir como uma alternativa prática ao BERT, dependendo do hardware e das
restrições orçamentárias. Eles produzem resultados comparáveis em termos
de identificação de seções de currículo, enquanto o BERT demonstra uma
vantagem substancial ao identificar as subseções de educação e experiências
de trabalho.
Resumo
[en] This thesis presents a novel resume parser designed to effectively reorganize the textual content of any resume into its original section structure.
Our work addresses two practical challenges overlooked by the existing literature: (i) ensuring the correct reading order of text retrieved from resume
files and (ii) extracting individually all sections, as well as work experience
and education subsections. By taking into account the observation that most
resumes adhere to basic document templates, we reframe the reading order
problem as a template identification task. Our experiments suggest that even
a widely-used small model like EfficientNet-B0 can accurately identify common templates. Additionally, we propose a sequence tagging approach that
simultaneously identifies all resume sections and some subsections. We implement and compare two solutions based on the well-known CRF and BERT
models. Our evaluation provides strong evidence that the CRF can serve as a
practical alternative to BERT, depending on hardware and budget constraints.
They yield comparable results in terms of identifying resume sections, while
BERT displays a substantial advantage when identifying education and work
experience subsections.
Orientador(es)
EDUARDO SANY LABER
Banca
ALEXANDRE ROBERTO RENTERIA
Banca
ALBERTO BARBOSA RAPOSO
Banca
SERGIO COLCHER
Banca
EDUARDO SANY LABER
Banca
JULIO CESAR DUARTE
Catalogação
2025-03-18
Apresentação
2023-09-27
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69660@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69660@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.69660
Arquivos do conteúdo
NA ÍNTEGRA PDF