Maxwell Para Simples Indexação

Título
[en] EXTRACTING SECTION STRUCTURE FROM RESUMES IN BRAZILIAN PORTUGUESE

Título
[pt] EXTRAINDO A ESTRUTURA DE SEÇÃO DE CURRÍCULOS EM PORTUGUÊS

Autor
[pt] MATHEUS TELLES WERNER

Vocabulário
[pt] RECURSO HUMANO

Vocabulário
[pt] ANALISADOR DE CURRICULO

Vocabulário
[pt] SEGMENTACAO DE TEXTO

Vocabulário
[pt] CLASSIFICACAO DE IMAGEM

Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[pt] EXTRACAO DE INFORMACAO

Vocabulário
[en] HUMAN RESOURCE

Vocabulário
[en] RESUME PARSER

Vocabulário
[en] TEXT SEGMENTATION

Vocabulário
[en] IMAGE CLASSIFICATION

Vocabulário
[en] NATURAL LANGUAGE PROCESSING

Vocabulário
[en] EXTRACTION OF INFORMATION

Resumo
[pt] Esta tese apresenta um novo analisador de currículos projetado para reorganizar o conteúdo textual de qualquer currículo em sua estrutura de seção original. Nosso trabalho aborda dois desafios práticos negligenciados pela literatura existente: (i) garantir a ordem de leitura correta do texto recuperado do arquivo de currículo e (ii) extrair individualmente todas as seções, bem como as subseções de experiências de trabalho e educação. Levando em consideração a observação de que a maioria dos currículos adere a modelos básicos de documentos, reformulamos o problema da ordem de leitura como uma tarefa de identificação de modelos de documento. Nossos experimentos sugerem que mesmo um pequeno modelo amplamente utilizado como o EfficientNet-B0 pode identificar com precisão modelos de documento comuns. Além disso, propomos uma abordagem de rotulação de sequências que identifica simultaneamente todas as seções do currículo e algumas subseções. Implementamos e comparamos duas soluções baseados nos conhecidos modelos CRF e BERT. Nossa avaliação fornece fortes evidências de que o CRF pode servir como uma alternativa prática ao BERT, dependendo do hardware e das restrições orçamentárias. Eles produzem resultados comparáveis em termos de identificação de seções de currículo, enquanto o BERT demonstra uma vantagem substancial ao identificar as subseções de educação e experiências de trabalho.

Resumo
[en] This thesis presents a novel resume parser designed to effectively reorganize the textual content of any resume into its original section structure. Our work addresses two practical challenges overlooked by the existing literature: (i) ensuring the correct reading order of text retrieved from resume files and (ii) extracting individually all sections, as well as work experience and education subsections. By taking into account the observation that most resumes adhere to basic document templates, we reframe the reading order problem as a template identification task. Our experiments suggest that even a widely-used small model like EfficientNet-B0 can accurately identify common templates. Additionally, we propose a sequence tagging approach that simultaneously identifies all resume sections and some subsections. We implement and compare two solutions based on the well-known CRF and BERT models. Our evaluation provides strong evidence that the CRF can serve as a practical alternative to BERT, depending on hardware and budget constraints. They yield comparable results in terms of identifying resume sections, while BERT displays a substantial advantage when identifying education and work experience subsections.

Orientador(es)
EDUARDO SANY LABER

Banca
ALEXANDRE ROBERTO RENTERIA

Banca
ALBERTO BARBOSA RAPOSO

Banca
SERGIO COLCHER

Banca
EDUARDO SANY LABER

Banca
JULIO CESAR DUARTE

Catalogação
2025-03-18

Apresentação
2023-09-27

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69660@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69660@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.69660


Arquivos do conteúdo
NA ÍNTEGRA PDF