Título
[pt] AVALIANDO LLM NA TAREFA DE ANOTAÇÃO DE ENTIDADES LEGAIS UTILIZANDO FEW-SHOT LEARNING
Título
[en] EVALUATING LLM IN-CONTEXT FEW-SHOT LEARNING ON LEGAL ENTITY ANNOTATION TASK
Autor
[pt] VENICIUS GARCIA REGO
Vocabulário
[pt] DIREITO
Vocabulário
[pt] FEW SHOT LEARNING
Vocabulário
[pt] ANOTACAO DE ENTIDADES LEGAIS
Vocabulário
[pt] GRANDE MODELO DE LINGUAGEM
Vocabulário
[en] RIGHTS
Vocabulário
[en] FEW SHOT LEARNING
Vocabulário
[en] LEGAL ENTITIES ANNOTATION
Vocabulário
[en] LARGE LANGUAGE MODEL
Resumo
[pt] Um número considerável de documentos no domínio do Direito estão
disponíveis hoje na Internet. Mesmo assim, atividades de extração de infor
mação, como Reconhecimento de Entidades Nomeadas (REN), no domínio do
Direito, continuam desafiadoras, principalmente quando não são em Inglês. Um
dos motivos é a escasses de corpus anotados, combinado com a dificuldade e
custos de desenvolvimento. A tarefa de anotação de dados legais é custosa por
limitações de tempo e de recursos humanos. O surgimento dos Modelos de Lin
guagem Grandes (LLMs) atraiu atenção por conta da capacidade de performar
tarefas apenas com uma descrição ou exemplos de como realizar a atividade,
em linguagem natural, passados no contexto. Estudos recentes apresentaram
resultados significativos em relação a utilização de LLMs na tarefa de anotação
de documentos, em alguns casos, a performance do modelo era comparável a
de anotadores humanos. Portanto, neste trabalho, propomos avaliar a capaci
dade de LLMs na tarefa de anotação de entidades nomeadas em documentos
do domínio do Direito utilizando Few-shot Learning, verificando sua utiliza
ção no processo de anotação junto com humanos. Para realizar a avaliação,
utilizamos um corpus em Português dedicado ao REN contendo decisões do
Supremo Tribunal Federal (STF) que foram previamente anotadas por estu
dantes de Direito. Os resultados obtidos mostram que LLMs são capazes de
reconhecer corretamente as entidades presentes no texto e de produzir ano
tações precisas sem a necessidade de treinar novamente o modelo, portanto,
podem auxiliar no processo de anotação, diminuindo a carga de trabalho dos
anotadores e tornando a tarefa de anotação mais eficiente.
Resumo
[en] A considerable amount of legal documents is available on the Internet
nowadays. Even so, knowledge extraction activities, such as Named Entity
Recognition (NER), in the legal domain are still challenging, even more so
when are not in English. One of the reasons is the low amount of annotated
corpora available, combined with the burden and cost of developing a new
one. The legal annotation task is itself challenging due to limitations on both
time and human resources. The emergence of Large Language Models (LLMs)
has attracted attention due to their capability of reasoning using only in
context information about the tasks. Recent studies present significant results
regarding its usage in document annotation tasks; in some cases, the model
is comparable to human annotators. Thus, in this work, we evaluate LLM s
in-context few-shot learning capability on a legal NER, assessing its usage in
an annotation task process with humans. To do so, our study is based on
the data gathered along an annotation task previously conducted to produce
a corpus of legal decisions written in Portuguese, published by Brazilian
Supreme Federal Court (STF), dedicated to the NER, and annotated by law
students. Our experiments showed that the LLM can produce highly accurate
annotations, without any gradient update. Thus, may can assist annotators in
the annotation process, reducing the amount of time and effort and making
the annotation task more efficient.
Orientador(es)
HELIO CORTES VIEIRA LOPES
Coorientador(es)
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR
Banca
HELIO CORTES VIEIRA LOPES
Banca
MARCOS KALINOWSKI
Banca
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR
Banca
GUILHERME DA FRANCA COUTO FERNANDES DE ALMEIDA
Banca
JONATAS DOS SANTOS GROSMAN
Catalogação
2025-03-24
Apresentação
2024-09-19
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69716@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69716@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.69716
Arquivos do conteúdo
NA ÍNTEGRA PDF