Maxwell Para Simples Indexação

Título
[pt] AVALIANDO LLM NA TAREFA DE ANOTAÇÃO DE ENTIDADES LEGAIS UTILIZANDO FEW-SHOT LEARNING

Título
[en] EVALUATING LLM IN-CONTEXT FEW-SHOT LEARNING ON LEGAL ENTITY ANNOTATION TASK

Autor
[pt] VENICIUS GARCIA REGO

Vocabulário
[pt] DIREITO

Vocabulário
[pt] FEW SHOT LEARNING

Vocabulário
[pt] ANOTACAO DE ENTIDADES LEGAIS

Vocabulário
[pt] GRANDE MODELO DE LINGUAGEM

Vocabulário
[en] RIGHTS

Vocabulário
[en] FEW SHOT LEARNING

Vocabulário
[en] LEGAL ENTITIES ANNOTATION

Vocabulário
[en] LARGE LANGUAGE MODEL

Resumo
[pt] Um número considerável de documentos no domínio do Direito estão disponíveis hoje na Internet. Mesmo assim, atividades de extração de infor mação, como Reconhecimento de Entidades Nomeadas (REN), no domínio do Direito, continuam desafiadoras, principalmente quando não são em Inglês. Um dos motivos é a escasses de corpus anotados, combinado com a dificuldade e custos de desenvolvimento. A tarefa de anotação de dados legais é custosa por limitações de tempo e de recursos humanos. O surgimento dos Modelos de Lin guagem Grandes (LLMs) atraiu atenção por conta da capacidade de performar tarefas apenas com uma descrição ou exemplos de como realizar a atividade, em linguagem natural, passados no contexto. Estudos recentes apresentaram resultados significativos em relação a utilização de LLMs na tarefa de anotação de documentos, em alguns casos, a performance do modelo era comparável a de anotadores humanos. Portanto, neste trabalho, propomos avaliar a capaci dade de LLMs na tarefa de anotação de entidades nomeadas em documentos do domínio do Direito utilizando Few-shot Learning, verificando sua utiliza ção no processo de anotação junto com humanos. Para realizar a avaliação, utilizamos um corpus em Português dedicado ao REN contendo decisões do Supremo Tribunal Federal (STF) que foram previamente anotadas por estu dantes de Direito. Os resultados obtidos mostram que LLMs são capazes de reconhecer corretamente as entidades presentes no texto e de produzir ano tações precisas sem a necessidade de treinar novamente o modelo, portanto, podem auxiliar no processo de anotação, diminuindo a carga de trabalho dos anotadores e tornando a tarefa de anotação mais eficiente.

Resumo
[en] A considerable amount of legal documents is available on the Internet nowadays. Even so, knowledge extraction activities, such as Named Entity Recognition (NER), in the legal domain are still challenging, even more so when are not in English. One of the reasons is the low amount of annotated corpora available, combined with the burden and cost of developing a new one. The legal annotation task is itself challenging due to limitations on both time and human resources. The emergence of Large Language Models (LLMs) has attracted attention due to their capability of reasoning using only in context information about the tasks. Recent studies present significant results regarding its usage in document annotation tasks; in some cases, the model is comparable to human annotators. Thus, in this work, we evaluate LLM s in-context few-shot learning capability on a legal NER, assessing its usage in an annotation task process with humans. To do so, our study is based on the data gathered along an annotation task previously conducted to produce a corpus of legal decisions written in Portuguese, published by Brazilian Supreme Federal Court (STF), dedicated to the NER, and annotated by law students. Our experiments showed that the LLM can produce highly accurate annotations, without any gradient update. Thus, may can assist annotators in the annotation process, reducing the amount of time and effort and making the annotation task more efficient.

Orientador(es)
HELIO CORTES VIEIRA LOPES

Coorientador(es)
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR

Banca
HELIO CORTES VIEIRA LOPES

Banca
MARCOS KALINOWSKI

Banca
FERNANDO ALBERTO CORREIA DOS SANTOS JUNIOR

Banca
GUILHERME DA FRANCA COUTO FERNANDES DE ALMEIDA

Banca
JONATAS DOS SANTOS GROSMAN

Catalogação
2025-03-24

Apresentação
2024-09-19

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69716@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=69716@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.69716


Arquivos do conteúdo
NA ÍNTEGRA PDF