Título
[pt] EXTRAÇÃO DE INFORMAÇÕES DE SENTENÇAS JUDICIAIS EM PORTUGUÊS
Título
[en] INFORMATION EXTRACTION FROM LEGAL OPINIONS IN BRAZILIAN PORTUGUESE
Autor
[pt] GUSTAVO MARTINS CAMPOS COELHO
Vocabulário
[pt] EXTRACAO DE INFORMACAO
Vocabulário
[pt] EXTRACAO DE VARIAVEIS EM TEXTOS
Vocabulário
[pt] RECONHECIMENTO DE ENTIDADES NOMEADAS
Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
Vocabulário
[pt] CLASSIFICACAO DE TEXTOS
Vocabulário
[en] EXTRACTION OF INFORMATION
Vocabulário
[en] TEXT FEATURE EXTRACTION
Vocabulário
[en] NAMED ENTITY RECOGNITION
Vocabulário
[en] NATURAL LANGUAGE PROCESSING
Vocabulário
[en] TEXT CLASSIFICATION
Resumo
[pt] A Extração de Informação é uma tarefa importante no domínio jurídico.
Embora a presença de dados estruturados seja escassa, dados não estruturados na forma de documentos jurídicos, como sentenças, estão amplamente
disponíveis. Se processados adequadamente, tais documentos podem fornecer
informações valiosas sobre processos judiciais anteriores, permitindo uma melhor avaliação por profissionais do direito e apoiando aplicativos baseados em
dados. Este estudo aborda a Extração de Informação no domínio jurídico, extraindo valor de sentenças relacionados a reclamações de consumidores. Mais
especificamente, a extração de cláusulas categóricas é abordada através de
classificação, onde seis modelos baseados em diferentes estruturas são analisados. Complementarmente, a extração de valores monetários relacionados a
indenizações por danos morais é abordada por um modelo de Reconhecimento
de Entidade Nomeada. Para avaliação, um conjunto de dados foi criado, contendo 964 sentenças anotados manualmente (escritas em português) emitidas
por juízes de primeira instância. Os resultados mostram uma média de aproximadamente 97 por cento de acurácia na extração de cláusulas categóricas, e 98,9 por cento
na aplicação de NER para a extração de indenizações por danos morais.
Resumo
[en] Information Extraction is an important task in the legal domain. While
the presence of structured and machine-processable data is scarce, unstructured data in the form of legal documents, such as legal opinions, is largely
available. If properly processed, such documents can provide valuable information with regards to past lawsuits, allowing better assessment by legal professionals and supporting data-driven applications. This study addresses Information Extraction in the legal domain by extracting value from legal opinions
related to consumer complaints. More specifically, the extraction of categorical
provisions is addressed by classification, where six models based on different
frameworks are analyzed. Moreover, the extraction of monetary values related
to moral damage compensations is addressed by a Named Entity Recognition
(NER) model. For evaluation, a dataset was constructed, containing 964 manually annotated legal opinions (written in Brazilian Portuguese) enacted by
lower court judges. The results show an average of approximately 97 percent of accuracy when extracting categorical provisions, and 98.9 percent when applying NER
for the extraction of moral damage compensations.
Orientador(es)
MARCO ANTONIO CASANOVA
Banca
MARCO ANTONIO CASANOVA
Banca
LUIZ ANDRE PORTES PAES LEME
Banca
MELISSA LEMOS CAVALIERI
Catalogação
2022-10-03
Apresentação
2022-07-22
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60691@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=60691@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.60691
Arquivos do conteúdo
NA ÍNTEGRA PDF