Logo PUC-Rio Logo Maxwell
TRABALHOS DE FIM DE CURSO @PUC-Rio
Consulta aos Conteúdos
Estatística
Título: ANÁLISE COMPARATIVA DE MODELOS DE CLASSIFICAÇÃO DE TEXTO: DO SKLEARN AOS LLMS MODERNOS
Autor(es): RAFAEL DE MENDONCA CARDOSO BASTOS
Colaborador(es): HELIO CORTES VIEIRA LOPES - Orientador
Catalogação: 16/JAN/2026 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TRABALHO DE FIM DE CURSO
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=75020@1
DOI: https://doi.org/10.17771/PUCRio.acad.75020
Resumo:
A crescente variedade de modelos para classificação de texto, desde os tradicionais até os modernos LLMs, aumentou a necessidade de um guia prático para a seleção da abordagem mais adequada. Este trabalho realiza um estudo comparativo para satisfazer essa demanda, analisando modelos dependentes de dataset de treino (como scikit-learn e BERT com finetuning) e modelos independentes (LLMs) em nove cenários de classificação binária, multiclasse e multilabel. A análise de performance, custo e eficiência revelou um claro trade-off: enquanto o BERT alcançou a maior precisão na maioria dos testes e os modelos scikit-learn/LSTM foram superiores em velocidade, os LLMs se mostraram uma alternativa viável principalmente em cenários onde não há um dataset de treino disponível, justificando seu uso por sua capacidade de operar de forma independente. A principal contribuição deste estudo é um conjunto de fluxogramas de decisão, que oferece um roteiro prático para escolher o modelo ideal com base nas prioridades de cada projeto, seja performance, eficiência ou a disponibilidade de dados.
Descrição: Arquivo:   
NA ÍNTEGRA PDF