| Título: | ANÁLISE COMPARATIVA DE MODELOS DE CLASSIFICAÇÃO DE TEXTO: DO SKLEARN AOS LLMS MODERNOS | ||||||||||||
| Autor(es): |
RAFAEL DE MENDONCA CARDOSO BASTOS |
||||||||||||
| Colaborador(es): |
HELIO CORTES VIEIRA LOPES - Orientador |
||||||||||||
| Catalogação: | 16/JAN/2026 | Língua(s): | PORTUGUÊS - BRASIL |
||||||||||
| Tipo: | TEXTO | Subtipo: | TRABALHO DE FIM DE CURSO | ||||||||||
| Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
| Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=75020@1 |
||||||||||||
| DOI: | https://doi.org/10.17771/PUCRio.acad.75020 | ||||||||||||
| Resumo: | |||||||||||||
|
A crescente variedade de modelos para classificação de texto, desde os tradicionais até os modernos LLMs, aumentou a necessidade de um guia prático para a seleção da abordagem mais adequada. Este trabalho realiza um estudo comparativo para satisfazer essa demanda, analisando modelos dependentes de dataset de treino (como scikit-learn e BERT com finetuning) e modelos independentes (LLMs) em nove cenários de classificação binária, multiclasse e multilabel. A análise de performance, custo e eficiência revelou um claro trade-off: enquanto o BERT alcançou a maior precisão na maioria dos testes e os modelos scikit-learn/LSTM foram superiores em velocidade, os LLMs se mostraram uma alternativa viável principalmente em cenários onde não há um dataset de treino disponível, justificando seu uso por sua capacidade de operar de forma independente. A principal
contribuição deste estudo é um conjunto de fluxogramas de decisão, que oferece um roteiro prático para escolher o modelo ideal com base nas prioridades de cada projeto, seja performance, eficiência ou a disponibilidade de dados.
|
|||||||||||||
|
|||||||||||||