Título
[en] PREDICTION OF RESULTS OF FOOTBALL MATCHES IN THE BRAZILIAN CHAMPIONSHIP SÉRIE A USING MACHINE LEARNING: A COMPARATIVE ANALYSIS OF MODELS
Título
[pt] PREVISÃO DE RESULTADOS DE PARTIDAS DE FUTEBOL DA SÉRIE A DO CAMPEONATO BRASILEIRO UTILIZANDO APRENDIZADO DE MÁQUINA: UMA ANÁLISE COMPARATIVA DE MODELOS
Autor
[pt] RODRIGO LORENTE KAUER
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] MODELO DE APRENDIZADO SUPERVISIONADO
Vocabulário
[pt] CLASSIFICACAO
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] SUPERVISED LEARNING MODEL
Vocabulário
[en] RECOGNITION
Resumo
[pt] A previsão de resultados de partidas de futebol constitui um problema
desafiador, em virtude da natureza dinâmica e multifatorial do esporte. No contexto brasileiro, a Série A do Campeonato Brasileiro apresenta características
específicas, como elevado equilíbrio competitivo, influência regional e variabilidade de desempenho ao longo da temporada, que dificultam a modelagem preditiva. Este trabalho propõe o desenvolvimento e a avaliação de uma pipeline
de aprendizado de máquina voltada à previsão dos resultados de partidas da
Série A. Para a realização do estudo, foi construído um conjunto de dados
abrangente a partir de bases históricas, incluindo estatísticas de jogo, informações de desempenho recente das equipes, confrontos diretos, fatores regionais e métricas relacionadas ao mercado de apostas esportivas. Um processo
sistemático de engenharia de atributos foi aplicado com o objetivo de capturar
padrões temporais e contextuais relevantes para o futebol brasileiro. Diversos
modelos de classificação supervisionada foram avaliados, incluindo Regressão
Logística, Naive Bayes, K-Nearest Neighbors, Support Vector Machines, Random Forest, Gradient Boosting, AdaBoost, Multilayer Perceptron e XGBoost.
Os modelos foram comparados com base em métricas apropriadas para problemas potencialmente desbalanceados, como acurácia, precisão, recall e F1-score,
com ênfase nas médias ponderadas e macro.
Resumo
[en] Predicting the outcomes of football matches is a challenging problem due
to the sport s dynamic and multifactorial nature. In the Brazilian context, the
Campeonato Brasileiro Série A exhibits specific characteristics, such as a high
level of competitive balance, regional influences, and performance variability
throughout the season that make predictive modeling particularly difficult.
This work proposes the development and evaluation of a machine learning
pipeline aimed at predicting match outcomes in Série A. To conduct the study,
a comprehensive dataset was built from historical sources, including match
statistics, recent team performance indicators, head-to-head records, regional
factors, and metrics related to the sports betting market. A systematic feature
engineering process was applied to capture temporal and contextual patterns
relevant to Brazilian football. Several supervised classification models were
evaluated, including Logistic Regression, Naive Bayes, K-Nearest Neighbors,
Support Vector Machines, Random Forest, Gradient Boosting, AdaBoost,
Multilayer Perceptron, and XGBoost. The models were compared using metrics
suitable for potentially imbalanced problems, such as accuracy, precision,
recall, and F1-score, with emphasis on weighted and macro averages.
Orientador(es)
ALBERTO BARBOSA RAPOSO
Coorientador(es)
CESAR AUGUSTO SIERRA FRANCO
Catalogação
2026-03-27
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75870@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=75870@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.75870
Arquivos do conteúdo
NA ÍNTEGRA PDF