Título
[en] BDD4ML: A FRAMEWORK FOR APPLYING BEHAVIOUR-DRIVEN DEVELOPMENT TO TEST THE PERFORMANCE OF SUPERVISED MACHINE LEARNING MODELS
Título
[pt] BDD4ML: UM FRAMEWORK PARA APLICAR DESENVOLVIMENTO ORIENTADO A COMPORTAMENTOS PARA TESTAR A PERFORMANCE DE MODELOS DE APRENDIZADO DE MAQUINA SUPERVISIONADO
Autor
[pt] EDUARDO GONCALVES MOTTA
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] DESENVOLVIMENTO ORIENTADO POR COMPORTAMENTO
Vocabulário
[pt] BDD
Vocabulário
[pt] FRAMEWORK
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] BEHAVIOR DRIVEN DEVELOPMENT
Vocabulário
[en] BDD
Vocabulário
[en] FRAMEWORK
Resumo
[pt] [Contexto] Sistemas de Aprendizado de Máquina (ML) apresentam desafios de teste únicos devido à sua natureza não determinística e à falta de especificações formais. Esses problemas resultam em uma lacuna na comunicação
entre as partes interessadas. Para lidar com isso, desenvolvemos o BDD4ML,
um framework que adapta os princípios do Desenvolvimento Orientado por
Comportamento (BDD) para testes de modelos de ML. Este estudo adota o
Modelo de Transferência de Tecnologia (TTM) de Gorschek como metodologia
norteadora.
[Objetivo] Nesta pesquisa, buscamos trazer o BDD para a especificação de
sistemas habilitados por ML e contribuir para reduzir a lacuna de comunicação
entre os stakeholders. O objetivo principal é construir um framework para o
teste de desempenho de modelos de aprendizado de máquina. Esse framework,
denominado BDD4ML, concentra-se em testar modelos tanto para problemas
de regressão quanto de classificação.
[Método] Seguindo o TTM, o trabalho começou com uma revisão da
literatura sobre frameworks de BDD, identificando práticas atuais, lacunas
e lições transferíveis que orientaram o design do BDD4ML. O framework
suporta testes de modelos de classificação e regressão por meio de cláusulas
em linguagem natural escritas na sintaxe Gherkin e é implementado utilizando
o framework Python Behave. Sua avaliação envolveu duas etapas: um estudo
observacional acadêmico, no qual estudantes de pós-graduação aplicaram o
BDD4ML a um modelo industrial de ML, e uma validação estática por meio
de um grupo focal envolvendo os profissionais que construíram o modelo,
discutindo sua aplicabilidade a projetos reais.
[Resultados] A revisão da literatura revelou a importância da criação
de uma linguagem para facilitar a comunicação entre stakeholders técnicos
e não técnicos, bem como o valor de artefatos BDD reutilizáveis e adaptáveis
para contextos de ML. No estudo observacional, os participantes especificaram
e executaram com sucesso cenários BDD4ML com erros mínimos, relatando
percepções positivas de sua utilidade (84,62 por cento), facilidade de uso (76,92 por cento) e
intenção de adoção (76,92 por cento). No grupo focal, os profissionais enfatizaram o
potencial do framework para transparência, suporte à decisão, monitoramento
de modelos e especificação colaborativa de requisitos.
[Conclusão] Nossas avaliações indicam a viabilidade técnica e a relevância
prática do uso do BDD4ML em ambientes industriais. Os resultados indicam
que o BDD4ML é uma abordagem promissora para levar práticas de BDD aos
testes de modelos de ML. O framework está disponível abertamente para uso
e extensão, contribuindo para o avanço de metodologias de testes responsáveis
e colaborativas em aprendizado de máquina.
Resumo
[en] [Context] Machine Learning (ML) systems present unique testing chal
lenges due to their non-deterministic nature and lack of formal specifications.
These problems result in a gap in communication among stakeholders. To
address this, we developed BDD4ML, a framework that adapts Behaviour
Driven Development (BDD) principles for ML model testing. This study adopts
Gorschek et al. s Technology Transfer Model (TTM) as its guiding methodology.
[Goal] In this research, we expect to bring BDD to the specification
of ML-enabled systems and help to bridge the communication gap between
stakeholders. The main objective is to build a framework for testing the
performance of machine learning models. This framework, called BDD4ML,
focuses on testing models for both regression and classification problems.
[Method] Following the TTM, the work began with a literature review on
BDD frameworks, identifying current practices, gaps, and transferable lessons
that informed the design of BDD4ML. The framework supports classification
and regression model testing through natural language clauses written in
Gherkin syntax and is implemented using the Python Behave framework.
Its evaluation involved two stages: an academic observational study, where
graduate students applied BDD4ML to an industrial ML model, and a static
validation through a focus group involving the practitioners who built the
model, discussing its applicability to real-world projects.
[Results] The literature review revealed the importance of creating a language to facilitate the communication between technical and non-technical
stakeholders, as well as the value of reusable and adaptable BDD artifacts
for ML contexts. In the observational study, participants successfully specified
and executed BDD4ML scenarios with minimal mistakes, reporting positive
perceptions of its usefulness (84.62 percent), ease of use (76.92 percent), and intention to
adopt (76.92 percent). In the focus group, practitioners emphasized the framework s
potential for transparency, decision support, model monitoring, and collabo
rative requirement specification.
[Conclusion] Our evaluations indicate the technical feasibility and prac
tical relevance of using BDD4ML in industrial settings. The results indicate
that BDD4ML is a promising approach to bring BDD practices to ML model
testing. The framework is openly available for use and extension, contributing
to advancing responsible and collaborative testing methodologies in machine
learning.
Orientador(es)
MARCOS KALINOWSKI
Banca
HELIO CORTES VIEIRA LOPES
Banca
SIMONE DINIZ JUNQUEIRA BARBOSA
Banca
MARCOS KALINOWSKI
Catalogação
2025-11-24
Apresentação
2025-09-17
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=74271@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=74271@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.74271
Arquivos do conteúdo
NA ÍNTEGRA PDF