Título
[en] CLASSIFICATION WITH MISSING AND COSTLY FEATURES
Título
[pt] CLASSIFICAÇÃO COM CARACTERÍSTICAS FALTANTES E CUSTOSAS
Autor
[pt] GABRIEL BARUQUE
Vocabulário
[pt] APRENDIZADO POR REFORCO
Vocabulário
[pt] VALOR FALTANTE
Vocabulário
[pt] CARACTERISTICA CUSTOSA
Vocabulário
[pt] TRANSFORMER
Vocabulário
[en] REINFORCEMENT LEARNING
Vocabulário
[en] MISSING VALUE
Vocabulário
[en] COSTLY FEATURE
Vocabulário
[en] TRANSFORMERS
Resumo
[pt] Na área de Aprendizado de Máquina, problemas de classificação ainda permanecem como um dos mais relevantes problemas, uma vez que estão presentes em uma grande variedade de cenários e ambientes, como na indústria, empresas de varejo, e na área da saúde. Virtualmente, toda empresa necessita resolver um problema de classificação em algum ponto de sua solução ou serviço, seja um problema simples do dia-a-dia ou um baseado em dados com grande impacto. Em termos de classificação, surgem diferentes tipos de problema advindos desse conceito. Um deles é a classificação com orçamento, ou classificação com informações custosas. Esse problema é caracterizado pelo custo necessário para coletar informações para a classificação, onde cada pedaço de informação (atributo) possui um custo atrelado, seja relacionado a tempo, dinheiro, ou qualquer recurso escasso. Para solucionar problemas de classificação em geral, métodos de Aprendizado de Máquina como redes neurais artificiais, árvores de decisão, métodos baseados em Bayes, aprendizado profundo, e outros, têm visto um grande aumento em sua utilização nos últimos anos, devido ao seu alto desempenho em predições na maioria dos casos de uso. O caso específico da Classificação com Informações Custosas não tem sido alvo de inúmeras pesquisas, e por isso, poucos métodos foram desenvolvidos para superar esse problema. Uma possível forma de lidar com problemas de Classificação com Informações Custosas é modelá-los como um problema de tomada de decisão sequencial e aplicar Aprendizado por Reforço, como feito em algumas pesquisas. No entanto, a pesquisa que aborda esse problema com Aprendizado por Reforço geralmente não treina o modelo de forma orientada ao problema, e aplica modelos diferentes para diferentes objetivos dentro desse contexto. De modo a ser utilizado em problemas mais complexos, técnicas de Aprendizado Profundo foram incorporadas em métodos de Aprendizado por Reforço, o que é chamado de Aprendizado por Reforço Profundo (Deep Reinforcement Learning– DRL). O objetivo desta tese é desenvolver e aprimorar métodos de Aprendizado por Reforço Profundo em problemas de Classificação com Características Custosas, de forma flexível, para que o modelo possa ser utilizado em diferentes conjuntos de dados com pouca ou nenhuma modificação em seus parâmetros,e com um treinamento eficiente e orientado ao problema, aproveitando informações já conhecidas. Para alcançar tal objetivo, dois métodos de DRL foram desenvolvidos para classificar seis conjuntos de dados diferentes. No decorrer da pesquisa, mais um método de classificação para amostras com valores faltantes foi desenvolvido como prova de conceito. Métodos de referência foram utilizados para comparação com os propostos. Resultados alcançados demonstram que os métodos propostos para CwCF possuem resultados melhores ou comparáveis aos métodos de referência. O método de classificação com valores faltantes se mostrou, em geral, superior aos métodos de referência.
Resumo
[en] In the field of Machine Learning, classification problems remain among
the most relevant issues as they are present in a wide variety of scenarios and
environments, such as in industry, retail companies, and healthcare. Virtually
every company needs to solve a classification problem at some point in their
solution or service, whether it be a simple day-to-day issue or a data-driven
problem with significant impact.
Different types of problems arise from the concept of classification. One
such problem is classification with a budget, or classification with costly features. This problem is characterized by the cost required to collect information
for classification, where each piece of information (feature) has an associated
cost, whether related to time, money, or any scarce resource.
To solve classification problems in general, Machine Learning methods
such as artificial neural networks, decision trees, Bayesian-based methods, deep
learning, and others have seen a significant increase in use in recent years due
to their high performance in predictions for most use cases. The specific case
of Classification with Costly Features has not been the target of extensive
research, and thus, few methods have been developed to overcome this problem.
One possible way to handle the Classification with Costly Features
problems is by modeling it as a sequential decision-making problem, and
applying Reinforcement Learning, as done in some works. However, research
that approaches this problem with Reinforcement Learning usually does not
train the model in a problem-oriented way, or apply different models for
different objectives in this context.
In order to be suitable for more complex problems, Deep Learning
techniques were incorporated into Reinforcement Learning methods, what is
called Deep Reinforcement Learning.
The objective of this thesis is to develop and enhance Deep Reinforcement
Learning methods in problems of Classification with Costly Features, in a
flexible way so that the model can be used on different datasets with little
or no modification to its parameters, and with problem-oriented and efficient
training, leveraging already known information.
To achieve this goal, two Deep Reinforcement Learning methods were
developed to classify six different datasets. In the course of the research, an
additional classification method for samples with missing values was developed
as a proof of concept. Reference methods were used for comparison with the
proposed ones.
The results achieved demonstrate that the proposed methods for Classification with Costly Features have better or comparable outcomes to the
reference methods. The method for classification with missing values, in general, outperformed the reference methods.
Orientador(es)
WOUTER CAARLS
Banca
MARLEY MARIA BERNARDES REBUZZI VELLASCO
Banca
RAUL QUEIROZ FEITOSA
Banca
RONALDO RIBEIRO GOLDSCHMIDT
Banca
LEONARDO ALFREDO FORERO MENDOZA
Banca
WOUTER CAARLS
Catalogação
2025-09-22
Apresentação
2024-09-24
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=73186@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=73186@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.73186
Arquivos do conteúdo
NA ÍNTEGRA PDF