Maxwell Para Simples Indexação

Título

[en] CLASSIFICATION WITH MISSING AND COSTLY FEATURES

Título

[pt] CLASSIFICAÇÃO COM CARACTERÍSTICAS FALTANTES E CUSTOSAS

Autor

[pt] GABRIEL BARUQUE

Vocabulário

[pt] APRENDIZADO POR REFORCO

Vocabulário

[pt] VALOR FALTANTE

Vocabulário

[pt] CARACTERISTICA CUSTOSA

Vocabulário

[pt] TRANSFORMER

Vocabulário

[en] REINFORCEMENT LEARNING

Vocabulário

[en] MISSING VALUE

Vocabulário

[en] COSTLY FEATURE

Vocabulário

[en] TRANSFORMERS

Resumo

[pt] Na área de Aprendizado de Máquina, problemas de classificação ainda permanecem como um dos mais relevantes problemas, uma vez que estão presentes em uma grande variedade de cenários e ambientes, como na indústria, empresas de varejo, e na área da saúde. Virtualmente, toda empresa necessita resolver um problema de classificação em algum ponto de sua solução ou serviço, seja um problema simples do dia-a-dia ou um baseado em dados com grande impacto. Em termos de classificação, surgem diferentes tipos de problema advindos desse conceito. Um deles é a classificação com orçamento, ou classificação com informações custosas. Esse problema é caracterizado pelo custo necessário para coletar informações para a classificação, onde cada pedaço de informação (atributo) possui um custo atrelado, seja relacionado a tempo, dinheiro, ou qualquer recurso escasso. Para solucionar problemas de classificação em geral, métodos de Aprendizado de Máquina como redes neurais artificiais, árvores de decisão, métodos baseados em Bayes, aprendizado profundo, e outros, têm visto um grande aumento em sua utilização nos últimos anos, devido ao seu alto desempenho em predições na maioria dos casos de uso. O caso específico da Classificação com Informações Custosas não tem sido alvo de inúmeras pesquisas, e por isso, poucos métodos foram desenvolvidos para superar esse problema. Uma possível forma de lidar com problemas de Classificação com Informações Custosas é modelá-los como um problema de tomada de decisão sequencial e aplicar Aprendizado por Reforço, como feito em algumas pesquisas. No entanto, a pesquisa que aborda esse problema com Aprendizado por Reforço geralmente não treina o modelo de forma orientada ao problema, e aplica modelos diferentes para diferentes objetivos dentro desse contexto. De modo a ser utilizado em problemas mais complexos, técnicas de Aprendizado Profundo foram incorporadas em métodos de Aprendizado por Reforço, o que é chamado de Aprendizado por Reforço Profundo (Deep Reinforcement Learning– DRL). O objetivo desta tese é desenvolver e aprimorar métodos de Aprendizado por Reforço Profundo em problemas de Classificação com Características Custosas, de forma flexível, para que o modelo possa ser utilizado em diferentes conjuntos de dados com pouca ou nenhuma modificação em seus parâmetros,e com um treinamento eficiente e orientado ao problema, aproveitando informações já conhecidas. Para alcançar tal objetivo, dois métodos de DRL foram desenvolvidos para classificar seis conjuntos de dados diferentes. No decorrer da pesquisa, mais um método de classificação para amostras com valores faltantes foi desenvolvido como prova de conceito. Métodos de referência foram utilizados para comparação com os propostos. Resultados alcançados demonstram que os métodos propostos para CwCF possuem resultados melhores ou comparáveis aos métodos de referência. O método de classificação com valores faltantes se mostrou, em geral, superior aos métodos de referência.

Resumo

[en] In the field of Machine Learning, classification problems remain among the most relevant issues as they are present in a wide variety of scenarios and environments, such as in industry, retail companies, and healthcare. Virtually every company needs to solve a classification problem at some point in their solution or service, whether it be a simple day-to-day issue or a data-driven problem with significant impact. Different types of problems arise from the concept of classification. One such problem is classification with a budget, or classification with costly features. This problem is characterized by the cost required to collect information for classification, where each piece of information (feature) has an associated cost, whether related to time, money, or any scarce resource. To solve classification problems in general, Machine Learning methods such as artificial neural networks, decision trees, Bayesian-based methods, deep learning, and others have seen a significant increase in use in recent years due to their high performance in predictions for most use cases. The specific case of Classification with Costly Features has not been the target of extensive research, and thus, few methods have been developed to overcome this problem. One possible way to handle the Classification with Costly Features problems is by modeling it as a sequential decision-making problem, and applying Reinforcement Learning, as done in some works. However, research that approaches this problem with Reinforcement Learning usually does not train the model in a problem-oriented way, or apply different models for different objectives in this context. In order to be suitable for more complex problems, Deep Learning techniques were incorporated into Reinforcement Learning methods, what is called Deep Reinforcement Learning. The objective of this thesis is to develop and enhance Deep Reinforcement Learning methods in problems of Classification with Costly Features, in a flexible way so that the model can be used on different datasets with little or no modification to its parameters, and with problem-oriented and efficient training, leveraging already known information. To achieve this goal, two Deep Reinforcement Learning methods were developed to classify six different datasets. In the course of the research, an additional classification method for samples with missing values was developed as a proof of concept. Reference methods were used for comparison with the proposed ones. The results achieved demonstrate that the proposed methods for Classification with Costly Features have better or comparable outcomes to the reference methods. The method for classification with missing values, in general, outperformed the reference methods.

Orientador(es)

WOUTER CAARLS

Banca

MARLEY MARIA BERNARDES REBUZZI VELLASCO

Banca

RAUL QUEIROZ FEITOSA

Banca

RONALDO RIBEIRO GOLDSCHMIDT

Banca

LEONARDO ALFREDO FORERO MENDOZA

Banca

WOUTER CAARLS

Catalogação

2025-09-22

Apresentação

2024-09-24

Tipo

[pt] TEXTO

Formato

application/pdf

Idioma(s)

INGLÊS

Referência [pt]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=73186@1

Referência [en]

https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=73186@2

Referência DOI

https://doi.org/10.17771/PUCRio.acad.73186

Arquivos do conteúdo

NA ÍNTEGRA PDF