Título
[pt] APLICAÇÃO DE DATA SCIENCE PARA CLASSIFICAÇÃO AUTOMÁTICA DE MENSAGENS EM UM PROCESSO INTENSIVO EM CONHECIMENTO ATRAVÉS DE MINERAÇÃO DE TEXTOS
Autor
[pt] PALOMA CASTRIOTO RIBEIRO
Autor
[pt] VICTOR DE SIMONE OLIVEIRA
Vocabulário
[pt] MINERACAO DE TEXTO
Vocabulário
[pt] PROCESSOS INTENSIVOS EM CONHECIMENTO
Vocabulário
[pt] BUSINESS PROCESS MANAGEMENT
Vocabulário
[pt] DATA SCIENCE
Vocabulário
[pt] MACHINE LEARNING
Vocabulário
[pt] TEORIA DOS ATOS DE FALA
Vocabulário
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
Resumo
[pt] A Gestão de Processos de Negócios, ou Business Process Management (BPM), tem sido bastante utilizada no mercado de trabalho e estudada no meio acadêmico com o objetivo de identificar gargalos e otimizar processos de negócio. No entanto, cada vez mais esses processos são realizados por empresas e clientes interconectados em rede através das mídias sociais, originando uma quantidade de informações (estruturadas ou não, como documentos e mensagens) sem precedentes. Dentro deste contexto, são usadas técnicas de Ciência de Dados (Data Science) com o objetivo de extrair conhecimento útil das informações geradas, sendo o maior foco recente em processos pouco estruturados ou Processos Intensivos em Conhecimento (Knowledge-intensive Processes - KiP), que ainda têm suporte inadequado das metodologias e ferramentas existentes, e vêm se estabelecendo como os processos mais críticos nas organizações. Os KiPs envolvem tomadas de decisão complexas que dependem do conhecimento dos participantes do processo, além de serem flexíveis e apresentaram grande variabilidade. Diante deste cenário, este trabalho realiza uma revisão da teoria de KiP e de Teoria dos Atos de Fala, juntamente com as principais técnicas de processamento de linguagem natural (Natural Language Processing - NLP), além da criação de um algoritmo em Python que implementa essas técnicas para extrair conhecimento útil das mensagens trocadas entre os participantes de um KiP. Mais especificamente, o objetivo desse algoritmo é realizar a classificação automática de mensagens em categorias de Atos de Fala. Essa classificação pode futuramente servir de base para identificação de padrões de diálogo. O algoritmo criado tem 6 parâmetros, que foram combinados de maneiras distintas para gerar 74 modelos, durante um experimento de Ciência de Dados. Para medir o desempenho de cada um deles, foram utilizadas duas métricas: accuracy e hamming loss. O modelo que apresentou o melhor desempenho teve uma accuracy de 83,35 porcento e um hamming loss de 1,17 porcento. Esses resultados foram bem satisfatórios, considerando que este é um problema de NLP multi-label com 24 categorias diferentes.
Orientador(es)
FERNANDA ARAUJO BAIAO AMORIM
Coorientador(es)
PEDRO HENRIQUE PICCOLI RICHETTI
Catalogação
2021-01-18
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=51281@1
Referência DOI
https://doi.org/10.17771/PUCRio.acad.51281
Arquivos do conteúdo
NA ÍNTEGRA PDF