Maxwell

XINFORMAÇÕES SOBRE DIREITOS AUTORAIS

As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.

A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.

A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.

A violação de direitos autorais é passível de sanções civis e penais.

Coleção Digital

Formato DC |

Título: RUTEAMIENTO ADAPTATIVO EN REDES DE COMUNICACIÓN DE DATOR POR REINFORCEMENT LEARNING
Autor: YVAN JESUS TUPAC VALDIVIA

Veja mais

Túpac Valdivia, Yván Jesús 

1971-

Aluno de Pós-Graduação

Departamento de Engenharia Elétrica

PUC-Rio

CURRICULO LATTES

Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es): MARCO AURELIO CAVALCANTI PACHECO -
MARLEY MARIA BERNARDES REBUZZI VELLASCO -
Nº do Conteudo: 1348
Catalogação: 13/03/2001 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1348@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1348@2
Referência [es]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1348@4
Referência DOI: https://doi.org/10.17771/PUCRio.acad.1348

Resumo:

Esta disertación investiga la aplicación de los métodos de Reinforcement Learning en la determinación de rutas óptimas en una red de comunicación. Una red de comunicación real posee un comportamiento dinámico, donde su estado varia en el tiempo. Los algoritmos de ruta óptima deben, por lo tanto, ofrecer rapidez en la respuesta a las variaciones del estado de la red. El objetivo de este trabajo es evaluar la aplicación de técnicas de Reinforcement Learning (RL) como base de algoritmos adaptativos de problemas de ruteamiento en redes. Este problema consiste en la definición de cada nodo de la red como un agente RL. Este agente debe definir acciones de modo a minimizar una función objetivo que puede ser el tiempo de ruteamiento. El trabajo consta de 4 etapas principais: un estudio sobre el área de Reinforcement Learning (RL); un estudio sobre redes de comunicación y problema de ruteamiento; el modelo de ruta óptima como un sistema RL y la implementación de diferentes métodos de RL para obtener algoritmos de ruta óptima; y un estudio de casos. El estudio en el área de Reinforcement Learning va desde las definiciones fundamentales: características, elementos de un sistema RL y modelaje del ambiente como un Proceso de Decisión de Markov, hasta los métodos básicos de solución: Programación Dinámica, método de Monte Carlo, y método de Diferencias Temporales. En este último método, fueron considerados dos algoritmos específicos: TD e Q-Learning. A seguir, fue evaluado el parámetro Eligibility Traces como una alternativa para agilizar el proceso de aprendizaje, obteniendo el TD(lambda) y el Q(lambda) respectivamente. El estudio sobre Redes de Comunicación y Problema de Transporte incluye los conceptos básicos de redes de comunicaciones, la cuestión de la ruta óptima y los algoritmos adaptativos y no adaptativos existentes, que se utilizan actualmente. Los algoritmos analizados fueron: Shortest Path Routing, que busca los caminos con menor número de nodos intermedios, no siendo sensible a variaciones en la carga ni en la topología de la red; Weighted Shortest Path Routing, que ofrece un mejor desempeño a partir de una visión global del estado de la red, que no siempre es fácil de obtener en redes reales; y el algoritmo de Bellman-Ford, que tiene como base decisiones de rutas locales y actualizaciones periódicas, con algunas limitaciones para obtener políticas en altas cargas. Este último es uno de los algoritmos más utilizados en la actualidad, siendo base de muchos protocolos de trazado de ruta existentes. La solución para modelar el problema de ruteamiento como un sistema RL fue inspirada por una característica en la definición de un sistema RL: un agente que interactúa con el ambiente y aprende a alcanzar un objetivo. Así, el modelo tiene como objetivo aprender a determinar las rutas que minimizen el timpo desde el origen hasta un destino dado. La evaluación de uma ruta seleccionada no puede ser obtenida antes que el paquete alcance su destino final. Esto hace que los procesos de aprendizaje supervisionado tengan dificultades para ser aplicados a este problema. Por otro lado, Reinforcement Learning no necesita de un par entrada-salida para el aprendizaje, permitiendo así, abordar el problema con relativa facilidad. En el modelo establecido, cada nodo en la red se comporta como un agente de RL que actúa en la propria red. La información de las rutas se almacena en las funciones de valor existentes en todos los nodos de la red para cada nodo destino diferente. Esta información contiene un valor estimado del tiempo requerido para un paquete para llegar hasta el nodo destino. La actualización de esos valores se realiza durante la transición del paquete hasta el vecino seleccionado. En este trabajo se implementaron varios algoritmos de ruta óptima. Cada uno de los algoritmos aplica características de las técnicas en Reinforcement Learning: o Q(lambda)-Routing, y el TD-Routing. En el estudio d

Descrição	Arquivo
EN SU TOTALIDAD	PDF