Título: | UTILIZANDO INFORMAÇÕES DA EXECUÇÃO DO SISTEMA E CONHECIMENTOS DE MANUTENÇÃO PARA AUXILIAR O DIAGNÓSTICO, DETECÇÃO E RECUPERAÇÃO DE FALHAS | ||||||||||||
Autor: |
THIAGO PINHEIRO DE ARAUJO |
||||||||||||
Colaborador(es): |
ARNDT VON STAA - Orientador |
||||||||||||
Catalogação: | 16/JAN/2017 | Língua(s): | INGLÊS - ESTADOS UNIDOS |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=28702&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=28702&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.28702 | ||||||||||||
Resumo: | |||||||||||||
Mesmo sistemas de software desenvolvidos com um controle de qualidade
rigoroso podem apresentar falhas durante seu ciclo de vida. Quando uma falha é
observada no ambiente de produção, mantenedores são responsáveis por produzir
o diagnóstico e remover o seu defeito correspondente. No entanto, em um serviço
crítico este tempo pode ser muito longo, logo, se for possível, a assinatura da falha
deve ser utilizada para gerar um mecanismo de recuperação automático capaz de
detectar e tratar futuras ocorrências similares, até que o defeito possa ser
removido. Nesta tese, a atividade de recuperação consiste em restaurar o sistema
para um estado correto, que permita continuar a execução com segurança, ainda
que com limitações em suas funcionalidades. Para serem eficazes, as tarefas de
diagnóstico e recuperação requerem informações detalhadas sobre a execução que
falhou. Falhas que ocorrem durante a fase de testes em um ambiente controlado
podem ser depuradas através da inserção de nova instrumentação e re-execução da
rotina que contem o defeito, tornando mais fácil o estudo de comportamentos inesperados. No entanto, falhas que ocorrem no ambiente de produção apresentam
informações limitadas à situação específica em que ocorrem, além de serem
imprevisíveis. Para mitigar essa adversidade, informações devem ser coletadas
sistematicamente com o intuito de detectar, diagnosticar para recuperar e,
eventualmente, diagnosticar para remover a circunstância geradora da falha. Além
disso, há um balanceamento entre a informação inserida como instrumentação e a
performance do sistema: técnicas de logging geralmente apresentam baixo
impacto no desempenho, porém não provêm informação suficiente sobre a
execução; por outro lado, as técnicas de tracing podem registrar informações
precisas e detalhadas, todavia são impraticáveis para um ambiente de produção.
Esta tese propõe uma abordagem hibrida para gravação e extração de informações durante a execução do sistema. A solução proposta se baseia no registro de
eventos, onde estes são enriquecidos com propriedades contextuais sobre o estado
atual da execução no momento em que o evento é gravado. Através deste registro
de eventos com informações de contexto, uma técnica de diagnóstico e uma
ferramenta foram desenvolvidas para permitir que eventos pudessem ser filtrados
com base na perspectiva de interesse do mantenedor. Além disso, também foi
desenvolvida uma abordagem que utiliza estes eventos enriquecidos para detectar
falhas automaticamente visando recuperação. As soluções propostas foram
avaliadas através de medições e estudos conduzidos em sistemas implantados,
baseando-se nas falhas que de fato ocorreram enquanto se utilizava o software em
um contexto de produção.
|
|||||||||||||
|