Título
[en] A NEW LAYERED APPROACH TO BIOLOGICAL DATA REPRESENTATION AND ITS APPLICATIONS COMPARING SEQUENCES
Título
[pt] UMA NOVA ABORDAGEM EM CAMADAS PARA REPRESENTAÇÃO DE DADOS BIOLÓGICOS E SUAS APLICAÇÕES EM COMPARAÇÃO DE SEQUÊNCIAS
Autor
[pt] DIOGO MUNARO VIEIRA
Vocabulário
[pt] VISAO COMPUTACIONAL
Vocabulário
[pt] REPRESENTACAO DE CARACTERISTICAS
Vocabulário
[pt] PROTEINAS HOMOLOGAS
Vocabulário
[pt] APRENDIZADO DE MAQUINA
Vocabulário
[pt] PRIVACIDADE DE DADOS
Vocabulário
[pt] BIOLOGIA MOLECULAR
Vocabulário
[pt] MODELAGEM DE DADOS
Vocabulário
[en] COMPUTER VISION
Vocabulário
[en] FEATURES REPRESENTATION
Vocabulário
[en] HOMOLOGOUS PROTEINS
Vocabulário
[en] MACHINE LEARNING
Vocabulário
[en] DATA PRIVACY
Vocabulário
[en] MOLECULAR BIOLOGY
Vocabulário
[en] DATA MODELING
Resumo
[pt] A identificação e categorização de proteínas homólogas são tarefas fundamentais no campo da biologia, que dependem de ferramentas que analisam
sequências de nucleotídeos ou aminoácidos. No entanto, a detecção automatizada de padrões evolutivos, assim como outras características, usando métodos tradicionais, ainda apresenta desafios científicos. Neste estudo, propomos
uma nova abordagem de representação de dados em camadas, que permite
explorar padrões evolutivos e outras características de sequências na busca
por similaridades, classificação e agrupamento. Utiliza-se um processo livre de
alinhamento e são propostos novos algoritmos de similaridade que permitem
aprimorar a eficácia dessa abordagem. Esses algoritmos utilizam técnicas inspiradas na percepção humana para capturar similaridades dentro das representações de moléculas biológicas. Avaliações experimentais demonstram bom
desempenho e alta precisão em comparação com abordagens propostas anteriormente. Essa representação em camadas se mostra promissora na identificação
de proteínas similares, principalmente com características de homólogas distantes. Além disso, sugere-se também o desenvolvimento de novos métodos
e algoritmos de aprendizado de máquina em bioinformática que envolvam a
privacidade e segurança de dados biológicos.
Resumo
[en] The identification and categorization of homologous proteins are fundamental tasks in the field of biology, relying on tools that analyze nucleotide oramino acid sequences. However, automated detection of evolutionary patternsand additional attributes using traditional methods still presents research challenges. In this study, we propose a novel layered data representation approachthat allows us to explore evolutionary patterns and other sequence features insimilarity searching, classification, and clustering. It employs an alignment-freeprocess, and we introduce new similarity algorithms to enhance the effectiveness of this approach. These algorithms leverage techniques inspired by humanperception to capture subtle similarities within biological molecules representations. Experimental evaluations demonstrate good performance and high accuracy compared to previously proposed approaches. This layered representationshows promise in identifying similar proteins, especially with distant homologscharacteristics. Furthermore, it also suggests the development of new methods and machine learning (ML) algorithms in bioinformatics that address theprivacy and security of biological data.
Orientador(es)
SERGIO LIFSCHITZ
Banca
SERGIO COLCHER
Banca
SERGIO LIFSCHITZ
Banca
EDWARD HERMANN HAEUSLER
Banca
RAFAEL DIAS MESQUITA
Banca
JOAO CARLOS SETUBAL
Catalogação
2024-12-09
Apresentação
2023-09-22
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
PORTUGUÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68725@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68725@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.68725
Arquivos do conteúdo
NA ÍNTEGRA PDF