Título: | O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML | |||||||
Autor: |
IAM VITA JABOUR |
|||||||
Colaborador(es): |
EDUARDO SANY LABER - Orientador RAUL PIERRE RENTERIA - Coorientador |
|||||||
Catalogação: | 11/ABR/2011 | Língua(s): | PORTUGUÊS - BRASIL |
|||||
Tipo: | TEXTO | Subtipo: | TESE | |||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
|||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=17247&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=17247&idi=2 |
|||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.17247 | |||||||
Resumo: | ||||||||
A segmentação de documentos HTML tem sido essencial para as tarefas
de extração de informações, como mostram vários estudos na área. Nesta dissertação
investigamos a relação entre o documento HTML e sua representação
visual, mostrando como esta ligação ajuda na abordagem estrutural para a
identificação de segmentos. Também investigamos como utilizar algoritmos de
distância de edição em árvores para encontrar padrões na árvore DOM, tornando
possível resolver duas tarefas de identificação de segmentos. A primeira
tarefa é a identificação de tabelas genuínas, aonde foi obtido 90,40% de F1
utilizando o corpus fornecido por (Wang e Hu, 2002). Mostramos através de
um estudo experimental que este resultado é competitivo com os melhores resultados
da área. A segunda tarefa que consideramos é a identificação de listas
de produtos em sites de comércio eletrônico, nessa obtivemos 94,95% de F1
utilizando um corpus com 1114 documentos HTML, criado a partir de 8 sites.
Concluímos que os algoritmos de similaridade estrutural ajudam na resolução
de ambas às tarefas e acreditamos que possam ajudar na identificação de outros
tipos de segmentos.
|
||||||||