XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: THE IMPACT OF STRUCTURAL ATTRIBUTES TO IDENTIFY TABLES AND LISTS IN HTML DOCUMENTS Autor: IAM VITA JABOUR
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
EDUARDO SANY LABER - ADVISOR
RAUL PIERRE RENTERIA - CO-ADVISOR
Nº do Conteudo: 17247
Catalogação: 11/04/2011 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.17247
Resumo:
Título: THE IMPACT OF STRUCTURAL ATTRIBUTES TO IDENTIFY TABLES AND LISTS IN HTML DOCUMENTS Autor: IAM VITA JABOUR
RAUL PIERRE RENTERIA - CO-ADVISOR
Nº do Conteudo: 17247
Catalogação: 11/04/2011 Idioma(s): PORTUGUESE - BRAZIL
Tipo: TEXT Subtipo: THESIS
Natureza: SCHOLARLY PUBLICATION
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.17247
Resumo:
The segmentation of HTML documents has been essential to information
extraction tasks, as showed by several works in this area. This paper studies
the link between an HTML document and its visual representation to show
how it helps segments identification using a structural approach. For this, we
investigate how tree edit distance algorithms can find structural similarities
in a DOM tree, using two tasks to execute our experiments. The first one is
the identification of genuine tables where we obtained a 90.40% F1 score using
the corpus provided by (Wang e Hu, 2002). We show through an experimental
study that this result is competitive with the best results in the area. The
second task studied is the identification of product listings in e-commerce sites.
Here we get a 94.95% F1 score using a corpus with 1114 HTML documents
from 8 distinct sites. We conclude that algorithms to calculate trees similarity
provide competitive results for both tasks, making them also good candidates
to identify other types of segments.
Descrição | Arquivo |
COVER, ACKNOWLEDGEMENTS, RESUMO, ABSTRACT, SUMMARY AND LISTS | |
CHAPTER 1 | |
CHAPTER 2 | |
CHAPTER 3 | |
CHAPTER 4 | |
CHAPTER 5 | |
CHAPTER 6 | |
REFERENCES |