Maxwell Para Simples Indexação

Título
[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION

Título
[pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS

Autor
[pt] YOSVENI ESCALONA ESCALONA

Vocabulário
[pt] APRENDIZADO DE MAQUINA

Vocabulário
[pt] PLANILHA

Vocabulário
[pt] TABELA HTML

Vocabulário
[pt] DADOS TABULARES

Vocabulário
[pt] CONDITIONAL RANDOM FIELD

Vocabulário
[en] MACHINE LEARNING

Vocabulário
[en] SPREADSHEET

Vocabulário
[en] HTML TABLES

Vocabulário
[en] TABULAR DATA

Vocabulário
[en] CONDITIONAL RANDOM FIELD

Resumo
[pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo.

Resumo
[en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency.

Orientador(es)
MARCO ANTONIO CASANOVA

Banca
MARCO ANTONIO CASANOVA

Banca
ANTONIO LUZ FURTADO

Banca
LUIZ ANDRE PORTES PAES LEME

Catalogação
2020-06-26

Apresentação
2019-09-17

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=48789@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.48789


Arquivos do conteúdo
NA ÍNTEGRA PDF