Logo PUC-Rio Logo Maxwell
TRABALHOS DE FIM DE CURSO @PUC-Rio
Consulta aos Conteúdos
Título: IDENTIFICAÇÃO DE TABELAS DE DADOS RELACIONAIS EM DOCUMENTOS WEB UTILIZANDO MACHINE LEARNING
Autor(es): LEON SERFATY KACOWICZ
Colaborador(es): EDUARDO SANY LABER - Orientador
Catalogação: 05/JUL/2010 Língua(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TRABALHO DE FIM DE CURSO
Notas: [pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
[en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio.
Referência(s): [pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=15855@1
DOI: https://doi.org/10.17771/PUCRio.acad.15855
Resumo:
Tabelas são freqüentemente utilizadas em documentos web para apresentar dados. No entanto a detecção de tabelas relacionais ainda continua uma questão em aberto. Neste trabalho tentamos replicar os resultados obtidos por Wang e Hu [1], onde eles apresentam seus resultados utilizando Machine Learning para resolver o problema. Utilizamos as mesmas técnicas de classificação, os mesmo atributos para tabelas e o mesmo banco de dados para teste. Adicionalmente testamos o Multilayer Perceptron como método de classificação alternativo. Em seguida fazemos uma busca pelo conjunto ótimo de atributos a serem utilizados pelos classificadores. Obtivemos um FScore de 95.14% para Árvore de Decisão (utilizando Cross-Validation de 9 partições), o que confirma os resultados apresentados em [1]. Avaliamos também a capacidade de generalização dos classificadores em novos domínios web, obtendo resultados satisfatórios.
Descrição: Arquivo:   
NA ÍNTEGRA PDF