Título: | IDENTIFICAÇÃO DE TABELAS DE DADOS RELACIONAIS EM DOCUMENTOS WEB UTILIZANDO MACHINE LEARNING | ||||||||||||
Autor(es): |
LEON SERFATY KACOWICZ |
||||||||||||
Colaborador(es): |
EDUARDO SANY LABER - Orientador |
||||||||||||
Catalogação: | 05/JUL/2010 | Língua(s): | PORTUGUÊS - BRASIL |
||||||||||
Tipo: | TEXTO | Subtipo: | TRABALHO DE FIM DE CURSO | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/TFCs/consultas/conteudo.php?strSecao=resultado&nrSeq=15855@1 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.15855 | ||||||||||||
Resumo: | |||||||||||||
Tabelas são freqüentemente utilizadas em documentos web para apresentar dados. No
entanto a detecção de tabelas relacionais ainda continua uma questão em aberto. Neste
trabalho tentamos replicar os resultados obtidos por Wang e Hu [1], onde eles
apresentam seus resultados utilizando Machine Learning para resolver o problema.
Utilizamos as mesmas técnicas de classificação, os mesmo atributos para tabelas e o
mesmo banco de dados para teste. Adicionalmente testamos o Multilayer Perceptron
como método de classificação alternativo. Em seguida fazemos uma busca pelo
conjunto ótimo de atributos a serem utilizados pelos classificadores. Obtivemos um FScore
de 95.14% para Árvore de Decisão (utilizando Cross-Validation de 9 partições), o
que confirma os resultados apresentados em [1]. Avaliamos também a capacidade de
generalização dos classificadores em novos domínios web, obtendo resultados
satisfatórios.
|
|||||||||||||
|