Uma solução computacional de extração automática de dados textuais em páginas web

Carregando...
Imagem de Miniatura
Data
2016-06-06
Título da Revista
ISSN da Revista
Título de Volume
Editor
UNEB
Resumo

Este projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado.


Descrição
Palavras-chave
Citação
SACRAMENTO, Anderson da Silva Brito. Uma solução computacional de extração automática de dados textuais em páginas web. 2015. 73f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2015.
Palavras-chave