Uma solução computacional de extração automática de dados textuais em páginas web

Sacramento, Anderson da Silva Brito

Uma solução computacional de extração automática de dados textuais em páginas web

Arquivos

Uma solução computacional de extração_Anderson Sacramento.pdf(1.94 MB)

Data

2016-06-06

Autores

Sacramento, Anderson da Silva Brito

Orientador

Suárez, Diego Gervasio Frías

Editor

UNEB

Resumo

Este projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado.

Citação

SACRAMENTO, Anderson da Silva Brito. Uma solução computacional de extração automática de dados textuais em páginas web. 2015. 73f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2015.