Uma solução computacional de extração automática de dados textuais em páginas web
Data
Orientador
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
Este projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado.