Uma solução computacional de extração automática de dados textuais em páginas web

Sacramento, Anderson da Silva Brito

Uma solução computacional de extração automática de dados textuais em páginas web

dc.contributor.advisor	Suárez, Diego Gervasio Frías
dc.contributor.author	Sacramento, Anderson da Silva Brito
dc.contributor.referee	Jorge, Eduardo Manuel de Freitas
dc.contributor.referee	Restovic, Maria Ines Valderrama
dc.date.accessioned	2024-10-01T17:31:18Z
dc.date.available	2024-10-01T17:31:18Z
dc.date.issued	2016-06-06
dc.description.abstract	Este projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado.
dc.description.abstract2	The goal of this project was to design and implement a solution for text data extraction from Web pages. Using the CRISP-DM metodology two knowledge discovery processes were run leading to two models, a text data clustering model from Web pages and a text data classifier. Even more, it was developed an algorithm for data association, that maps discovered data into class attributes. At the end, a computational tool for automatic data extraction from Web pages was developed and validated with few real cases as a proof of concept. The experimental results using this tool showed an F-score of 98.7% on the overall process of generation of objects from textual data from Web pages of electronic products and love phrases. The results suggest the tool can be suitable for efficient and accurate text extraction from general purpose sites and domains, however, even more test are needed.
dc.format.mimetype	application/pdf
dc.identifier.citation	SACRAMENTO, Anderson da Silva Brito. Uma solução computacional de extração automática de dados textuais em páginas web. 2015. 73f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2015.
dc.identifier.uri	https://saberaberto.uneb.br/handle/20.500.11896/6380
dc.language.iso	por
dc.publisher	UNEB
dc.publisher.program	Graduação
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.rights2	Attribution-NonCommercial-NoDerivs 3.0 Brazil	en
dc.subject.keywords	Extração de Dados
dc.subject.keywords	Reconhecimento de Padrões
dc.subject.keywords	Mineração de Conteúdo Web
dc.subject.keywords	Aprendizagem de Máquina
dc.title	Uma solução computacional de extração automática de dados textuais em páginas web
dc.title.alternative	A computational solution for the automatic extraction of textual data from web pages
dc.type	info:eu-repo/semantics/bachelorThesis

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Uma solução computacional de extração_Anderson Sacramento.pdf
Tamanho:: 1.94 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 462 B
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Bacharelado em Sistemas de Informação - DCET1