Uma solução computacional de extração automática de dados textuais em páginas web
dc.contributor.advisor | Suárez, Diego Gervasio Frías | |
dc.contributor.author | Sacramento, Anderson da Silva Brito | |
dc.contributor.referee | Jorge, Eduardo Manuel de Freitas | |
dc.contributor.referee | Restovic, Maria Ines Valderrama | |
dc.date.accessioned | 2024-10-01T17:31:18Z | |
dc.date.available | 2024-10-01T17:31:18Z | |
dc.date.issued | 2016-06-06 | |
dc.description.abstract | Este projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado. | |
dc.description.abstract2 | The goal of this project was to design and implement a solution for text data extraction from Web pages. Using the CRISP-DM metodology two knowledge discovery processes were run leading to two models, a text data clustering model from Web pages and a text data classifier. Even more, it was developed an algorithm for data association, that maps discovered data into class attributes. At the end, a computational tool for automatic data extraction from Web pages was developed and validated with few real cases as a proof of concept. The experimental results using this tool showed an F-score of 98.7% on the overall process of generation of objects from textual data from Web pages of electronic products and love phrases. The results suggest the tool can be suitable for efficient and accurate text extraction from general purpose sites and domains, however, even more test are needed. | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | SACRAMENTO, Anderson da Silva Brito. Uma solução computacional de extração automática de dados textuais em páginas web. 2015. 73f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2015. | |
dc.identifier.uri | https://saberaberto.uneb.br/handle/20.500.11896/6380 | |
dc.language.iso | por | |
dc.publisher | UNEB | |
dc.publisher.program | Graduação | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
dc.rights2 | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
dc.subject.keywords | Extração de Dados | |
dc.subject.keywords | Reconhecimento de Padrões | |
dc.subject.keywords | Mineração de Conteúdo Web | |
dc.subject.keywords | Aprendizagem de Máquina | |
dc.title | Uma solução computacional de extração automática de dados textuais em páginas web | |
dc.title.alternative | A computational solution for the automatic extraction of textual data from web pages | |
dc.type | info:eu-repo/semantics/bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Uma solução computacional de extração_Anderson Sacramento.pdf
- Tamanho:
- 1.94 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 462 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição: