Uma solução computacional de extração automática de dados textuais em páginas web

dc.contributor.advisorSuárez, Diego Gervasio Frías
dc.contributor.authorSacramento, Anderson da Silva Brito
dc.contributor.refereeJorge, Eduardo Manuel de Freitas
dc.contributor.refereeRestovic, Maria Ines Valderrama
dc.date.accessioned2024-10-01T17:31:18Z
dc.date.available2024-10-01T17:31:18Z
dc.date.issued2016-06-06
dc.description.abstractEste projeto teve como objetivo conceber e implementar uma solução para extração de dados textuais em páginas Web. Utilizando a metodologia CRISP-DM foram realizados dois processos de descoberta de conhecimento, que resultaram em dois modelos, um de agrupamento de dados textuais de páginas Web, e outro de classificação de dados textuais. Além disso, foi desenvolvido um algoritmo de associação de dados, para mapear os dados encontrados em atributos de uma classe. Neste trabalho foi criada uma solução computacional de extração automática de dados textuais em páginas Web, sendo implementada uma ferramenta de software para prova de conceito. Os resultados experimentais de execução da ferramenta demonstraram um desempenho médio de 98,7% no indicador F-score, na construção de objetos a partir dos dados textuais em páginas de produtos e frases de amor. Os resultados sugerem que a ferramenta pode ser adequada para extrair dados textuais de sites e domínios de propósito geral, de modo eficiente e preciso. Não obstante, mais testes deverão ser realizados para confirmar este resultado.
dc.description.abstract2The goal of this project was to design and implement a solution for text data extraction from Web pages. Using the CRISP-DM metodology two knowledge discovery processes were run leading to two models, a text data clustering model from Web pages and a text data classifier. Even more, it was developed an algorithm for data association, that maps discovered data into class attributes. At the end, a computational tool for automatic data extraction from Web pages was developed and validated with few real cases as a proof of concept. The experimental results using this tool showed an F-score of 98.7% on the overall process of generation of objects from textual data from Web pages of electronic products and love phrases. The results suggest the tool can be suitable for efficient and accurate text extraction from general purpose sites and domains, however, even more test are needed.
dc.format.mimetypeapplication/pdf
dc.identifier.citationSACRAMENTO, Anderson da Silva Brito. Uma solução computacional de extração automática de dados textuais em páginas web. 2015. 73f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2015.
dc.identifier.urihttps://saberaberto.uneb.br/handle/20.500.11896/6380
dc.language.isopor
dc.publisherUNEB
dc.publisher.programGraduação
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.rights2Attribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.subject.keywordsExtração de Dados
dc.subject.keywordsReconhecimento de Padrões
dc.subject.keywordsMineração de Conteúdo Web
dc.subject.keywordsAprendizagem de Máquina
dc.titleUma solução computacional de extração automática de dados textuais em páginas web
dc.title.alternativeA computational solution for the automatic extraction of textual data from web pages
dc.typeinfo:eu-repo/semantics/bachelorThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Uma solução computacional de extração_Anderson Sacramento.pdf
Tamanho:
1.94 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
462 B
Formato:
Item-specific license agreed upon to submission
Descrição: