Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia

dc.contributor.advisorJorge, Eduardo Manuel de Freitas
dc.contributor.authorJúnior, Jeoston Araujo da Cruz
dc.contributor.refereeCardoso, Hugo Saba Pereira
dc.contributor.refereeFonseca, Vagner de Souza
dc.date.accessioned2026-01-07T16:54:10Z
dc.date.available2026-01-07T16:54:10Z
dc.date.issued2025-12-10
dc.description.abstractO crescente e contínuo volume de publicações científicas representa um desafio significativo para a organização, exploração e descoberta de padrões temáticos, especialmente quando as abordagens de busca se limitam a palavras-chave. Para mitigar essa lacuna, este estudo propõe a validação técnica de uma arquitetura de mapeamento interativo de conhecimento. Esta abordagem busca transformar a maneira como pesquisadores exploram acervos científicos, revelando conexões semânticas e estruturas latentes de forma intuitiva. A proposta foi desenvolvida como uma Prova de Conceito (PoC) utilizando um subconjunto de dados do Observatório de Dados Públicos de Ciência e Tecnologia da Bahia, que centraliza dados de produção acadêmica. O artefato tecnológico consiste em um pipeline computacional que integra a modelagem de tópicos via BERTopic (utilizando embeddings contextuais, UMAP e HDBSCAN) com o refinamento de rótulos por meio da MMR para aumentar a interpretabilidade. Os resultados são integrados à ferramenta WizMap, permitindo a exploração interativa da estrutura dos dados. A validação experimental indicou a geração de agrupamentos semanticamente coesos e a viabilidade técnica da ferramenta WizMap na projeção espacial de domínios correlatos. Os resultados indicam que a técnica de embeddings mostrou-se adequada para organizar acervos científicos, oferecendo uma camada complementar aos métodos de buscas lexicais tradicionais.
dc.description.abstract2The growing and continuous volume of scientific publications represents a significant challenge for the organization, exploration, and discovery of thematic patterns, especially when search approaches are limited to keywords. To mitigate this gap, this study proposes the technical validation of an interactive knowledge mapping architecture. This approach seeks to transform the way researchers explore scientific collections by intuitively revealing semantic connections and latent structures. The proposal was developed as a Proof of Concept (PoC) using a data subset from the Observatory of Public Data on Science and Technology of Bahia, which centralizes academic production data. The technological artifact consists of a computational pipeline that integrates topic modeling via BERTopic (using contextual embeddings, UMAP, and HDBSCAN) with label refinement via MMR to enhance interpretability. The results are integrated into the WizMap tool, enabling interactive exploration of the data structure. Experimental validation indicated the generation of semantically cohesive clusters and the technical feasibility of the WizMap tool in the spatial projection of correlated domains. The results indicate that the embedding technique proved adequate for organizing scientific collections, offering a complementary layer to traditional lexical search methods.
dc.format.mimetypeapplication/pdf
dc.identifier.citationJÚNIOR, Jeoston Araújo da Cruz. Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia. Orientador: Eduardo Manuel de Freitas Jorge. 2025. 73f. Trabalho de conclusão de curso (Bacharelado em Sistema de informação) – Departamento de Ciências Exatas e da terra, Campus I, Universidade do Estado da Bahia, Salvador - BA, 2025.
dc.identifier.urihttps://saberaberto.uneb.br/handle/20.500.11896/10375
dc.identifier2.ORCID0009-0001-2160-5389
dc.language.isopor
dc.publisherUniversidade do Estado da Bahia
dc.publisher.programColegiado de Sistemas de Informação
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.rights2Attribution 3.0 Brazilen
dc.subject.keywordsProcessamento de Linguagem Natural
dc.subject.keywordsInteligência Artificial
dc.subject.keywordsModelagem de Tópicos
dc.subject.keywordsBERTopic
dc.subject.keywordsVisualização de Dados
dc.subject.keywordsWizMap
dc.subject.keywordsObservatório de C&T da Bahia
dc.titleUm pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia
dc.title.alternativeA pipeline with bertopic for the analysis of scientific publications: a case study at the Bahia observatory of public science and technology data
dc.typeinfo:eu-repo/semantics/bachelorThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Um pipeline com bertopic para análise_Jeoston Júnior
Tamanho:
3.32 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
462 B
Formato:
Item-specific license agreed upon to submission
Descrição: