Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia
| dc.contributor.advisor | Jorge, Eduardo Manuel de Freitas | |
| dc.contributor.author | Júnior, Jeoston Araujo da Cruz | |
| dc.contributor.referee | Cardoso, Hugo Saba Pereira | |
| dc.contributor.referee | Fonseca, Vagner de Souza | |
| dc.date.accessioned | 2026-01-07T16:54:10Z | |
| dc.date.available | 2026-01-07T16:54:10Z | |
| dc.date.issued | 2025-12-10 | |
| dc.description.abstract | O crescente e contínuo volume de publicações científicas representa um desafio significativo para a organização, exploração e descoberta de padrões temáticos, especialmente quando as abordagens de busca se limitam a palavras-chave. Para mitigar essa lacuna, este estudo propõe a validação técnica de uma arquitetura de mapeamento interativo de conhecimento. Esta abordagem busca transformar a maneira como pesquisadores exploram acervos científicos, revelando conexões semânticas e estruturas latentes de forma intuitiva. A proposta foi desenvolvida como uma Prova de Conceito (PoC) utilizando um subconjunto de dados do Observatório de Dados Públicos de Ciência e Tecnologia da Bahia, que centraliza dados de produção acadêmica. O artefato tecnológico consiste em um pipeline computacional que integra a modelagem de tópicos via BERTopic (utilizando embeddings contextuais, UMAP e HDBSCAN) com o refinamento de rótulos por meio da MMR para aumentar a interpretabilidade. Os resultados são integrados à ferramenta WizMap, permitindo a exploração interativa da estrutura dos dados. A validação experimental indicou a geração de agrupamentos semanticamente coesos e a viabilidade técnica da ferramenta WizMap na projeção espacial de domínios correlatos. Os resultados indicam que a técnica de embeddings mostrou-se adequada para organizar acervos científicos, oferecendo uma camada complementar aos métodos de buscas lexicais tradicionais. | |
| dc.description.abstract2 | The growing and continuous volume of scientific publications represents a significant challenge for the organization, exploration, and discovery of thematic patterns, especially when search approaches are limited to keywords. To mitigate this gap, this study proposes the technical validation of an interactive knowledge mapping architecture. This approach seeks to transform the way researchers explore scientific collections by intuitively revealing semantic connections and latent structures. The proposal was developed as a Proof of Concept (PoC) using a data subset from the Observatory of Public Data on Science and Technology of Bahia, which centralizes academic production data. The technological artifact consists of a computational pipeline that integrates topic modeling via BERTopic (using contextual embeddings, UMAP, and HDBSCAN) with label refinement via MMR to enhance interpretability. The results are integrated into the WizMap tool, enabling interactive exploration of the data structure. Experimental validation indicated the generation of semantically cohesive clusters and the technical feasibility of the WizMap tool in the spatial projection of correlated domains. The results indicate that the embedding technique proved adequate for organizing scientific collections, offering a complementary layer to traditional lexical search methods. | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.citation | JÚNIOR, Jeoston Araújo da Cruz. Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia. Orientador: Eduardo Manuel de Freitas Jorge. 2025. 73f. Trabalho de conclusão de curso (Bacharelado em Sistema de informação) – Departamento de Ciências Exatas e da terra, Campus I, Universidade do Estado da Bahia, Salvador - BA, 2025. | |
| dc.identifier.uri | https://saberaberto.uneb.br/handle/20.500.11896/10375 | |
| dc.identifier2.ORCID | 0009-0001-2160-5389 | |
| dc.language.iso | por | |
| dc.publisher | Universidade do Estado da Bahia | |
| dc.publisher.program | Colegiado de Sistemas de Informação | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.rights2 | Attribution 3.0 Brazil | en |
| dc.subject.keywords | Processamento de Linguagem Natural | |
| dc.subject.keywords | Inteligência Artificial | |
| dc.subject.keywords | Modelagem de Tópicos | |
| dc.subject.keywords | BERTopic | |
| dc.subject.keywords | Visualização de Dados | |
| dc.subject.keywords | WizMap | |
| dc.subject.keywords | Observatório de C&T da Bahia | |
| dc.title | Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia | |
| dc.title.alternative | A pipeline with bertopic for the analysis of scientific publications: a case study at the Bahia observatory of public science and technology data | |
| dc.type | info:eu-repo/semantics/bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Um pipeline com bertopic para análise_Jeoston Júnior
- Tamanho:
- 3.32 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 462 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição: