Um pipeline com bertopic para análise de publicações científicas: um estudo de caso no observatório de dados públicos de ciência e tecnologia da Bahia
Data
Autores
Orientador
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
O crescente e contínuo volume de publicações científicas representa um desafio significativo para a organização, exploração e descoberta de padrões temáticos, especialmente quando as abordagens de busca se limitam a palavras-chave. Para mitigar essa lacuna, este estudo propõe a validação técnica de uma arquitetura de mapeamento interativo de conhecimento. Esta abordagem busca transformar a maneira como pesquisadores exploram acervos científicos, revelando conexões semânticas e estruturas latentes de forma intuitiva. A proposta foi desenvolvida como uma Prova de Conceito (PoC) utilizando um subconjunto de dados do Observatório de Dados Públicos de Ciência e Tecnologia da Bahia, que centraliza dados de produção acadêmica. O artefato tecnológico consiste em um pipeline computacional que integra a modelagem de tópicos via BERTopic (utilizando embeddings contextuais, UMAP e HDBSCAN) com o refinamento de rótulos por meio da MMR para aumentar a interpretabilidade. Os resultados são integrados à ferramenta WizMap, permitindo a exploração interativa da estrutura dos dados. A validação experimental indicou a geração de agrupamentos semanticamente coesos e a viabilidade técnica da ferramenta WizMap na projeção espacial de domínios correlatos. Os resultados indicam que a técnica de embeddings mostrou-se adequada para organizar acervos científicos, oferecendo uma camada complementar aos métodos de buscas lexicais tradicionais.