Mecanismo de busca semântica baseado em Word Embeddings em dados do currículo Lattes, programas de pós-graduação e grupos de pesquisa.
dc.contributor.advisor | Jorge, Eduardo Manuel de Freitas | |
dc.contributor.author | Batista, João Vítor Café dos Reis | |
dc.contributor.referee | Cardoso, Hugo Saba Pereira | |
dc.contributor.referee | Filho, Aloisio Santos Nascimento | |
dc.date.accessioned | 2025-01-08T16:50:51Z | |
dc.date.available | 2025-01-08T16:50:51Z | |
dc.date.issued | 2024-12-19 | |
dc.description.abstract | A busca por pesquisadores e suas publicações científicas é fundamental para o acesso ao conhecimento acadêmico. Contudo, os mecanismos de busca nas bases de dados acadêmicas frequentemente se limitam à correspondência de palavras-chave, desconsiderando a semântica e o contexto das consultas, o que pode gerar resultados insatisfatórios e pouco relevantes. A pesquisa realizada, utilizando a metodologia Design Science Research (DSR), visa à implementação e análise de abordagens de busca semântica, empregando técnicas de Inteligência Artificial (IA), como Word Embeddings e Large Language Models (LLMs), para proporcionar respostas mais relevantes aos usuários em buscas acadêmicas. A implementação foi dividida em dois ciclos: o primeiro, focado na melhoria da eficácia dos mecanismos de busca frente às limitações conhecidas, e o segundo, enfatizando a busca semântica, considerando metadados descritos em linguagem natural nas consultas, com o uso de LLMs para gerar automaticamente filtros que delimitem o escopo da busca. O estudo detalha a realização de buscas semânticas por meio da transformação e indexação de Word Embeddings. Os resultados indicam que métodos híbridos de busca podem aumentar significativamente a relevância dos resultados retornados. Além disso, a construção de uma matriz de rastreabilidade dos requisitos e a elaboração de cenários de consulta demonstraram que os artefatos atendem aos requisitos propostos, como a realização de buscas em dados e metadados de pesquisadores e suas produções bibliográficas. Portanto, os artefatos desenvolvidos podem ser utilizados como base para outras aplicações semelhantes, promovendo o avanço científico ao fortalecer a acessibilidade e democratização da informação acadêmica. | |
dc.description.abstract2 | The search for researchers and their respective scientific publications plays a fundamental role in accessing information and academic knowledge. However, search mechanisms in academic databases often rely solely on keyword matching, disregarding the semantics and context of user queries, which can lead to unsatisfactory and irrelevant results. The proposed study, using the Design Science Research (DSR) methodology, aims to implement and analyze semantic search approaches, employing Artificial intelligence (AI) techniques such as Word Embeddings and Large Language Models (LLMs) to provide more relevant answers to users in academic searches. The implementation was divided into two cycles: the first focused on improving the effectiveness of search mechanisms in light of known limitations, and the second emphasized semantic search, considering metadata described in natural language in the queries, with the use of LLMs to automatically generate filters that define the scope of the search. The study details the execution of semantic searches through the transformation and indexing of Word Embeddings. The results indicate that hybrid search methods can significantly increase the relevance of responses. Additionally, the development of a requirements traceability matrix and the creation of use cases demonstrated that the artifacts meet the proposed requirements, such as performing searches on data and metadata from researchers and their bibliographic productions. The developed artifacts can be used as a foundation for other similar applications, fostering scientific progress by enhancing the accessibility and democratization of academic information. | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | BATISTA, João Vítor Café dos Reis. Mecanismo de busca semântica baseado em word embeddings em dados do currículo lattes, programas de pós graduação e grupos de pesquisa. Orientador: Eduardo Manuel de Freitas Jorge. 2024. 66f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação), Departamento de Ciências Exatas e da TerraI, Campus I, Universidade do Estado da Bahia, Salvador, 2024. | |
dc.identifier.uri | https://saberaberto.uneb.br/handle/20.500.11896/7094 | |
dc.identifier2.Lattes | http://lattes.cnpq.br/7152891480658222 | |
dc.language.iso | por | |
dc.publisher | Universidade do Estado da Bahia | |
dc.publisher.program | Colegiado de Sistema de Informações | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.subject.keywords | Embeddings de palavras | |
dc.subject.keywords | Busca semântica | |
dc.subject.keywords | Mecanismo de busca | |
dc.subject.keywords | Processamento de linguagem natural | |
dc.subject.keywords | Curriculo lattes | |
dc.subject.keywords | Inteligência artifical | |
dc.subject.keywords | IA generativa | |
dc.title | Mecanismo de busca semântica baseado em Word Embeddings em dados do currículo Lattes, programas de pós-graduação e grupos de pesquisa. | |
dc.title.alternative | Semantic search engine based on Word Embeddings for data from the Lattes curriculum, postgraduate programs, and research groups. | |
dc.type | info:eu-repo/semantics/bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Mecanismo de busca semântica_João Batista.pdf
- Tamanho:
- 4.79 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 462 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição: