Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica

dc.contributor.advisorRestovic, Maria Inés Valderrama
dc.contributor.authorConceição, Fábio Ramos da Silva
dc.contributor.refereeSuárez, Diego Gervasio Frías
dc.contributor.refereeAraujo, Murilo Freire Oliveira
dc.date.accessioned2024-10-14T17:46:56Z
dc.date.available2024-10-14T17:46:56Z
dc.date.issued2020-03-19
dc.description.abstractA maioria dos algoritmos não conseguem trabalhar com Datasets de tipo misto. Esse problema perpassa um contexto, ao qual a massiva produção de dados é nutrida de muitas informações, a quais são definidas por dados tanto numéricos quanto categóricos. Essa realidade induz às técnicas de mineração a realizar a conversão para um único tipo de dado, o problema desta conversão remete a perda de sua consistência. A fim de propor algoritmos consistentes e bem avaliados, este trabalho tem por objetivo analisar o desempenho de algoritmos de mineração para o tratamento de dados mistos utilizando uma base de dados de epidemiologia molecular. Dessa forma, será possível eleger qual técnica apresentou o melhor desempenho. No desenvolvimento da pesquisa foram implementados três algoritmos com base nas fundamentações teóricas fornecidas pelos autores Huang (1997) e Cao et al. (2012). Além disso, realizou-se todo o processo de tratamento de dados respaldado pelo processo de descoberta de conhecimento nas bases de dados descritos por Camilo e Silva (2009). O procedimento de análise do desempenho dos algoritmos foi feito com base na aplicação de três métricas avaliativas que foram citadas por Szepannek (2019), sendo elas: Índice de Jaccard, F-Measure e Índice de Rand Ajustado
dc.description.abstract2Most algorithms are unable to work with mixed-type datasets. This problem permeates a context in which the massive production of data is nourished by a lot of information, which is defined by both numerical and categorical data. This reality leads mining techniques to convert to a single type of data. The problem with this conversion is the loss of consistency. In order to propose consistent and well-evaluated algorithms, this work aims to analyze the performance of mining algorithms for processing mixed data using a molecular epidemiology database. In this way, it will be possible to choose which technique performed best. Three algorithms were implemented based on the theoretical foundations provided by the authors Huang (1997) and Cao et al. (2012). In addition, the entire data processing process was supported by the knowledge discovery process in databases described by Camilo and Silva (2009). The procedure for analyzing the performance of the algorithms was based on the application of three evaluation metrics cited by Szepannek (2019): Jaccard Index, F-Measure and Adjusted Rand Index.
dc.format.mimetypeapplication/pdf
dc.identifier.citationCONCEIÇÃO, Fábio Ramos da Silva. Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica. Orientadora: Maria Ines Valderrama Restovic. 2020. 54 f. . Trabalho de conclusão de curso (Bacharelado em Sistemas de Informação) - Departamento de Ciências Exatas e da Terra, Campus I, Universidade do Estado da Bahia. Salvador- BA, 2020.
dc.identifier.urihttps://saberaberto.uneb.br/handle/20.500.11896/6450
dc.language.isopor
dc.publisherUniversidade do Estado da Bahia
dc.publisher.programGraduação
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.rights2Attribution 3.0 Brazilen
dc.subject.keywordsMineração de dados
dc.subject.keywordsDados mistos
dc.subject.keywordsAnálise de desempenho.
dc.titleAnálise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica
dc.title.alternativeComparative analysis of the performance of data mining techniques with mixed attributes on an epidemiological database
dc.typeinfo:eu-repo/semantics/bachelorThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Análise comparativa do desempenho_Fabio Conceição.pdf
Tamanho:
1.81 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
462 B
Formato:
Item-specific license agreed upon to submission
Descrição: