Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica
Data
Autores
Orientador
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
A maioria dos algoritmos não conseguem trabalhar com Datasets de tipo misto. Esse problema perpassa um contexto, ao qual a massiva produção de dados é nutrida de muitas informações, a quais são definidas por dados tanto numéricos quanto categóricos. Essa realidade induz às técnicas de mineração a realizar a conversão para um único tipo de dado, o problema desta conversão remete a perda de sua consistência. A fim de propor algoritmos consistentes e bem avaliados, este trabalho tem por objetivo analisar o desempenho de algoritmos de mineração para o tratamento de dados mistos utilizando uma base de dados de epidemiologia molecular. Dessa forma, será possível eleger qual técnica apresentou o melhor desempenho. No desenvolvimento da pesquisa foram implementados três algoritmos com base nas fundamentações teóricas fornecidas pelos autores Huang (1997) e Cao et al. (2012). Além disso, realizou-se todo o processo de tratamento de dados respaldado pelo processo de descoberta de conhecimento nas bases de dados descritos por Camilo e Silva (2009). O procedimento de análise do desempenho dos algoritmos foi feito com base na aplicação de três métricas avaliativas que foram citadas por Szepannek (2019), sendo elas: Índice de Jaccard, F-Measure e Índice de Rand Ajustado