Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica
dc.contributor.advisor | Restovic, Maria Ines Valderrama | |
dc.contributor.author | Conceição, Fábio Ramos da Silva | |
dc.contributor.referee | Suárez, Diego Gervasio Frías | |
dc.contributor.referee | Araujo, Murilo Freire Oliveira | |
dc.date.accessioned | 2024-10-14T17:46:56Z | |
dc.date.available | 2024-10-14T17:46:56Z | |
dc.date.issued | 2020-03-19 | |
dc.description.abstract | A maioria dos algoritmos não conseguem trabalhar com Datasets de tipo misto. Esse problema perpassa um contexto, ao qual a massiva produção de dados é nutrida de muitas informações, a quais são definidas por dados tanto numéricos quanto categóricos. Essa realidade induz às técnicas de mineração a realizar a conversão para um único tipo de dado, o problema desta conversão remete a perda de sua consistência. A fim de propor algoritmos consistentes e bem avaliados, este trabalho tem por objetivo analisar o desempenho de algoritmos de mineração para o tratamento de dados mistos utilizando uma base de dados de epidemiologia molecular. Dessa forma, será possível eleger qual técnica apresentou o melhor desempenho. No desenvolvimento da pesquisa foram implementados três algoritmos com base nas fundamentações teóricas fornecidas pelos autores Huang (1997) e Cao et al. (2012). Além disso, realizou-se todo o processo de tratamento de dados respaldado pelo processo de descoberta de conhecimento nas bases de dados descritos por Camilo e Silva (2009). O procedimento de análise do desempenho dos algoritmos foi feito com base na aplicação de três métricas avaliativas que foram citadas por Szepannek (2019), sendo elas: Índice de Jaccard, F-Measure e Índice de Rand Ajustado | |
dc.description.abstract2 | Most algorithms are unable to work with mixed-type datasets. This problem permeates a context in which the massive production of data is nourished by a lot of information, which is defined by both numerical and categorical data. This reality leads mining techniques to convert to a single type of data. The problem with this conversion is the loss of consistency. In order to propose consistent and well-evaluated algorithms, this work aims to analyze the performance of mining algorithms for processing mixed data using a molecular epidemiology database. In this way, it will be possible to choose which technique performed best. Three algorithms were implemented based on the theoretical foundations provided by the authors Huang (1997) and Cao et al. (2012). In addition, the entire data processing process was supported by the knowledge discovery process in databases described by Camilo and Silva (2009). The procedure for analyzing the performance of the algorithms was based on the application of three evaluation metrics cited by Szepannek (2019): Jaccard Index, F-Measure and Adjusted Rand Index. | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | CONCEIÇÃO, Fábio Ramos da Silva. Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica. Orientadora: Maria Ines Valderrama Restovic. 2020. 54 f. . Trabalho de conclusão de curso (Bacharelado em Sistemas de Informação) - Departamento de Ciências Exatas e da Terra, Campus I, Universidade do Estado da Bahia. Salvador- BA, 2020. | |
dc.identifier.uri | https://saberaberto.uneb.br/handle/20.500.11896/6450 | |
dc.language.iso | por | |
dc.publisher | Universidade do Estado da Bahia | |
dc.publisher.program | Graduação | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
dc.rights2 | Attribution 3.0 Brazil | en |
dc.subject.keywords | Mineração de dados | |
dc.subject.keywords | Dados mistos | |
dc.subject.keywords | Análise de desempenho. | |
dc.title | Análise comparativa do desempenho de técnicas de data mining com atríbutos mistos sob uma base de dados epdemiológica | |
dc.title.alternative | Comparative analysis of the performance of data mining techniques with mixed attributes on an epidemiological database | |
dc.type | info:eu-repo/semantics/bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Análise comparativa do desempenho_Fabio Conceição.pdf
- Tamanho:
- 1.81 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 462 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição: