Análise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais

dc.contributor.advisorRestovic, Maria Inés Valderrama
dc.contributor.authorSantos , Diego dos
dc.contributor.refereeSuárez, Diego Gervasio Frías
dc.contributor.refereeAtta, Antonio Carlos Fontes
dc.date.accessioned2024-10-15T14:26:55Z
dc.date.available2024-10-15T14:26:55Z
dc.date.issued2022-07-01
dc.description.abstractAs mudanças climáticas provocadas pelo aquecimento global aumentam a temperatura do planeta, beneficiando a proliferação dos vírus. Os mosquitos Aedes Aegypti e Aedes Albopictus são os principais transmissores de arbovírus, especificamente dos vírus da dengue (DENV) e vírus da chikungunya (CHIKV). Os pacientes infectados por essas arboviroses apresentam sintomas semelhantes que dificultam o trabalho inicial do diagnóstico médico. A integração da tecnologia na área médica traz uma série de benefícios, desde o atendimento médico até em momentos cirúrgicos. A introdução do aprendizado de máquina vem crescendo em termos de relevância nos últimos anos, graças à quantidade massiva de dados gerados. Vários algoritmos são analisados e comparados para identificar padrões e correlações com dados das arboviroses. O uso do Random Forest (RF) para o entendimento das arboviroses está em fase inicial e não foi utilizado em uma análise conjunta com DENV e CHIKV. De todo modo, os estudos na sua maior parte são executados de forma isolada com DENV. As características do algoritmo RF chamam bastante atenção por resolver problemas comuns dos algoritmos de aprendizado de máquina, com a criação de árvores de decisão que trabalham de forma isolada, mas têm fator decisivo no resultado final do modelo, além do seu processo de aleatoriedade das amostras para gerar as árvores de decisão. Neste estudo foi desenvolvido um modelo classificador com a RF que apresentou comportamento muito sensível em relação ao conjunto de dados, onde os rótulos imprecisos reduziram as métricas de desempenho. Os ajustes realizados inicialmente com o conjunto de dados, demonstraram evolução nas métricas de desempenho. Outras características marcantes foram: o alto consumo de recursos computacionais e o curto tempo de treinamento para obter um modelo. No primeiro momento, o modelo teve uma acurácia de 59%, mas com todos os ajustes realizados durante o desenvolvimento, obteve-se 76% de acurácia no classificador final. Apesar do resultado geral, as métricas de desempenho foram melhores para CHIKV, pois os sintomas característicos foram presentes em muitas amostras de pacientes rotulados por esse arbovírus.
dc.description.abstract2Climate change caused by global warming is increasing the temperature of the planet, benefiting the proliferation of viruses. Aedes Aegypti and Aedes Albopictus mosquitoes are the main transmitters of arboviruses, specifically dengue virus (DENV) and chikungunya virus (CHIKV). Patients infected with these arboviruses have similar symptoms that make initial medical diagnosis difficult. The integration of technology in the medical field brings a series of benefits, from medical care to surgery. The introduction of machine learning has grown in relevance in recent years, thanks to the massive amount of data generated. Various algorithms are analyzed and compared to identify patterns and correlations with arbovirus data. The use of Random Forest (RF) to understand arboviruses is in its infancy and has not been used in a joint analysis with DENV and CHIKV. In any case, most studies are carried out in isolation with DENV. The characteristics of the RF algorithm draw a lot of attention because it solves common problems in machine learning algorithms, with the creation of decision trees that work in isolation, but have a decisive factor in the final result of the model, in addition to its process of randomizing the samples to generate the decision trees. In this study, a classifier model was developed using RF, which showed very sensitive behavior in relation to the data set, where inaccurate labels reduced performance metrics. The initial adjustments made to the data set showed an improvement in the performance metrics. Other notable characteristics were: the high consumption of computing resources and the short training time to obtain a model. At first, the model was 59% accurate, but with all the adjustments made during development, the final classifier was 76% accurate. Despite the overall result, the performance metrics were better for CHIKV, as the characteristic symptoms were present in many patient samples labeled by this arbovirus.
dc.format.mimetypeapplication/pdf
dc.identifier.citationSANTOS, Diego dos. AAnálise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais. Orientadora: Maria Inés Valderrama Restovic. 2022. 62 f. Trabalho de conclusão de curso (Bacharelado em Sistemas de Informação) - Departamento de Ciências Exatas e da Terra, Campus I, Universidade do Estado da Bahia. Salvador- BA, 2022.
dc.identifier.urihttps://saberaberto.uneb.br/handle/20.500.11896/6459
dc.language.isopor
dc.publisherUniversidade do Estado da Bahia
dc.publisher.programGraduação
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.rights2Attribution 3.0 Brazilen
dc.subject.keywordsAprendizado de máquina
dc.subject.keywordsRandom Forest
dc.subject.keywordsArbovírus
dc.subject.keywordsVírus da dengue
dc.subject.keywordsVírus da chikungunya
dc.titleAnálise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais
dc.title.alternativeAnalysis of the Random Forest algorithm for classifying symptoms of arboviral diseases
dc.typeinfo:eu-repo/semantics/bachelorThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Análise do algoritmo Random_Diego Santos.pdf
Tamanho:
724.98 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
462 B
Formato:
Item-specific license agreed upon to submission
Descrição: