Análise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais
dc.contributor.advisor | Restovic, Maria Ines Valderrama | |
dc.contributor.author | Santos, Diego dos | |
dc.contributor.referee | Suárez, Diego Gervasio Frías | |
dc.contributor.referee | Atta, Antônio Carlos Fontes | |
dc.date.accessioned | 2024-10-15T14:26:55Z | |
dc.date.available | 2024-10-15T14:26:55Z | |
dc.date.issued | 2022-07-01 | |
dc.description.abstract | As mudanças climáticas provocadas pelo aquecimento global aumentam a temperatura do planeta, beneficiando a proliferação dos vírus. Os mosquitos Aedes Aegypti e Aedes Albopictus são os principais transmissores de arbovírus, especificamente dos vírus da dengue (DENV) e vírus da chikungunya (CHIKV). Os pacientes infectados por essas arboviroses apresentam sintomas semelhantes que dificultam o trabalho inicial do diagnóstico médico. A integração da tecnologia na área médica traz uma série de benefícios, desde o atendimento médico até em momentos cirúrgicos. A introdução do aprendizado de máquina vem crescendo em termos de relevância nos últimos anos, graças à quantidade massiva de dados gerados. Vários algoritmos são analisados e comparados para identificar padrões e correlações com dados das arboviroses. O uso do Random Forest (RF) para o entendimento das arboviroses está em fase inicial e não foi utilizado em uma análise conjunta com DENV e CHIKV. De todo modo, os estudos na sua maior parte são executados de forma isolada com DENV. As características do algoritmo RF chamam bastante atenção por resolver problemas comuns dos algoritmos de aprendizado de máquina, com a criação de árvores de decisão que trabalham de forma isolada, mas têm fator decisivo no resultado final do modelo, além do seu processo de aleatoriedade das amostras para gerar as árvores de decisão. Neste estudo foi desenvolvido um modelo classificador com a RF que apresentou comportamento muito sensível em relação ao conjunto de dados, onde os rótulos imprecisos reduziram as métricas de desempenho. Os ajustes realizados inicialmente com o conjunto de dados, demonstraram evolução nas métricas de desempenho. Outras características marcantes foram: o alto consumo de recursos computacionais e o curto tempo de treinamento para obter um modelo. No primeiro momento, o modelo teve uma acurácia de 59%, mas com todos os ajustes realizados durante o desenvolvimento, obteve-se 76% de acurácia no classificador final. Apesar do resultado geral, as métricas de desempenho foram melhores para CHIKV, pois os sintomas característicos foram presentes em muitas amostras de pacientes rotulados por esse arbovírus. | |
dc.description.abstract2 | Climate change caused by global warming is increasing the temperature of the planet, benefiting the proliferation of viruses. Aedes Aegypti and Aedes Albopictus mosquitoes are the main transmitters of arboviruses, specifically dengue virus (DENV) and chikungunya virus (CHIKV). Patients infected with these arboviruses have similar symptoms that make initial medical diagnosis difficult. The integration of technology in the medical field brings a series of benefits, from medical care to surgery. The introduction of machine learning has grown in relevance in recent years, thanks to the massive amount of data generated. Various algorithms are analyzed and compared to identify patterns and correlations with arbovirus data. The use of Random Forest (RF) to understand arboviruses is in its infancy and has not been used in a joint analysis with DENV and CHIKV. In any case, most studies are carried out in isolation with DENV. The characteristics of the RF algorithm draw a lot of attention because it solves common problems in machine learning algorithms, with the creation of decision trees that work in isolation, but have a decisive factor in the final result of the model, in addition to its process of randomizing the samples to generate the decision trees. In this study, a classifier model was developed using RF, which showed very sensitive behavior in relation to the data set, where inaccurate labels reduced performance metrics. The initial adjustments made to the data set showed an improvement in the performance metrics. Other notable characteristics were: the high consumption of computing resources and the short training time to obtain a model. At first, the model was 59% accurate, but with all the adjustments made during development, the final classifier was 76% accurate. Despite the overall result, the performance metrics were better for CHIKV, as the characteristic symptoms were present in many patient samples labeled by this arbovirus. | |
dc.format.mimetype | application/pdf | |
dc.identifier.citation | SANTOS, Diego dos. AAnálise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais. Orientadora: Maria Inés Valderrama Restovic. 2022. 62 f. Trabalho de conclusão de curso (Bacharelado em Sistemas de Informação) - Departamento de Ciências Exatas e da Terra, Campus I, Universidade do Estado da Bahia. Salvador- BA, 2022. | |
dc.identifier.uri | https://saberaberto.uneb.br/handle/20.500.11896/6459 | |
dc.language.iso | por | |
dc.publisher | Universidade do Estado da Bahia | |
dc.publisher.program | Graduação | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
dc.rights2 | Attribution 3.0 Brazil | en |
dc.subject.keywords | Aprendizado de máquina | |
dc.subject.keywords | Random Forest | |
dc.subject.keywords | Arbovírus | |
dc.subject.keywords | Vírus da dengue | |
dc.subject.keywords | Vírus da chikungunya | |
dc.title | Análise do algoritmo Random Forest na classificação de sintomas das doenças arbovirais | |
dc.title.alternative | Analysis of the Random Forest algorithm for classifying symptoms of arboviral diseases | |
dc.type | info:eu-repo/semantics/bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Análise do algoritmo Random_Diego Santos.pdf
- Tamanho:
- 724.98 KB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 462 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição: