Integração entre o Reconhecimento de Objetos e OCR para Melhorar a Visão Computacional no Contexto da Robótica de Serviços
Data
Autores
Orientador
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
Competições de robótica incentivam a criação de soluções inovadoras para problemas complexos, promovendo avanços tecnológicos que podem ser aplicados em vários setores. Uma dessas aplicações é a robótica de serviço, que é um ramo na área da robótica e IA que se concentra no desenvolvimento e implementação de robôs que realizam atividades úteis para dar suporte aos seres humanos. Para que esse suporte seja possível, os robôs são desenvolvidos com algumas habilidades; uma delas é a visão computacional por meio do reconhecimento de objetos, que possibilita que uma máquina enxergue de forma análoga aos seres humanos e classifique objetos em imagens e vídeos. Para garantir o funcionamento eficaz e eficiente do robô de serviço, o nível de desempenho do reconhecimento de objetos é imprescindível para que ele possa realizar as suas tarefas. Baseando-se nisso, este estudo propôs uma solução de integração entre o reconhecimento de objetos com a técnica de reconhecimento óptico de caracteres, visando melhorar a taxa de reconhecimento da visão computacional dos robôs de serviços. A pesquisa foi conduzida com base na metodologia Design Science Research DSR, que orientou as etapas de identificação do problema, definição dos objetivos, desenvolvimento do artefato, demonstração e avaliação. O artefato proposto integrou o algoritmo YOLOv8 com o Tesseract OCR, complementado por técnicas de pré-processamento de imagem e análise de similaridade textual utilizando distância de Levenshtein, além de validação com um modelo de linguagem (LLM). Para isto, foi analisado o resultado atual do reconhecimento de objetos, logo após realizada a integração com a técnica OCR e analisado se a combinação das duas técnicas melhorou os resultados. Este trabalho foi realizado no ACSO, localizado em Salvador - Bahia. Especificamente, o objeto de estudo foi o BILL. Os experimentos demonstraram que a solução integrada apresentou melhor desempenho em relação à confiança, especialmente em cenários com múltiplos objetos ou em condições visuais desfavoráveis. Os resultados obtidos demonstraram que a integração entre o reconhecimento de objetos e o OCR contribuiu para o aumento do desempenho da visão computacional, também na correção de falsos positivos e em casos que não houve identificação do objeto, evidenciando o potencial da solução em contextos reais de robótica de serviço. Conclui-se que a abordagem proposta é eficaz, robusta e viável para robôs autônomos em ambientes dinâmicos. A solução proposta será validada na CBR 2025.