Discente: Fábio Campos Ferreira
Orientador: Eliana Pantaleão
Título: Aplicativo capaz de reconhecer cédulas monetárias para deficientes visuais
____________________________________________________________________
O TCC do discente Fábio Campos Ferreira, do curso de engenharia Eletrônica e de Telecomunicações, pela UFU no campus Patos de Minas, propõe a criação de um aplicativo capaz de fazer o reconhecimento de cédulas monetárias através de cameras do celular e diferenciá-las. Com uma interface sonora, o aplicativo informa quais cédulas estão sendo vistas. Com uma acurácia de mais de 80%, o aplicativo se mostrou útil para reais aplicações.
INTRODUÇÃO
O ramo de estudo da inteligência artificial, dentre suas tantas funções, é capaz de transformar imagens em informações. A identificação das cédulas monetárias é uma tarefa que deve ser realizada por algoritmos dedicados à área de reconhecimento de objetos, denominados classificadores. Entre esses, podemos citar a Rede Neural Artificial (ANN).
PROCESSAMENTO DE IMAGENS
Um pré-processamento da imagem capturada diretamente da câmera do celular é necessário para minimizar interferências externas como a iluminação, qualidade de preservação do objeto, dimensionamentos e formatos diferentes gerados por dispositivos diversos.
Os diferentes formatos de imagens digitais tendem a diferenciar-se no modelo de quantizar as variáveis que formam uma imagem. Os principais tendem a representar cada pixel como um valor tridimensional, com sua cor final definida pela combinação destes três valores. A primeira figura é a exemplificação da distribuição dos valores de uma cor com três camadas. Os formatos de imagem utilizados neste trabalho foram o RGB (red, green, blue), Tons de Cinza e HSV (hue, saturation, value). A segunda imagem representa o modelo RGB.
RECONHECIMENTO DOS OBJETOS
Dado todas as etapas do processamento de imagem, é preciso reconhecer o objeto na imagem.
O padrão que descreve um elemento pode ser chamado também de vetor de características, pois os algoritmos de classificação normalmente utilizam vetores de 𝑛 elementos para representarem um padrão. Cada elemento representa a grandeza de uma 39 característica, portanto temos 𝑛 características. Por ser um vetor, é possível representar um padrão por meio de um gráfico de 𝑛 dimensões.
Tomando o exemplo do celular e do tablet, pode-se escolher inicialmente as características do formato, tamanho e o número de câmeras. Ao observar estas características graficamente, fica visível que tanto o número de câmeras quanto o formato fazem com que os dois pontos, cada um representando um padrão, estejam muito próximos. Isso torna a utilização dessas características desnecessária e em muitos casos podem dificultar a separação destes pontos, pois quanto mais afastados eles estão, mais fácil é identificar a classe de um novo ponto.
Existem várias técnicas para identificar um novo objeto, mas as mais comuns usam o princípio de proximidade entre os pontos. Assim, se uma classe possui vetores que geram pontos próximos de outra classe, a probabilidade de acerto da classe de um novo objeto pode cair rapidamente.
REDE NEURAL ARTIFICIAL
O modelo de aprendizado por ANN utiliza o conceito de computação não linear, que tenta criar soluções para problemas algébricos não lineares. Este modelo apresenta uma estrutura onde os dados passam por redes de operações matemáticas, sendo um processo muito similar ao realizado pelos neurônios no cérebro humano.
A ANN leva vantagem para resolver problemas descontínuos e não lineares com resultados de alta acurácia e adaptabilidade.
TECNICAS PARA ANÁLISE DE RESULTADOS
A saída do classificador é a classe identificada, e este resultado pode estar certo ou errado. Para avaliar um classificador deve-se realizar várias classificações com diferentes padrões e comparar o resultado predito com o seu rótulo verdadeiro. Esta comparação pode ser melhor visualizada em uma matriz de confusão.
RESULTADOS E DISCUSSÕES
Dos 39 classificadores testados, dois obtiveram a maior acurácia de 90,33%, sendo ambos utilizando o método SVM. O critério de escolha utilizado foi uma média entre as três métricas que resultou em 89,28% para o teste 1 e para o teste 4 89,04%. Desta forma, a melhor configuração para diferenciar as notas foi a 1. Para esta configuração foi realizado um grid seach do classificador SVM para obter os melhores parâmetros. Para cada parâmetro foram testados 5 valores diferentes.
CONCLUSÃO
Os deficientes visuais apresentam certas dificuldades para identificar as cédulas de Real, mesmo estas apresentando características de acessibilidade, como tamanhos diferentes. Assim, é proposta a criação de um aplicativo que capture uma imagem da cédula para a qual o usuário tenha dúvida do valor e a inteligência artificial do aplicativo retorne o valor correto desta.
O melhor teste foi obtido usado o SVM com processamento de imagem que realiza a conversão para o formato HSV. Foi realizado um grid search para verificar como a variação dos parâmetros impacta nos valores de acurácia e foi visto que somente a variação do kernel provocou grande mudanças, fazendo este classificador cair para valores de acurácia de 0%.
Com isso é possível ver a importância da variação dos parâmetros dos classificadores, pois eles podem mudar drasticamente o desempenho final. Foi notado também o impacto no tempo de processamento de cada kernel.
Logo, observando o tempo e a acurácia, o melhor é o kernel Interseção de Histograma.
O aplicativo tem a capacidade processar a imagem obtida por sua câmera em tempo real, onde são aplicadas a melhor técnica de programação testada para o reconhecimento de objetos, permitindo o reconhecimento das notas do Real de R$ 2,00, de R$ 5,00, de R$ 10,00, de R$ 20,00,de R$ 50,00 e de R$ 100,00 com uma acurácia de quase 88%.
Comments