Classificação de assinaturas manuscritas com quantificadores não paramétricos
Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo aprese...
Main Author: | COSTA, Ranah Duarte |
---|---|
Other Authors: | MARTÍNEZ, Raydonal Ospina |
Format: | masterThesis |
Language: | por |
Published: |
Universidade Federal de Pernambuco
2020
|
Subjects: | |
Online Access: |
https://repositorio.ufpe.br/handle/123456789/37774 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: |
Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho. |
---|