Classificação de assinaturas manuscritas com quantificadores não paramétricos
Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo aprese...
Main Author: | COSTA, Ranah Duarte |
---|---|
Other Authors: | MARTÍNEZ, Raydonal Ospina |
Format: | masterThesis |
Language: | por |
Published: |
Universidade Federal de Pernambuco
2020
|
Subjects: | |
Online Access: |
https://repositorio.ufpe.br/handle/123456789/37774 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
id |
ir-123456789-37774 |
---|---|
recordtype |
dspace |
spelling |
ir-123456789-377742020-09-01T05:10:11Z Classificação de assinaturas manuscritas com quantificadores não paramétricos COSTA, Ranah Duarte MARTÍNEZ, Raydonal Ospina http://lattes.cnpq.br/4835002979010369 http://lattes.cnpq.br/6357960802605841 Estatística aplicada Classificação binária Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho. CNPq This work explores the use of nonparametric quantifiers in the binary classification process of handwritten signatures. We use the MCYT (MCYT Fingerprint subcorpus) database with 100 subjects, where each one contains 25 genuine and 25 skilled forged signatures. Here, false and true signatures are labeled with zeros and ones for the binary classification problem, respectively. We work with the discrete-time sequences position xt in the x-axis and position yt in the y-axis provided in the database. We pre-process each time series and employ time causal information based on nonparametrics quantifiers such as an entropy, complexity, Fisher information, and trend. Also, we evaluate these quantifiers with the time series obtained by applying the first and second order derivatives of each sequence position to evaluate the dynamic behaviour looking their velocity and acceleration, respectively. To assess the ability of nonparametrics quantifiers information to separate false and true signatures, we used criteria selection variables, such as: Information gain, analysis of variance (ANOVA), and variance inflation factor. In the next, we classify the signatures in the MCYT-100 database with nonparametrics quantifiers via Logistic Regression, Support Vector Machines (SVM), Random Forest (Random Forest), regularized regression type Lasso, and Extreme Gradient Boosting (XGBoost). We evaluate the performance of the classifiers by analyzing the accuracy, sensitivity, specificity, area under the ROC curve (AUC), and the Error Rate (ER). The results show that, among the quantifiers used, the Complexity, Fisher Information, and the Wallis and Moore information are the nonparametric quantifiers that improve the performance of the classifiers. Additionally, the SVM and Random Forest classifiers perform better in the test group compared to the others, according to the metrics used. In the classification step, we use LASSO and Ridge regularized regression and the non-regularized Logistic Regression, and the results show that, for this data set, the non-regularized regression presents better performance. 2020-08-31T17:29:13Z 2020-08-31T17:29:13Z 2020-02-20 masterThesis COSTA, Ranah Duarte. Classificação de assinaturas manuscritas com quantificadores não paramétricos. 2020. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2020. https://repositorio.ufpe.br/handle/123456789/37774 por embargoedAccess Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ application/pdf Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Estatistica |
institution |
REPOSITORIO UFPE |
collection |
REPOSITORIO UFPE |
language |
por |
topic |
Estatística aplicada Classificação binária |
spellingShingle |
Estatística aplicada Classificação binária COSTA, Ranah Duarte Classificação de assinaturas manuscritas com quantificadores não paramétricos |
description |
Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho. |
author2 |
MARTÍNEZ, Raydonal Ospina |
format |
masterThesis |
author |
COSTA, Ranah Duarte |
author_sort |
COSTA, Ranah Duarte |
title |
Classificação de assinaturas manuscritas com quantificadores não paramétricos |
title_short |
Classificação de assinaturas manuscritas com quantificadores não paramétricos |
title_full |
Classificação de assinaturas manuscritas com quantificadores não paramétricos |
title_fullStr |
Classificação de assinaturas manuscritas com quantificadores não paramétricos |
title_full_unstemmed |
Classificação de assinaturas manuscritas com quantificadores não paramétricos |
title_sort |
classificação de assinaturas manuscritas com quantificadores não paramétricos |
publisher |
Universidade Federal de Pernambuco |
publishDate |
2020 |
url |
https://repositorio.ufpe.br/handle/123456789/37774 |
_version_ |
1680625226411409408 |
score |
13.657419 |