Indentificação de locutores baseada em aprendizagem não-supervisionada de características

A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos...

Full description

Main Author: PORPINO, Thyago Neves
Other Authors: REN, Tsang Ing
Format: masterThesis
Language: por
Published: Universidade Federal de Pernambuco 2019
Subjects:
Online Access: https://repositorio.ufpe.br/handle/123456789/28365
Tags: Add Tag
No Tags, Be the first to tag this record!
id ir-123456789-28365
recordtype dspace
spelling ir-123456789-283652019-10-26T02:22:16Z Indentificação de locutores baseada em aprendizagem não-supervisionada de características PORPINO, Thyago Neves REN, Tsang Ing CAVALCANTI, George Darmiton da Cunha http://lattes.cnpq.br/5083524910368466 http://lattes.cnpq.br/3084134533707587 Inteligência artificial Redes neurais A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema.. Machine learning has been used in many areas of artificial intelligence, but its application would usually depend greatly on good hand-engineered feature extractors, since a poor representation limits the results obtained by a classifier. In recent years, research on unsupervised models, and more specifically, on those that have a deep architecture (i.e. deep learning), are creating a revolution in many areas. This revolution is, essentially, a paradigm shift from the classical machine learning, to a paradigm where feature extractors are also amenable to automatic learning. This dissertation has the objective of analyzing the performance of a hierarchical unsupervised model, called Convolutional Deep Belief Network (CDBN), on the problem of speaker identification in noisy datasets. The performance of this technique in extracting relevant features in a unsupervised way was evaluated on the TIMIT (no noise) and on the MIT (with noise) datasets. Experiments with transfer learning were done, where the unsupervised model is trained with the data from one dataset, and the feature extractor is evaluated with the data from the other dataset. The experiments show that the CDBN can learn features with good discriminatory power in simple datasets such as TIMIT, but the learning in a noisy dataset did not show good results, and more experiments are needed to investigate this problem. 2019-01-02T14:02:26Z 2019-01-02T14:02:26Z 2015-08-26 masterThesis https://repositorio.ufpe.br/handle/123456789/28365 por openAccess Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ application/pdf Universidade Federal de Pernambuco UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao
institution REPOSITORIO UFPE
collection REPOSITORIO UFPE
language por
topic Inteligência artificial
Redes neurais
spellingShingle Inteligência artificial
Redes neurais
PORPINO, Thyago Neves
Indentificação de locutores baseada em aprendizagem não-supervisionada de características
description A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..
author2 REN, Tsang Ing
format masterThesis
author PORPINO, Thyago Neves
author_sort PORPINO, Thyago Neves
title Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_short Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_full Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_fullStr Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_full_unstemmed Indentificação de locutores baseada em aprendizagem não-supervisionada de características
title_sort indentificação de locutores baseada em aprendizagem não-supervisionada de características
publisher Universidade Federal de Pernambuco
publishDate 2019
url https://repositorio.ufpe.br/handle/123456789/28365
_version_ 1648655134746476544
score 13.657419