Detecção de objetos em 6-DoF em tempo real utilizando técnicas de aprendizagem profunda

Detecção e rastreamento em seis graus de liberdade (6-DoF, six Degrees-of-Freedom) são problemas amplamente estudados na área de Visão Computacional. É possível encontrar aplicações que utilizam detecção 6-DoF em áreas como realidade aumentada, robótica, interação avançada, entre outras. As técnicas...

Full description

Main Author: CUNHA, Kelvin Batista da
Other Authors: TEICHRIEB, Veronica
Format: masterThesis
Language: por
Published: Universidade Federal de Pernambuco 2019
Subjects:
Online Access: https://repositorio.ufpe.br/handle/123456789/35367
Tags: Add Tag
No Tags, Be the first to tag this record!
Summary: Detecção e rastreamento em seis graus de liberdade (6-DoF, six Degrees-of-Freedom) são problemas amplamente estudados na área de Visão Computacional. É possível encontrar aplicações que utilizam detecção 6-DoF em áreas como realidade aumentada, robótica, interação avançada, entre outras. As técnicas desenvolvidas podem utilizar diversos tipos de sensores, com prevalência de técnicas baseadas em sensores RGB ou RGBD. Para utilizar apenas informações RGB, houve um recente avanço com a utilização de técnicas baseadas em aprendizagem profunda. Para tal, os métodos propostos geralmente utilizam modelos mais complexos para lidar com a falta da informação de profundidade. Devido a isto, a performance do algoritmo é prejudicada, realizando, em alguns casos, a estimação de pose dependente de pós-processamento que prejudica o tempo de execução do algoritmo. Nesse contexto, esta dissertação visa avaliar a aplicabilidade das recentes técnicas de aprendizagem profunda para realizar a detecção de objetos 3D com 6 graus de liberdade. O principal objetivo é o desenvolvimento de uma técnica para estimação da pose em tempo real utilizando apenas câmeras RGB com o uso de aprendizagem profunda, bem como avaliar as limitações e perspectivas de seu uso para identificação de oportunidades. Para alcançar o objetivo, foi escolhido um método base para desenvolvimento, a partir das principais características obtidas na revisão da literatura. Os resultados foram validados através da utilização da base de dados pública LINEMOD. Em seguida, foram analisados detalhadamente seus pontos de robustez e falhas para diferentes cenários. Posteriormente, foi gerado um conjunto de dados para avaliar como o método se comporta para cenários genéricos, variando características de iluminação, ambiente, parâmetros de câmeras e movimento da cena. Nestes cenários, o método conseguiu obter resultados compatíveis com o estado da arte para casos em que aparecem imagens borradas, ambientes poluídos e oclusão parcial do objeto. Para casos em que foram utilizadas imagens de diferentes câmeras de testes e mudanças de ambiente, o método obteve baixo desempenho, demonstrando pontos de melhoria. Para melhorar o comportamento da técnica nestes cenários, foi gerado um conjunto de imagens sintéticas, com adaptação do domínio e randomização do domínio. A utilização das imagens sintéticas possibilitou avaliar a potencial melhoria de precisão do modelo nos cenários genéricos.