Estimación de pose en tiempo real de objetos rígidos planares a partir de secuencias de video monoculares

Ocegueda Hernández, Vladimir Cuauhtémoc

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/90883

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Ocegueda Hernández, Vladimir Cuauhtémoc
dc.date.accessioned	2022-09-12T22:10:06Z	-
dc.date.available	2022-09-12T22:10:06Z	-
dc.date.issued	2022-02-17
dc.identifier.uri	https://wdg.biblio.udg.mx
dc.identifier.uri	https://hdl.handle.net/20.500.12104/90883	-
dc.description.abstract	La estimación de pose 3D consiste en calcular, en relación con un marco de referencia dado, la posición y orientación de un objeto tridimensional a partir de su proyección en una imagen bidimensional. En los últimos años, las redes neuronales convolucionales (CNNs) han logrado resultados impresionantes al abordar algunos de los problemas tradicionales de la visión por computadora, incluyendo la estimación de pose 3D. En general, las CNNs empleadas para este propósito contienen capas convolucionales y densamente conectadas con un gran número de neuronas y parámetros entrenables, es decir, son arquitecturas pesadas. Estos modelos son difíciles de entrenar, consumen mucha memoria y, a medida que aumenta el número de parámetros entrenables, tienden a sufrir de sobreajuste. En este trabajo de tesis se propone una CNN ligera, denominada Red de Poses con Agrupación Piramidal de Espacios (PNSPP), capaz de estimar la pose de un modelo planar. Las latencias típicas de PNSPP completamente entrenada permiten realizar predicciones de pose, fotograma a fotograma, en secuencias de video monoculares. Además, también se presenta un método heurístico para calcular el factor de escala que aparece en las funciones de pérdida que desacoplan la posición y la orientación. Este factor depende del conjunto de datos de entrenamiento y permite balancear las contribuciones al error total. A diferencia de otros enfoques que realizan búsquedas en grid o aleatorias que pueden ser costosas, el método presentado utiliza reglas heurísticas simples para ajustar este factor a medida que progresa el entrenamiento de la red neuronal. Los resultados muestran que, en comparación con una CNN pesada de propósito similar, PNSPP se desempeñó mejor en todos los experimentos propuestos.
dc.description.tableofcontents	1. Introducción 1 1.1. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.2. Objetivos particulares . . . . . . . . . . . . . . . . . . . . . . 5 1.4. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Cuerpos rígidos 8 2.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2. Movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3. Estimación de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.2. Representaciones . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.3. Tratamiento del problema . . . . . . . . . . . . . . . . . . . . 14 3. Redes neuronales convolucionales 18 3.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.1. El perceptrón simple . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.2. El perceptrón multicapa . . . . . . . . . . . . . . . . . . . . . 20 3.2. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1. Funciones de activación . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2. Inicialización de pesos . . . . . . . . . . . . . . . . . . . . . . 25 3.2.3. Retropropagación . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.4. Optimizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.5. Estrategias de validación y prueba . . . . . . . . . . . . . . . 32 3.3. Inspiración biológica . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4. Arquitectura típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4.1. Capas convolucionales . . . . . . . . . . . . . . . . . . . . . . 36 3.4.2. Capas de agrupación o submuestreo . . . . . . . . . . . . . . . 37 3.4.3. Capas densamente conectadas . . . . . . . . . . . . . . . . . . 39 3.5. Capas especiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.1. Normalización de la respuesta local . . . . . . . . . . . . . . . 39 3.5.2. Normalización por lotes . . . . . . . . . . . . . . . . . . . . . 41 3.5.3. Agrupación piramidal de espacios . . . . . . . . . . . . . . . . 41 3.5.4. Convolución separable en profundidad . . . . . . . . . . . . . 44 3.5.5. Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6. Caso de estudio: GoogLeNet . . . . . . . . . . . . . . . . . . . . . . . 45 3.6.1. Bloque stem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.6.2. Bloque inception . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.6.3. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.7. CNNs para la estimación de pose . . . . . . . . . . . . . . . . . . . . 50 3.7.1. Formulación como un problema de clasificación . . . . . . . . 50 3.7.2. Formulación como un problema de regresión . . . . . . . . . . 51 4. Metodología 53 4.1. PNSPP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2. Modelos planares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.1. Escenas virtuales . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2. Cámara virtual y espacio de poses . . . . . . . . . . . . . . . . 57 4.2.3. Conjuntos de imágenes . . . . . . . . . . . . . . . . . . . . . . 57 4.2.4. Preprocesamiento de las imágenes . . . . . . . . . . . . . . . . 59 4.3. Estrategia de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . 59 4.3.1. Número de épocas y tamaño del mini-lote . . . . . . . . . . . 59 4.3.2. Optimizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.4. Cálculo del valor . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4. Configuración de hardware y software . . . . . . . . . . . . . . . . . . 64 5. Resultados 66 5.1. Casos experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2. Curvas de ajuste del factor de escala . . . . . . . . . . . . . . . . . 67 5.3. Conteo de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4. Curvas de entrenamiento y validación . . . . . . . . . . . . . . . . . . 67 5.5. Visualización del error . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6. Discusión y conclusiones 84 6.1. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.1.1. Optimización de la arquitectura . . . . . . . . . . . . . . . . . 84 6.1.2. Tamaño de las imágenes de entrada . . . . . . . . . . . . . . . 84 6.1.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . . . 85 6.1.4. Valores iniciales en el algoritmo de estimación de . . . . . . 85 6.1.5. Diseño de los modelos planares . . . . . . . . . . . . . . . . . 85 6.1.6. Restricciones temporales . . . . . . . . . . . . . . . . . . . . . 86 6.1.7. Entorno experimental . . . . . . . . . . . . . . . . . . . . . . . 86 6.1.8. Entrenamiento dependiente de la escena . . . . . . . . . . . . 86 6.2. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
dc.format	application/PDF
dc.language.iso	spa
dc.publisher	Biblioteca Digital wdg.biblio
dc.publisher	Universidad de Guadalajara
dc.rights.uri	https://www.riudg.udg.mx/info/politicas.jsp
dc.title	Estimación de pose en tiempo real de objetos rígidos planares a partir de secuencias de video monoculares
dc.type	Tesis de Doctorado
dc.rights.holder	Universidad de Guadalajara
dc.rights.holder	Ocegueda Hernández, Vladimir Cuauhtémoc
dc.coverage	GUADALAJARA, JALISCO
dc.type.conacyt	doctoralThesis
dc.degree.name	DOCTORADO EN CIENCIAS DE LA ELECTRONICA Y LA COMPUTACION CON ORIENTACIONES
dc.degree.department	CUCEI
dc.degree.grantor	Universidad de Guadalajara
dc.rights.access	openAccess
dc.degree.creator	DOCTOR EN CIENCIAS DE LA ELECTRONICA Y LA COMPUTACION CON ORIENTACIONES
dc.contributor.director	Mendizabal Ruiz, Eduardo Gerardo
Aparece en las colecciones:	CUCEI

Ficheros en este ítem:

Fichero	Tamaño	Formato
DCUCEI10076FT.pdf	10.29 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem