Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/90883
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.contributor.authorOcegueda Hernández, Vladimir Cuauhtémoc
dc.date.accessioned2022-09-12T22:10:06Z-
dc.date.available2022-09-12T22:10:06Z-
dc.date.issued2022-02-17
dc.identifier.urihttps://wdg.biblio.udg.mx
dc.identifier.urihttps://hdl.handle.net/20.500.12104/90883-
dc.description.abstractLa estimación de pose 3D consiste en calcular, en relación con un marco de referencia dado, la posición y orientación de un objeto tridimensional a partir de su proyección en una imagen bidimensional. En los últimos años, las redes neuronales convolucionales (CNNs) han logrado resultados impresionantes al abordar algunos de los problemas tradicionales de la visión por computadora, incluyendo la estimación de pose 3D. En general, las CNNs empleadas para este propósito contienen capas convolucionales y densamente conectadas con un gran número de neuronas y parámetros entrenables, es decir, son arquitecturas pesadas. Estos modelos son difíciles de entrenar, consumen mucha memoria y, a medida que aumenta el número de parámetros entrenables, tienden a sufrir de sobreajuste. En este trabajo de tesis se propone una CNN ligera, denominada Red de Poses con Agrupación Piramidal de Espacios (PNSPP), capaz de estimar la pose de un modelo planar. Las latencias típicas de PNSPP completamente entrenada permiten realizar predicciones de pose, fotograma a fotograma, en secuencias de video monoculares. Además, también se presenta un método heurístico para calcular el factor de escala que aparece en las funciones de pérdida que desacoplan la posición y la orientación. Este factor depende del conjunto de datos de entrenamiento y permite balancear las contribuciones al error total. A diferencia de otros enfoques que realizan búsquedas en grid o aleatorias que pueden ser costosas, el método presentado utiliza reglas heurísticas simples para ajustar este factor a medida que progresa el entrenamiento de la red neuronal. Los resultados muestran que, en comparación con una CNN pesada de propósito similar, PNSPP se desempeñó mejor en todos los experimentos propuestos.
dc.description.tableofcontents1. Introducción 1 1.1. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.2. Objetivos particulares . . . . . . . . . . . . . . . . . . . . . . 5 1.4. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Cuerpos rígidos 8 2.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2. Movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3. Estimación de pose . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.2. Representaciones . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.3. Tratamiento del problema . . . . . . . . . . . . . . . . . . . . 14 3. Redes neuronales convolucionales 18 3.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.1. El perceptrón simple . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.2. El perceptrón multicapa . . . . . . . . . . . . . . . . . . . . . 20 3.2. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1. Funciones de activación . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2. Inicialización de pesos . . . . . . . . . . . . . . . . . . . . . . 25 3.2.3. Retropropagación . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.4. Optimizadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2.5. Estrategias de validación y prueba . . . . . . . . . . . . . . . 32 3.3. Inspiración biológica . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4. Arquitectura típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4.1. Capas convolucionales . . . . . . . . . . . . . . . . . . . . . . 36 3.4.2. Capas de agrupación o submuestreo . . . . . . . . . . . . . . . 37 3.4.3. Capas densamente conectadas . . . . . . . . . . . . . . . . . . 39 3.5. Capas especiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.1. Normalización de la respuesta local . . . . . . . . . . . . . . . 39 3.5.2. Normalización por lotes . . . . . . . . . . . . . . . . . . . . . 41 3.5.3. Agrupación piramidal de espacios . . . . . . . . . . . . . . . . 41 3.5.4. Convolución separable en profundidad . . . . . . . . . . . . . 44 3.5.5. Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.6. Caso de estudio: GoogLeNet . . . . . . . . . . . . . . . . . . . . . . . 45 3.6.1. Bloque stem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.6.2. Bloque inception . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.6.3. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.7. CNNs para la estimación de pose . . . . . . . . . . . . . . . . . . . . 50 3.7.1. Formulación como un problema de clasificación . . . . . . . . 50 3.7.2. Formulación como un problema de regresión . . . . . . . . . . 51 4. Metodología 53 4.1. PNSPP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2. Modelos planares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2.1. Escenas virtuales . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2. Cámara virtual y espacio de poses . . . . . . . . . . . . . . . . 57 4.2.3. Conjuntos de imágenes . . . . . . . . . . . . . . . . . . . . . . 57 4.2.4. Preprocesamiento de las imágenes . . . . . . . . . . . . . . . . 59 4.3. Estrategia de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . 59 4.3.1. Número de épocas y tamaño del mini-lote . . . . . . . . . . . 59 4.3.2. Optimizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.4. Cálculo del valor . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4. Configuración de hardware y software . . . . . . . . . . . . . . . . . . 64 5. Resultados 66 5.1. Casos experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2. Curvas de ajuste del factor de escala . . . . . . . . . . . . . . . . . 67 5.3. Conteo de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.4. Curvas de entrenamiento y validación . . . . . . . . . . . . . . . . . . 67 5.5. Visualización del error . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6. Discusión y conclusiones 84 6.1. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.1.1. Optimización de la arquitectura . . . . . . . . . . . . . . . . . 84 6.1.2. Tamaño de las imágenes de entrada . . . . . . . . . . . . . . . 84 6.1.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . . . 85 6.1.4. Valores iniciales en el algoritmo de estimación de . . . . . . 85 6.1.5. Diseño de los modelos planares . . . . . . . . . . . . . . . . . 85 6.1.6. Restricciones temporales . . . . . . . . . . . . . . . . . . . . . 86 6.1.7. Entorno experimental . . . . . . . . . . . . . . . . . . . . . . . 86 6.1.8. Entrenamiento dependiente de la escena . . . . . . . . . . . . 86 6.2. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
dc.formatapplication/PDF
dc.language.isospa
dc.publisherBiblioteca Digital wdg.biblio
dc.publisherUniversidad de Guadalajara
dc.rights.urihttps://www.riudg.udg.mx/info/politicas.jsp
dc.titleEstimación de pose en tiempo real de objetos rígidos planares a partir de secuencias de video monoculares
dc.typeTesis de Doctorado
dc.rights.holderUniversidad de Guadalajara
dc.rights.holderOcegueda Hernández, Vladimir Cuauhtémoc
dc.coverageGUADALAJARA, JALISCO
dc.type.conacytdoctoralThesis
dc.degree.nameDOCTORADO EN CIENCIAS DE LA ELECTRONICA Y LA COMPUTACION CON ORIENTACIONES
dc.degree.departmentCUCEI
dc.degree.grantorUniversidad de Guadalajara
dc.rights.accessopenAccess
dc.degree.creatorDOCTOR EN CIENCIAS DE LA ELECTRONICA Y LA COMPUTACION CON ORIENTACIONES
dc.contributor.directorMendizabal Ruiz, Eduardo Gerardo
Aparece en las colecciones:CUCEI

Ficheros en este ítem:
Fichero TamañoFormato 
DCUCEI10076FT.pdf10.29 MBAdobe PDFVisualizar/Abrir


Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.