Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12104/110236
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.author | Guzmán Vázquez, Arturo | |
dc.date.accessioned | 2025-09-05T22:23:57Z | - |
dc.date.available | 2025-09-05T22:23:57Z | - |
dc.date.issued | 2025-06-13 | |
dc.identifier.uri | https://wdg.biblio.udg.mx | |
dc.identifier.uri | https://hdl.handle.net/20.500.12104/110236 | - |
dc.description.abstract | Esta tesis presenta un sistema computacional para la detección de errores de pronunciación en hablantes no nativos de inglés, mediante el uso combinado de señales de voz y electromiografía de superficie (sEMG) del aparato fonador. A partir de un protocolo experimental propio, se diseñó y construyó una base de datos que incluye registros simultáneos de audio y señales musculares durante la pronunciación de fonemas y pares mínimos problemáticos entre el inglés y el español. Las señales fueron preprocesadas, segmentadas y caracterizadas mediante atributos acústicos y bioeléctricos. Posteriormente, se entrenaron y evaluaron diversos algoritmos de aprendizaje automático —incluyendo redes neuronales, máquinas de soporte vectorial, y árboles de decisión— para la clasificación de fonemas correctamente o incorrectamente pronunciados. Los resultados demuestran que la combinación de señales acústicas y mioeléctricas mejora la precisión en la detección de errores fonéticos, superando el desempeño de los modelos basados en un solo tipo de señal. La propuesta ofrece una herramienta no invasiva y objetiva para apoyar el aprendizaje de lenguas extranjeras con retroalimentación fonética automatizada. | |
dc.description.tableofcontents | Contenidos Lista de figuras ......................................................................................................................................................... VII Lista de tablas ........................................................................................................................................................... IX 1. Introducción ..................................................................................................................................................... 11 1.1 Antecedentes ........................................................................................................................................ 11 1.2 Estado del arte ..................................................................................................................................... 14 1.3 Planteamiento del problema ............................................................................................................. 16 1.4 Justificación ........................................................................................................................................... 17 1.5 Hipótesis ................................................................................................................................................ 18 1.6 Objetivos ................................................................................................................................................ 18 1.6.1 Objetivo general .............................................................................................................................. 18 1.6.2 Objetivos particulares .................................................................................................................... 18 2. Marco Teórico ................................................................................................................................................. 19 2.1 Detección de errores de pronunciación ......................................................................................... 19 2.2 Marco Común Europeo de Referencia para las Lenguas ........................................................... 20 2.3 Aparato fonador ................................................................................................................................... 22 2.4 Lingüística.............................................................................................................................................. 23 2.4.1 Alfabeto Fonético Internacional .................................................................................................. 23 2.4.2 Fonemas de los idiomas inglés y español ................................................................................ 25 2.5 Electromiografía de superficie del aparato fonador ................................................................... 27 2.6 Procesamiento de bioseñales ........................................................................................................... 28 2.6.1 Filtrado de señales EMG ............................................................................................................... 28 2.6.2 Limpieza de señales de voz ......................................................................................................... 30 2.6.3 Características de la señal EMG .................................................................................................. 31 2.6.4 Características de la señal de voz .............................................................................................. 33 2.7 Aprendizaje Automático..................................................................................................................... 37 2.7.1 Algoritmos de aprendizaje automático para clasificación .................................................... 38 2.7.1.1 Redes neuronales artificiales .............................................................................................. 38 2.7.1.2 Máquinas de Soporte Vectorial ......................................................................................... 40 2.7.1.3 Árboles de decisión .............................................................................................................. 42 2.7.1.4 Bosques aleatorios ............................................................................................................... 44 2.7.1.5 K-vecinos cercanos ............................................................................................................... 45 2.7.1.6 Naïve Bayes ............................................................................................................................ 47 V 2.7.2 Implementación de algoritmos de aprendizaje automático ................................................. 48 2.7.3 Evaluación con métricas de desempeño ................................................................................... 49 3. Metodología .................................................................................................................................................... 52 3.1 Diseño de protocolo de adquisición............................................................................................... 52 3.2 Adquisición de base de datos .......................................................................................................... 55 3.3 Acondicionamiento de señales ......................................................................................................... 58 3.3.1 Limpieza y filtrado de señales ..................................................................................................... 58 3.3.2 Segmentación de señales ............................................................................................................. 60 3.4 Extracción de características ............................................................................................................. 63 3.4.1 Características de activación muscular ...................................................................................... 63 3.4.1.1 Activación por umbrales ...................................................................................................... 64 3.4.1.2 Características de tiempo-frecuencia ............................................................................... 65 3.4.2 Características acústicas ................................................................................................................ 70 3.5 Configuración experimental .............................................................................................................. 71 3.5.1 Experimentos generales ................................................................................................................ 75 3.5.2 Evaluaciones para la prueba por fonema ................................................................................. 75 3.5.3 Evaluaciones para la prueba por pares mínimos .................................................................... 76 3.6 Generación y evaluación de modelos de Aprendizaje Automático ......................................... 77 4. Resultados y discusión ................................................................................................................................. 81 4.1 Construcción de base de datos ....................................................................................................... 81 4.2 Resultados de la clasificación ........................................................................................................... 83 4.2.1 Resultados generales ..................................................................................................................... 84 4.2.2 Resultados de las evaluaciones de la prueba por fonema ................................................... 85 4.2.2.1 Fonema /d/ ............................................................................................................................. 85 4.2.2.2 Fonema /t/ .............................................................................................................................. 86 4.2.2.3 Fonema /θ/ ............................................................................................................................. 87 4.2.2.4 Fonema /ð/ ............................................................................................................................. 88 4.2.3 Resultados de las evaluaciones de la prueba por pares mínimos ..................................... 89 4.2.3.1 Pares mínimos con /t/ y /θ/ ................................................................................................ 89 4.2.3.2 Pares mínimos con /d/ y /ð/ .............................................................................................. 90 4.2.4 Resultados de métricas de desempeño .................................................................................... 91 4.2.4.1 Métricas de experimentos generales ................................................................................ 91 4.2.4.2 Métricas de evaluaciones de la prueba por fonema .................................................... 93 VI 4.2.4.3 Métricas de evaluaciones para la prueba por pares mínimos ................................... 95 4.3 Discusión de resultados y comparación con el estado del arte .............................................. 96 4.4 Productos generados....................................................................................................................... 100 5. Conclusiones y trabajo futuro .................................................................................................................. 101 6. Referencias .................................................................................................................................................... 103 Anexos .................................................................................................................................................................... 112 Anexo 1. Aprobación de protocolo evaluado por los comités de ética e investigación............... 112 Anexo 1.1 Consentimiento informado ................................................................................................... 113 Anexo 2. Resultados de métricas de desempeño ................................................................................... 114 Anexo 3. Actividades complementarias ..................................................................................................... 121 Anexo 3.1. Participación en congreso internacional.......................................................................... 121 Anexo 3.2. Publicación de artículo en revista científica .................................................................... 122 VII Lista de figuras Fig. 1. Niveles de competencia de acuerdo con el CEFR. Imagen obtenida del Ministerio de Educación, Cultura y Deporte de España en conjunto con el Instituto Cervantes ________ 21 Fig. 2. Aparato fonador _____________________________________________________________ 23 Fig. 3. Diagrama de fonemas vocálicos con sus posiciones, obtenido de la revisión del IPA 2020. ____________________________________________________________________________ 24 Fig. 4. Respuesta a la magnitud de dos filtros Butterworth. (A) Filtro pasa altas con frecuencia de corte de 10 Hz. (B) Filtro pasa bajas con frecuencia de corte de 400 Hz. ______________ 29 Fig. 5. Respuesta al impulso con diferentes valores de orden para el filtro Butterworth. _______ 29 Fig. 6. a) Eliminación de ruido No-estacionaria. b) Eliminación de ruido estacionaria. _________ 30 Fig. 7. Variaciones del período en una señal de audio que representan el Jitter. ______________ 34 Fig. 8. Variaciones de la amplitud en una señal de audio que representan el Shimmer. ________ 35 Fig. 9. Curvas de resonancia del tracto vocal. ___________________________________________ 35 Fig. 10. Proceso por seguir para el cálculo de los MFCCs a partir de una señal de entrada. ___ 37 Fig. 11. Modelo de Perceptrón Multicapa con solo una capa oculta. ________________________ 39 Fig. 12. Ejemplo de dos diferentes márgenes para un mismo conjunto de datos al usar las SVM. 41 Fig. 13. Ejemplo de un árbol de decisión. _____________________________________________ 42 Fig. 14. Ejemplo de la creación de un bosque aleatorio a través de varios árboles de decisión. 44 Fig. 15. Ejemplo del algoritmo K-vecinos cercanos con valores de k=3 y k=5. _______________ 46 Fig. 16. Metodología propuesta para la DEP utilizando técnicas de ML y procesamiento de bioseñales del aparato fonador. _________________________________________________ 52 Fig. 17. Elementos del sistema de adquisición de datos. __________________________________ 56 Fig. 18. Músculos seleccionados para la adquisición de las señales de EMG de superficie. _____ 57 Fig. 19. Entorno real de adquisición de señales y experimento en progreso. ________________ 58 Fig. 20. Señal de un canal EMG y su señal con un filtro pasa banda. ________________________ 59 Fig. 21. Señal de voz original y su señal filtrada con la función reduce_noise. ________________ 60 Fig. 22. Segmentación de los cuatro canales de EMG y la señal de voz, eliminando la parte inicial de la adquisición que no contiene información de la pronunciación de las palabras. _____ 61 Fig. 23. Segmentación de una señal de audio en 40 segmentos correspondientes a 40 palabras del sujeto 8. __________________________________________________________________ 62 Fig. 24. Segmentación de una señal mioeléctrica (músculo digástrico anterior) en 40 segmentos correspondientes a 40 palabras del sujeto 8. ______________________________________ 62 Fig. 25. Diagrama de las características extraídas para las señales mioeléctricas y las señales de voz. _________________________________________________________________________ 63 Fig. 26. Proceso (en orden descendente) para encontrar la activación muscular en un segmento del canal correspondiente al músculo digástrico anterior al momento de pronunciar una de las 40 palabras seleccionadas. _____________________________________________________ 65 Fig. 27. Espectrogramas correspondientes a las señales EMG del músculo cricotiroideo para un sujeto al pronunciar cada palabra. _______________________________________________ 67 Fig. 28. a) Espectrograma de una señal EMG de un músculo particular durante la pronunciación de una palabra, b) características en el dominio tiempo-frecuencia del espectrograma de a). 68 Fig. 29. MFCCs provenientes de las señales EMG del músculo cricotiroideo para un sujeto al pronunciar cada palabra. _______________________________________________________ 69 Fig. 30. Representación gráfica del conjunto de datos con todas las instancias. ______________ 72 VIII Fig. 31. Nomenclatura utilizada dentro de las configuraciones de experimentos. ______________ 73 Fig. 32. Diagrama con todos los experimentos realizados de Audio (parte inferior) y Audio+EMG (parte superior) y sus pruebas y evaluaciones: general, fonema, y par mínimo. __________ 74 Fig. 33. Experimentos generales (izquierda: audio + EMG, derecha: audio). __________________ 75 Fig. 34. Evaluaciones generales donde se separan los conjuntos de datos por canales de EMG. _ 75 Fig. 35. Evaluaciones en las que se separan los conjuntos de datos por fonemas. ____________ 76 Fig. 36. Caso particular de evaluación de la prueba por fonema (específicamente el /ð/) pero separados por canal de EMG. ___________________________________________________ 76 Fig. 37. Evaluaciones en las que se separan los conjuntos de datos por pares mínimos. _______ 76 Fig. 38. Caso particular de evaluación de la prueba por pares mínimos (/t/ y /θ/) pero separados por canal de EMG. _____________________________________________________________ 77 Fig. 39. Proceso a seguir para la generación y evaluación de modelos de aprendizaje automático. ____________________________________________________________________________ 79 Fig. 40. Señales correspondientes al músculo cricotiroideo: la señal superior está limpia y con cambios visibles en amplitud; la señal inferior no muestra variaciones en la amplitud. ____ 82 Fig. 41. Relación de los registros totales limpios y contaminados. __________________________ 83 IX Lista de tablas Tabla 1. Representación de los fonemas consonantes. ___________________________________ 24 Tabla 2. Fonemas consonantes del idioma español. ______________________________________ 25 Tabla 3. Fonemas consonantes del idioma inglés. _______________________________________ 26 Tabla 4. Fonemas que causan conflicto en su pronunciación entre el idioma español e inglés. __ 26 Tabla 5. Palabras seleccionadas para el experimento con fonemas /t/ y /θ/. _________________ 54 Tabla 6. Palabras seleccionadas para el experimento con fonemas /d/ y /ð/. _________________ 54 Tabla 7. Características fonológicas de los fonemas consonantes seleccionados. ______________ 55 Tabla 8. Características extraídas de las señales EMG. ____________________________________ 64 Tabla 9. Características extraídas de las señales de voz. __________________________________ 70 Tabla 10. Hiperparámetros seleccionados con sus valores respectivos utilizados en el método de GridSearch. __________________________________________________________________ 78 Tabla 11. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos con todos los fonemas (Evaluaciones generales). __________________ 84 Tabla 12. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos del fonema /d/. ______________________________________________ 86 Tabla 13. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos del fonema /t/. _______________________________________________ 87 Tabla 14. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos del fonema /θ/. ______________________________________________ 88 Tabla 15. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos del fonema /ð/. ______________________________________________ 89 Tabla 16. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos que contienen pares mínimos entre los fonemas /t/ y /θ/. __________ 89 Tabla 17. Promedios de la exactitud de 100 ejecuciones para las evaluaciones que utilizan los conjuntos de datos que contienen pares mínimos entre los fonemas /d/ y /ð/. __________ 90 Tabla 18. Métricas de desempeño para los mejores modelos en las experimentos y sus evaluaciones generales. ________________________________________________________ 92 Tabla 19. Métricas de desempeño para los mejores modelos en las evaluaciones con el fonema /d/. ____________________________________________________________________________ 94 Tabla 20. Métricas de desempeño para los mejores modelos en las evaluaciones con el fonema /t/. ____________________________________________________________________________ 94 Tabla 21. Métricas de desempeño para los mejores modelos en las evaluaciones con el fonema /θ/. ____________________________________________________________________________ 94 Tabla 22. Métricas de desempeño para los mejores modelos en las evaluaciones con el fonema /ð/. ____________________________________________________________________________ 94 Tabla 23. Métricas de desempeño para los mejores modelos de las evaluaciones con pares mínimos de fonemas /t/ y /θ/. ___________________________________________________ 95 Tabla 24. Métricas de desempeño para los mejores modelos de las evaluaciones con pares mínimos de fonemas /d/ y /ð/. __________________________________________________ 95 Tabla 25. Métricas de desempeño para las evaluaciones con todos los fonemas. ____________ 114 Tabla 26. Métricas de desempeño para las evaluaciones con el fonema /d/. ________________ 115 Tabla 27. Métricas de desempeño para las evaluaciones con el fonema /t/. _________________ 116 Tabla 28. Métricas de desempeño para las evaluaciones con el fonema /θ/. ________________ 117 X Tabla 29. Métricas de desempeño para las evaluaciones con el fonema /ð/. ________________ 118 Tabla 30. Métricas de desempeño para las evaluaciones con los pares mínimos entre los fonemas /t/ y /θ/. ____________________________________________________________________ 119 Tabla 31. Métricas de desempeño para las evaluaciones con los pares mínimos entre los fonemas /d/ y /ð/. ___________________________________________________________________ 120 | |
dc.format | application/PDF | |
dc.language.iso | spa | |
dc.publisher | Biblioteca Digital wdg.biblio | |
dc.publisher | Universidad de Guadalajara | |
dc.rights.uri | https://www.riudg.udg.mx/info/politicas.jsp | |
dc.subject | Deteccion De Errores De Pronunciacion | |
dc.subject | Electromiografia De Superficie Semg | |
dc.subject | Aprendizaje Automatico | |
dc.subject | Fonemas | |
dc.subject | Procesamiento De Bioseñales | |
dc.title | Detección de errores de pronunciación en hablantes de un segundo idioma mediante modelos de aprendizaje automático y procesamiento de bioseñales del aparato fonador | |
dc.type | Tesis de Maestría | |
dc.rights.holder | Universidad de Guadalajara | |
dc.rights.holder | Guzmán Vázquez, Arturo | |
dc.coverage | GUADALAJARA, JALISCO | |
dc.type.conacyt | masterThesis | |
dc.degree.name | MAESTRIA EN CIENCIAS EN BIOINGENIERIA Y COMPUTO INTELIGENTE | |
dc.degree.department | CUCEI | |
dc.degree.grantor | Universidad de Guadalajara | |
dc.rights.access | openAccess | |
dc.degree.creator | MAESTRIA EN CIENCIAS EN BIOINGENIERO EN Y COMPUTO INTELIGENTE | |
dc.contributor.director | Torres Ramos, Sulema | |
dc.contributor.codirector | Román Godínez, Israel | |
Aparece en las colecciones: | CUCEI |
Ficheros en este ítem:
Fichero | Tamaño | Formato | |
---|---|---|---|
MCUCEI11234FT.pdf | 5.84 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.