Análisis de texto clínico en español mediante arquitecturas de aprendizaje profundo para el diagnóstico automático de enfermedades respiratorias

Moreno Lara, Quenira Jaanai

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12104/112605

Title:	Análisis de texto clínico en español mediante arquitecturas de aprendizaje profundo para el diagnóstico automático de enfermedades respiratorias
Author:	Moreno Lara, Quenira Jaanai
metadata.dc.contributor.director:	Torres Ramos, Sulema
Keywords:	Tromboembolia Pulmonar;Neumonia;Procesamiento Del Lenguaje Natural;Modelos Transformer
Issue Date:	13-Mar-2026
Publisher:	Biblioteca Digital wdg.biblio Universidad de Guadalajara
Abstract:	La tromboembolia pulmonar y la neumonía representan dos afecciones cuya interacción clínica y epidemiológica evidencia la complejidad del diagnóstico respiratorio. Dado su impacto clínico, un diagnóstico preciso y oportuno es fundamental. En este contexto, las notas clínicas electrónicas, redactadas en formato libre, constituyen una fuente valiosa de información que puede fortalecer la toma de decisiones médicas y reducir diagnósticos tardíos o incorrectos. Para convertir estos datos no estructurados en conocimiento útil, el Procesamiento del Lenguaje Natural (PLN) desempeña un papel clave. Este trabajo demuestra que la aplicación de modelos de lenguaje basados en arquitecturas Transformer y especializados en el dominio biomédico-clínico en español permite abordar de manera efectiva la clasificación automática del diagnóstico diferencial entre tromboembolia pulmonar y neumonía a partir de narrativas clínicas. En particular, se identificaron cuatro hallazgos principales. Primero, los modelos especializados en el dominio biomédico-clínico mostraron un desempeño superior al modelo multilingüe de propósito general, alcanzando mayores niveles de exactitud y un balance más consistente entre sensibilidad y especificidad, lo que respalda la importancia del alineamiento entre el preentrenamiento, el idioma y el dominio clínico de la tarea. Segundo, la sección clínica utilizada como entrada fue determinante: la sección con mayor riqueza narrativa y relevancia diagnóstica concentró los mejores resultados, mientras que la sección más breve y menos específica aportó información más limitada; además, la integración de secciones no produjo mejoras sistemáticas cuando la información adicional no aportó evidencia clínica verdaderamente complementaria. Tercero, ampliar la ventana de contexto no garantizó un mejor desempeño global y supuso un mayor costo computacional; no obstante, el modelo de contexto largo mostró un comportamiento más estable frente a variaciones en la sección clínica y la estrategia de representación. Cuarto, la estrategia de representación basada en la agregación de información a lo largo del documento resultó más consistente que depender exclusivamente de un único vector resumen. Como limitaciones, se identifican el costo computacional asociado al ajuste fino y a la optimización de hiperparámetros, así como retos relacionados con la generalización a otros contextos clínicos y la interpretabilidad de los modelos. En conjunto, este trabajo contribuye metodológicamente al desarrollo del PLN clínico en español y sienta bases para el desarrollo de herramientas computacionales orientadas al apoyo del diagnóstico diferencial.
URI:	https://wdg.biblio.udg.mx https://hdl.handle.net/20.500.12104/112605
metadata.dc.degree.name:	MAESTRIA EN CIENCIAS EN BIOINGENIERIA Y COMPUTO INTELIGENTE
Appears in Collections:	CUCEI

Files in This Item:

File	Size	Format
MCUCEI11298FT.pdf	5.66 MB	Adobe PDF	View/Open

Show full item record