Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/91106
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.contributor.authorRamos Vargas, Rigo Eslí
dc.date.accessioned2022-09-26T19:05:29Z-
dc.date.available2022-09-26T19:05:29Z-
dc.date.issued2021-05-28
dc.identifier.urihttps://wdg.biblio.udg.mx
dc.identifier.urihttps://hdl.handle.net/20.500.12104/91106-
dc.description.abstractEl creciente interés por el uso de vectores de palabras como característica para el reconocimiento de entidades nombradas biológicas (BioNER) ha resaltado la necesidad de evaluaciones que ayuden a seleccionar los mejores vectores de palabras. Un criterio común para su selección es el tipo de fuente de donde provienen; esto es, general o específica. La mayoría de estudios se han enfocado en mejorar el rendimiento de BioNER, ya sea combinando múltiples características o probando diferentes algoritmos del estado del arte, lo cual impide observar el desempeño real de los vectores de palabras. Por esta razón, esta tesis evalúa los vectores de palabras Common Crawl y Pyysalo PM + PMC (generales y específicos, respectivamente) de forma extrínseca e intrínseca. De forma extrínseca usando tres algoritmos de NER (CRF, BiLSTM y BiLSTM-CRF) en los corpus DrugBank y MedLine, y de manera intrínseca observando su cohesión semántica y correlación con respecto a cuatro gold standard: Pedersen’s, Hliaoutakis’s, MayoSRS y UMNSRS. Los resultados muestran que no existe una relación de desempeño entre los vectores de palabras específicos y los algoritmos de NER, sorprendentemente, también muestran que los vectores de palabras generales son una buena opción para ser usados como características en BioNER a pesar de tener menor cobertura y menor relación semántica intrínseca que los vectores de palabras específicos.
dc.description.tableofcontentsAgradecimientos Resumen Abstract 1 Introducción 1.1 Estado del arte 1.2 Justificación 1.3 Hipótesis 1.4 Metas y objetivos 2 Marco teórico 2.1 Procesamiento de Lenguaje Natural 2.2 ¿Qué es una entidad nombrada? 2.3 Reconocimiento de Entidades Nombradas 2.3.1 Clasificación de entidades nombradas 2.3.2 Factores a considerar en NER 2.3.3 Reconocimiento de Entidades Nombradas Biológicas (BioNER) 2.4 Proceso para realizar NER 2.5 Pre-procesamiento 2.5.1 División en oraciones y tokens 2.5.2 Corpus DrugBank y MedLine 2.5.3 Formato IOB 2.6 Extracción de características 2.6.1 Diccionarios 2.6.2 Reglas manuales 2.6.3 Categoría gramatical 2.6.4 Vectores de palabras 2.7 Modelos de aprendizaje 2.7.1 Campo Aleatorio Condicional (CRF) 2.7.2 Red neuronal de memoria a corto y largo plazo (LSTM) 2.7.3 Memoria a corto y largo plazo bidireccional (BiLSTM) 2.7.4 Memoria a corto y largo plazo bidireccional con campo aleatorio condicional (BiLSTM-CRF) 2.8 Post-procesamiento 2.9 Métricas de evaluación 2.9.1 Matriz de confusión 2.9.2 Coeficiente de correlación de Pearson 2.9.3 Cobertura de los vectores de palabras 3 Metodología 3.1 Vectores de palabras Generales vs. Específicos 3.2 Reducciones del corpus de entrenamiento 3.3 Evaluación semántica de los vectores de palabras 4 Resultados 4.1 Vectores de palabras Generales vs. Específicos 4.2 Reducciones del corpus de entrenamiento 4.3 Evaluación semántica de los vectores de palabras 5 Conclusiones 5.1 Trabajo futuro 5.2 Productos obtenidos Referencias A Productos obtenidos A.1 Artículo para congreso CNIB-2020 A.2 Participación en concurso estudiantil “Ing. Teófila Cadena Alfaro” A.3 Herramienta NER-DD A.4 Artículo para revista PeerJ Computer Science
dc.formatapplication/PDF
dc.language.isospa
dc.publisherBiblioteca Digital wdg.biblio
dc.publisherUniversidad de Guadalajara
dc.rights.urihttps://www.riudg.udg.mx/info/politicas.jsp
dc.titleRelación de desempeño entre algoritmos para reconocimiento de entidades nombradas y vectores de palabras específicos de dominio biológico
dc.typeTesis de Maestría
dc.rights.holderUniversidad de Guadalajara
dc.rights.holderRamos Vargas, Rigo Eslí
dc.coverageGUADALAJARA, JALISCO
dc.type.conacytmasterThesis
dc.degree.nameMAESTRIA EN CIENCIAS EN BIOINGENIERIA Y COMPUTO INTELIGENTE
dc.degree.departmentCUCEI
dc.degree.grantorUniversidad de Guadalajara
dc.rights.accessopenAccess
dc.degree.creatorMAESTRIA EN CIENCIAS EN BIOINGENIERO EN Y COMPUTO INTELIGENTE
dc.contributor.directorTorres Ramos, Sulema
dc.contributor.codirectorRomán Godínez, Israel
Aparece en las colecciones:CUCEI

Ficheros en este ítem:
Fichero TamañoFormato 
MCUCEI10419FT.pdf9.99 MBAdobe PDFVisualizar/Abrir


Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.