Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/104762
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.contributor.advisorCruz Herrera, Ma. Hidalia
dc.contributor.advisorMedellín Serna, Luis Antonio
dc.contributor.advisorCedillo Elias, Elsa Julieta
dc.contributor.advisorMartínez Mendoza, Jonathan De Jesús
dc.contributor.authorVargas Gutiérrez, Héctor Alejandro
dc.date.accessioned2024-09-18T14:54:17Z-
dc.date.available2024-09-18T14:54:17Z-
dc.date.issued2021-12-10
dc.identifier.urihttps://wdg.biblio.udg.mx
dc.identifier.urihttps://hdl.handle.net/20.500.12104/104762-
dc.description.abstractLa categorización de texto es un problema fundamental y bien conocido en el procesa- miento del lenguaje natural (PNL). Sin embargo, solo unas pocas investigaciones, si las hay, han utilizado la PNL para abordar el tema del derecho comparado. En este artículo, sugerimos utilizar una serie de transformaciones de texto en espacios vectoriales para los artículos de las constituciones políticas de los estados mexicanos incluyendo la CPEUM, así como 6 un conjunto de enfoques de agrupamiento o clustering de estado del arte, para ayudar en el proceso del derecho comparado. Para este efecto, comenzamos recopilando las leyes y posteriormente preprocesando cada artículo, a continuación se hacen las transformaciones en espacios vectoriales para proceder al agrupamiento y darle significado a estos grupos. Este mismo procedimiento aplicado a diferentes casos de prueba nos da el modelo que es evaluado con una métrica integrada, para así evitar el vicio del sobre ajuste para posteriormente escoger el mejor de todos los modelos que generaliza el comportamiento para cualquier entrada o caso que se presente.
dc.description.tableofcontentsÍndice 1 1. Capítulo I. Problemática y/o contexto del problema 8 1.1. Planteamiento del problema y pregunta de investigación . . . . . . . . . . . 8 1.2. Objetivos ................................... 11 1.2.1. Objetivogeneral ........................... 11 1.2.2. Objetivosespecíficos......................... 11 1.3. Hipótesis ................................... 12 1.4. Justificación.................................. 12 1.4.1. Relevanciasocial........................... 12 1.4.2. Contribuciones ............................ 13 2. Capítulo II. Marco teórico conceptual 14 2.1. Antecedentesdelproblema.......................... 14 2.1.1. PEP8................................. 14 2.1.2. MarcoHistórico ........................... 14 2.2. Basesteóricas................................. 25 2.2.1. NLP.................................. 25 2.2.2. Pyspark................................ 25 2.2.3. Preprocesamiento........................... 26 2.2.4. Textosenespaciosvectoriales .................... 27 2.2.4.1. Countvectorizer...................... 27 2.2.4.2. TFIDF........................... 28 2.2.4.3. Word2Vec ......................... 29 1 2.2.5. Métodosdeclustering ........................ 29 2.2.5.1. 2.2.5.2. 2.2.5.3. Distribucionesgaussianasmixtas . . . . . . . . . . . . . 29 Agglomerativeclustering ................. 30 Kmeans .......................... 32 2.2.6. Métodos de Normalización, estandarización y escalación de datos . 33 2.2.6.1. 2.2.6.2. 2.2.6.3. 2.2.6.4. 2.2.6.5. Escala mínima-máxima o normalización mínima-máxima 33 Estandarización o normalización de valor Z-score o orto normalización ....................... 34 EspaciosvectorialesnormadosLp . . . . . . . . . . . . . 35 NormaTaxicaboManhattan ............... 35 Normaeuclidiana ..................... 36 2.2.7. Matrizdeconfusión ......................... 36 2.2.8. RecallyPrecision .......................... 36 2.3. MarcoConceptual............................... 37 2.3.1. Procesamiento ............................ 37 2.3.2. LenguajeNatural........................... 38 2.3.3. Legal ................................. 39 2.4. Estadodelarte................................. 41 2.4.1. Text Similarity in Vector Space Models: A Comparative Study . . . 41 2.4.2. Natural language processing methods for knowledge management—Applying document clustering for fast search and grouping of engineering do- cuments................................ 42 2.4.3. EnsLM: Ensemble Language Model for Data Diversity by Semantic clustering............................... 43 2 2.4.4. A Self-Training Approach for Short Text clustering . . . . . . . . . 45 3. Capítulo III. Contexto metodológico 47 3.1. Diseño..................................... 47 3.1.1. Tecnologíasutilizadas ........................ 47 3.1.2. Diseñodelasolución......................... 47 3.1.2.1. 3.1.2.2. 3.1.2.3. 3.1.2.4. 3.1.2.5. 3.1.2.6. 3.1.2.7. Clasecargadedatos. ................... 49 Clasepreprocesamiento................... 49 Clasemétodosderepresentación. . . . . . . . . . . . . . 50 métodosdeescalacióndelosdatos. . . . . . . . . . . . . 51 Clasemétodosdeclustering. ............... 52 Evaluación. ........................ 52 Visualización ....................... 54 3.1.3. Enfoque................................ 55 3.1.4. Tipo.................................. 55 3.1.5. Diseño ................................ 56 3.1.6. Modelo................................ 56 4. Capítulo IV. Resultados y discusión o análisis 58 4.1. Experimentos ................................. 58 4.2. Característicasdelsistema .......................... 59 4.3. Tiemposdeejecución............................. 60 4.4. Resultadosdelosexperimentos........................ 60 4.4.1. CountVectorizer ........................... 61 4.4.2. TFIDF ................................ 62 3 4.4.3. WordtoVec.............................. 62 4.5. SeleccióndeModelos............................. 63 4.5.1. Modelos por tamaño del vector de representación . . . . . . . . . . 63 4.5.2. Modelospormétodosdeclustering ................. 64 4.5.3. Modelospormétodosdenormalización . . . . . . . . . . . . . . . 66 4.5.4. Modelospormétodosderepresentación . . . . . . . . . . . . . . . 66 Índice de figuras 71 Índice de cuadros 72 Lista de Códigos 72 Referencias 73 A. Temas en la constitución política 82 B. Rutinas 83 B.1. Main,rutinaprincipal) ............................ 83 B.2.PruebasdeCountVectorizer......................... 84 B.3. PruebasdeTFI-DF .............................. 87 B.4. PruebasdeWordtoVec............................ 90 B.5. ClaseModel ................................. 94 B.6. ClaseLoads.................................. 96 B.7. ClasePreprocessings ............................. 99 B.8. ClaseRepresentations ............................ 100 B.9. ClaseClusters ................................ 102 B.10.ClaseEvaluations............................... 107 4 B.11.RutinadeVisualizacióndelosresultados . . . . . . . . . . . . . . . . . . 108
dc.formatapplication/PDF
dc.language.isospa
dc.publisherBiblioteca Digital wdg.biblio
dc.publisherUniversidad de Guadalajara
dc.rights.urihttps://www.riudg.udg.mx/info/politicas.jsp
dc.subjectAsistido
dc.subjectLenguaje.
dc.titleDerecho comparado asistido por computadora: procesamiento de lenguaje natural legal
dc.typeTesis de Maestría
dc.rights.holderUniversidad de Guadalajara
dc.rights.holderVargas Gutiérrez, Héctor Alejandro
dc.coverageGUADALAJARA, JALISCO
dc.type.conacytmasterThesis
dc.degree.nameMAESTRIA EN TECNOLOGIAS DE INFORMACION
dc.degree.departmentCUCEA
dc.degree.grantorUniversidad de Guadalajara
dc.degree.creatorMAESTRO EN TECNOLOGIAS DE INFORMACION
dc.contributor.directorRodriguez Hernandez, Gerardo
Aparece en las colecciones:CUCEA

Ficheros en este ítem:
Fichero TamañoFormato 
MCUCEA11193.pdf
Acceso Restringido
6.06 MBAdobe PDFVisualizar/Abrir    Request a copy


Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.