Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12104/104762
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorCruz Herrera, Ma. Hidalia
dc.contributor.advisorMedellín Serna, Luis Antonio
dc.contributor.advisorCedillo Elias, Elsa Julieta
dc.contributor.advisorMartínez Mendoza, Jonathan De Jesús
dc.contributor.authorVargas Gutiérrez, Héctor Alejandro
dc.date.accessioned2024-09-18T14:54:17Z-
dc.date.available2024-09-18T14:54:17Z-
dc.date.issued2021-12-10
dc.identifier.urihttps://wdg.biblio.udg.mx
dc.identifier.urihttps://hdl.handle.net/20.500.12104/104762-
dc.description.abstractLa categorización de texto es un problema fundamental y bien conocido en el procesa- miento del lenguaje natural (PNL). Sin embargo, solo unas pocas investigaciones, si las hay, han utilizado la PNL para abordar el tema del derecho comparado. En este artículo, sugerimos utilizar una serie de transformaciones de texto en espacios vectoriales para los artículos de las constituciones políticas de los estados mexicanos incluyendo la CPEUM, así como 6 un conjunto de enfoques de agrupamiento o clustering de estado del arte, para ayudar en el proceso del derecho comparado. Para este efecto, comenzamos recopilando las leyes y posteriormente preprocesando cada artículo, a continuación se hacen las transformaciones en espacios vectoriales para proceder al agrupamiento y darle significado a estos grupos. Este mismo procedimiento aplicado a diferentes casos de prueba nos da el modelo que es evaluado con una métrica integrada, para así evitar el vicio del sobre ajuste para posteriormente escoger el mejor de todos los modelos que generaliza el comportamiento para cualquier entrada o caso que se presente.
dc.description.tableofcontentsÍndice 1 1. Capítulo I. Problemática y/o contexto del problema 8 1.1. Planteamiento del problema y pregunta de investigación . . . . . . . . . . . 8 1.2. Objetivos ................................... 11 1.2.1. Objetivogeneral ........................... 11 1.2.2. Objetivosespecíficos......................... 11 1.3. Hipótesis ................................... 12 1.4. Justificación.................................. 12 1.4.1. Relevanciasocial........................... 12 1.4.2. Contribuciones ............................ 13 2. Capítulo II. Marco teórico conceptual 14 2.1. Antecedentesdelproblema.......................... 14 2.1.1. PEP8................................. 14 2.1.2. MarcoHistórico ........................... 14 2.2. Basesteóricas................................. 25 2.2.1. NLP.................................. 25 2.2.2. Pyspark................................ 25 2.2.3. Preprocesamiento........................... 26 2.2.4. Textosenespaciosvectoriales .................... 27 2.2.4.1. Countvectorizer...................... 27 2.2.4.2. TFIDF........................... 28 2.2.4.3. Word2Vec ......................... 29 1 2.2.5. Métodosdeclustering ........................ 29 2.2.5.1. 2.2.5.2. 2.2.5.3. Distribucionesgaussianasmixtas . . . . . . . . . . . . . 29 Agglomerativeclustering ................. 30 Kmeans .......................... 32 2.2.6. Métodos de Normalización, estandarización y escalación de datos . 33 2.2.6.1. 2.2.6.2. 2.2.6.3. 2.2.6.4. 2.2.6.5. Escala mínima-máxima o normalización mínima-máxima 33 Estandarización o normalización de valor Z-score o orto normalización ....................... 34 EspaciosvectorialesnormadosLp . . . . . . . . . . . . . 35 NormaTaxicaboManhattan ............... 35 Normaeuclidiana ..................... 36 2.2.7. Matrizdeconfusión ......................... 36 2.2.8. RecallyPrecision .......................... 36 2.3. MarcoConceptual............................... 37 2.3.1. Procesamiento ............................ 37 2.3.2. LenguajeNatural........................... 38 2.3.3. Legal ................................. 39 2.4. Estadodelarte................................. 41 2.4.1. Text Similarity in Vector Space Models: A Comparative Study . . . 41 2.4.2. Natural language processing methods for knowledge management—Applying document clustering for fast search and grouping of engineering do- cuments................................ 42 2.4.3. EnsLM: Ensemble Language Model for Data Diversity by Semantic clustering............................... 43 2 2.4.4. A Self-Training Approach for Short Text clustering . . . . . . . . . 45 3. Capítulo III. Contexto metodológico 47 3.1. Diseño..................................... 47 3.1.1. Tecnologíasutilizadas ........................ 47 3.1.2. Diseñodelasolución......................... 47 3.1.2.1. 3.1.2.2. 3.1.2.3. 3.1.2.4. 3.1.2.5. 3.1.2.6. 3.1.2.7. Clasecargadedatos. ................... 49 Clasepreprocesamiento................... 49 Clasemétodosderepresentación. . . . . . . . . . . . . . 50 métodosdeescalacióndelosdatos. . . . . . . . . . . . . 51 Clasemétodosdeclustering. ............... 52 Evaluación. ........................ 52 Visualización ....................... 54 3.1.3. Enfoque................................ 55 3.1.4. Tipo.................................. 55 3.1.5. Diseño ................................ 56 3.1.6. Modelo................................ 56 4. Capítulo IV. Resultados y discusión o análisis 58 4.1. Experimentos ................................. 58 4.2. Característicasdelsistema .......................... 59 4.3. Tiemposdeejecución............................. 60 4.4. Resultadosdelosexperimentos........................ 60 4.4.1. CountVectorizer ........................... 61 4.4.2. TFIDF ................................ 62 3 4.4.3. WordtoVec.............................. 62 4.5. SeleccióndeModelos............................. 63 4.5.1. Modelos por tamaño del vector de representación . . . . . . . . . . 63 4.5.2. Modelospormétodosdeclustering ................. 64 4.5.3. Modelospormétodosdenormalización . . . . . . . . . . . . . . . 66 4.5.4. Modelospormétodosderepresentación . . . . . . . . . . . . . . . 66 Índice de figuras 71 Índice de cuadros 72 Lista de Códigos 72 Referencias 73 A. Temas en la constitución política 82 B. Rutinas 83 B.1. Main,rutinaprincipal) ............................ 83 B.2.PruebasdeCountVectorizer......................... 84 B.3. PruebasdeTFI-DF .............................. 87 B.4. PruebasdeWordtoVec............................ 90 B.5. ClaseModel ................................. 94 B.6. ClaseLoads.................................. 96 B.7. ClasePreprocessings ............................. 99 B.8. ClaseRepresentations ............................ 100 B.9. ClaseClusters ................................ 102 B.10.ClaseEvaluations............................... 107 4 B.11.RutinadeVisualizacióndelosresultados . . . . . . . . . . . . . . . . . . 108
dc.formatapplication/PDF
dc.language.isospa
dc.publisherBiblioteca Digital wdg.biblio
dc.publisherUniversidad de Guadalajara
dc.rights.urihttps://www.riudg.udg.mx/info/politicas.jsp
dc.subjectAsistido
dc.subjectLenguaje.
dc.titleDerecho comparado asistido por computadora: procesamiento de lenguaje natural legal
dc.typeTesis de Maestría
dc.rights.holderUniversidad de Guadalajara
dc.rights.holderVargas Gutiérrez, Héctor Alejandro
dc.coverageGUADALAJARA, JALISCO
dc.type.conacytmasterThesis
dc.degree.nameMAESTRIA EN TECNOLOGIAS DE INFORMACION
dc.degree.departmentCUCEA
dc.degree.grantorUniversidad de Guadalajara
dc.degree.creatorMAESTRO EN TECNOLOGIAS DE INFORMACION
dc.contributor.directorRodriguez Hernandez, Gerardo
Appears in Collections:CUCEA

Files in This Item:
File SizeFormat 
MCUCEA11193.pdf
Restricted Access
6.06 MBAdobe PDFView/Open    Request a copy


Items in RIUdeG are protected by copyright, with all rights reserved, unless otherwise indicated.