Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12104/104762
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | Cruz Herrera, Ma. Hidalia | |
dc.contributor.advisor | Medellín Serna, Luis Antonio | |
dc.contributor.advisor | Cedillo Elias, Elsa Julieta | |
dc.contributor.advisor | Martínez Mendoza, Jonathan De Jesús | |
dc.contributor.author | Vargas Gutiérrez, Héctor Alejandro | |
dc.date.accessioned | 2024-09-18T14:54:17Z | - |
dc.date.available | 2024-09-18T14:54:17Z | - |
dc.date.issued | 2021-12-10 | |
dc.identifier.uri | https://wdg.biblio.udg.mx | |
dc.identifier.uri | https://hdl.handle.net/20.500.12104/104762 | - |
dc.description.abstract | La categorización de texto es un problema fundamental y bien conocido en el procesa- miento del lenguaje natural (PNL). Sin embargo, solo unas pocas investigaciones, si las hay, han utilizado la PNL para abordar el tema del derecho comparado. En este artículo, sugerimos utilizar una serie de transformaciones de texto en espacios vectoriales para los artículos de las constituciones políticas de los estados mexicanos incluyendo la CPEUM, así como 6 un conjunto de enfoques de agrupamiento o clustering de estado del arte, para ayudar en el proceso del derecho comparado. Para este efecto, comenzamos recopilando las leyes y posteriormente preprocesando cada artículo, a continuación se hacen las transformaciones en espacios vectoriales para proceder al agrupamiento y darle significado a estos grupos. Este mismo procedimiento aplicado a diferentes casos de prueba nos da el modelo que es evaluado con una métrica integrada, para así evitar el vicio del sobre ajuste para posteriormente escoger el mejor de todos los modelos que generaliza el comportamiento para cualquier entrada o caso que se presente. | |
dc.description.tableofcontents | Índice 1 1. Capítulo I. Problemática y/o contexto del problema 8 1.1. Planteamiento del problema y pregunta de investigación . . . . . . . . . . . 8 1.2. Objetivos ................................... 11 1.2.1. Objetivogeneral ........................... 11 1.2.2. Objetivosespecíficos......................... 11 1.3. Hipótesis ................................... 12 1.4. Justificación.................................. 12 1.4.1. Relevanciasocial........................... 12 1.4.2. Contribuciones ............................ 13 2. Capítulo II. Marco teórico conceptual 14 2.1. Antecedentesdelproblema.......................... 14 2.1.1. PEP8................................. 14 2.1.2. MarcoHistórico ........................... 14 2.2. Basesteóricas................................. 25 2.2.1. NLP.................................. 25 2.2.2. Pyspark................................ 25 2.2.3. Preprocesamiento........................... 26 2.2.4. Textosenespaciosvectoriales .................... 27 2.2.4.1. Countvectorizer...................... 27 2.2.4.2. TFIDF........................... 28 2.2.4.3. Word2Vec ......................... 29 1 2.2.5. Métodosdeclustering ........................ 29 2.2.5.1. 2.2.5.2. 2.2.5.3. Distribucionesgaussianasmixtas . . . . . . . . . . . . . 29 Agglomerativeclustering ................. 30 Kmeans .......................... 32 2.2.6. Métodos de Normalización, estandarización y escalación de datos . 33 2.2.6.1. 2.2.6.2. 2.2.6.3. 2.2.6.4. 2.2.6.5. Escala mínima-máxima o normalización mínima-máxima 33 Estandarización o normalización de valor Z-score o orto normalización ....................... 34 EspaciosvectorialesnormadosLp . . . . . . . . . . . . . 35 NormaTaxicaboManhattan ............... 35 Normaeuclidiana ..................... 36 2.2.7. Matrizdeconfusión ......................... 36 2.2.8. RecallyPrecision .......................... 36 2.3. MarcoConceptual............................... 37 2.3.1. Procesamiento ............................ 37 2.3.2. LenguajeNatural........................... 38 2.3.3. Legal ................................. 39 2.4. Estadodelarte................................. 41 2.4.1. Text Similarity in Vector Space Models: A Comparative Study . . . 41 2.4.2. Natural language processing methods for knowledge management—Applying document clustering for fast search and grouping of engineering do- cuments................................ 42 2.4.3. EnsLM: Ensemble Language Model for Data Diversity by Semantic clustering............................... 43 2 2.4.4. A Self-Training Approach for Short Text clustering . . . . . . . . . 45 3. Capítulo III. Contexto metodológico 47 3.1. Diseño..................................... 47 3.1.1. Tecnologíasutilizadas ........................ 47 3.1.2. Diseñodelasolución......................... 47 3.1.2.1. 3.1.2.2. 3.1.2.3. 3.1.2.4. 3.1.2.5. 3.1.2.6. 3.1.2.7. Clasecargadedatos. ................... 49 Clasepreprocesamiento................... 49 Clasemétodosderepresentación. . . . . . . . . . . . . . 50 métodosdeescalacióndelosdatos. . . . . . . . . . . . . 51 Clasemétodosdeclustering. ............... 52 Evaluación. ........................ 52 Visualización ....................... 54 3.1.3. Enfoque................................ 55 3.1.4. Tipo.................................. 55 3.1.5. Diseño ................................ 56 3.1.6. Modelo................................ 56 4. Capítulo IV. Resultados y discusión o análisis 58 4.1. Experimentos ................................. 58 4.2. Característicasdelsistema .......................... 59 4.3. Tiemposdeejecución............................. 60 4.4. Resultadosdelosexperimentos........................ 60 4.4.1. CountVectorizer ........................... 61 4.4.2. TFIDF ................................ 62 3 4.4.3. WordtoVec.............................. 62 4.5. SeleccióndeModelos............................. 63 4.5.1. Modelos por tamaño del vector de representación . . . . . . . . . . 63 4.5.2. Modelospormétodosdeclustering ................. 64 4.5.3. Modelospormétodosdenormalización . . . . . . . . . . . . . . . 66 4.5.4. Modelospormétodosderepresentación . . . . . . . . . . . . . . . 66 Índice de figuras 71 Índice de cuadros 72 Lista de Códigos 72 Referencias 73 A. Temas en la constitución política 82 B. Rutinas 83 B.1. Main,rutinaprincipal) ............................ 83 B.2.PruebasdeCountVectorizer......................... 84 B.3. PruebasdeTFI-DF .............................. 87 B.4. PruebasdeWordtoVec............................ 90 B.5. ClaseModel ................................. 94 B.6. ClaseLoads.................................. 96 B.7. ClasePreprocessings ............................. 99 B.8. ClaseRepresentations ............................ 100 B.9. ClaseClusters ................................ 102 B.10.ClaseEvaluations............................... 107 4 B.11.RutinadeVisualizacióndelosresultados . . . . . . . . . . . . . . . . . . 108 | |
dc.format | application/PDF | |
dc.language.iso | spa | |
dc.publisher | Biblioteca Digital wdg.biblio | |
dc.publisher | Universidad de Guadalajara | |
dc.rights.uri | https://www.riudg.udg.mx/info/politicas.jsp | |
dc.subject | Asistido | |
dc.subject | Lenguaje. | |
dc.title | Derecho comparado asistido por computadora: procesamiento de lenguaje natural legal | |
dc.type | Tesis de Maestría | |
dc.rights.holder | Universidad de Guadalajara | |
dc.rights.holder | Vargas Gutiérrez, Héctor Alejandro | |
dc.coverage | GUADALAJARA, JALISCO | |
dc.type.conacyt | masterThesis | |
dc.degree.name | MAESTRIA EN TECNOLOGIAS DE INFORMACION | |
dc.degree.department | CUCEA | |
dc.degree.grantor | Universidad de Guadalajara | |
dc.degree.creator | MAESTRO EN TECNOLOGIAS DE INFORMACION | |
dc.contributor.director | Rodriguez Hernandez, Gerardo | |
Aparece en las colecciones: | CUCEA |
Ficheros en este ítem:
Fichero | Tamaño | Formato | |
---|---|---|---|
MCUCEA11193.pdf Acceso Restringido | 6.06 MB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de RIUdeG están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.