Derecho comparado asistido por computadora: procesamiento de lenguaje natural legal

Vargas Gutiérrez, Héctor Alejandro

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12104/104762

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Cruz Herrera, Ma. Hidalia
dc.contributor.advisor	Medellín Serna, Luis Antonio
dc.contributor.advisor	Cedillo Elias, Elsa Julieta
dc.contributor.advisor	Martínez Mendoza, Jonathan De Jesús
dc.contributor.author	Vargas Gutiérrez, Héctor Alejandro
dc.date.accessioned	2024-09-18T14:54:17Z	-
dc.date.available	2024-09-18T14:54:17Z	-
dc.date.issued	2021-12-10
dc.identifier.uri	https://wdg.biblio.udg.mx
dc.identifier.uri	https://hdl.handle.net/20.500.12104/104762	-
dc.description.abstract	La categorización de texto es un problema fundamental y bien conocido en el procesa- miento del lenguaje natural (PNL). Sin embargo, solo unas pocas investigaciones, si las hay, han utilizado la PNL para abordar el tema del derecho comparado. En este artículo, sugerimos utilizar una serie de transformaciones de texto en espacios vectoriales para los artículos de las constituciones políticas de los estados mexicanos incluyendo la CPEUM, así como 6 un conjunto de enfoques de agrupamiento o clustering de estado del arte, para ayudar en el proceso del derecho comparado. Para este efecto, comenzamos recopilando las leyes y posteriormente preprocesando cada artículo, a continuación se hacen las transformaciones en espacios vectoriales para proceder al agrupamiento y darle significado a estos grupos. Este mismo procedimiento aplicado a diferentes casos de prueba nos da el modelo que es evaluado con una métrica integrada, para así evitar el vicio del sobre ajuste para posteriormente escoger el mejor de todos los modelos que generaliza el comportamiento para cualquier entrada o caso que se presente.
dc.description.tableofcontents	Índice 1 1. Capítulo I. Problemática y/o contexto del problema 8 1.1. Planteamiento del problema y pregunta de investigación . . . . . . . . . . . 8 1.2. Objetivos ................................... 11 1.2.1. Objetivogeneral ........................... 11 1.2.2. Objetivosespecíficos......................... 11 1.3. Hipótesis ................................... 12 1.4. Justificación.................................. 12 1.4.1. Relevanciasocial........................... 12 1.4.2. Contribuciones ............................ 13 2. Capítulo II. Marco teórico conceptual 14 2.1. Antecedentesdelproblema.......................... 14 2.1.1. PEP8................................. 14 2.1.2. MarcoHistórico ........................... 14 2.2. Basesteóricas................................. 25 2.2.1. NLP.................................. 25 2.2.2. Pyspark................................ 25 2.2.3. Preprocesamiento........................... 26 2.2.4. Textosenespaciosvectoriales .................... 27 2.2.4.1. Countvectorizer...................... 27 2.2.4.2. TFIDF........................... 28 2.2.4.3. Word2Vec ......................... 29 1 2.2.5. Métodosdeclustering ........................ 29 2.2.5.1. 2.2.5.2. 2.2.5.3. Distribucionesgaussianasmixtas . . . . . . . . . . . . . 29 Agglomerativeclustering ................. 30 Kmeans .......................... 32 2.2.6. Métodos de Normalización, estandarización y escalación de datos . 33 2.2.6.1. 2.2.6.2. 2.2.6.3. 2.2.6.4. 2.2.6.5. Escala mínima-máxima o normalización mínima-máxima 33 Estandarización o normalización de valor Z-score o orto normalización ....................... 34 EspaciosvectorialesnormadosLp . . . . . . . . . . . . . 35 NormaTaxicaboManhattan ............... 35 Normaeuclidiana ..................... 36 2.2.7. Matrizdeconfusión ......................... 36 2.2.8. RecallyPrecision .......................... 36 2.3. MarcoConceptual............................... 37 2.3.1. Procesamiento ............................ 37 2.3.2. LenguajeNatural........................... 38 2.3.3. Legal ................................. 39 2.4. Estadodelarte................................. 41 2.4.1. Text Similarity in Vector Space Models: A Comparative Study . . . 41 2.4.2. Natural language processing methods for knowledge management—Applying document clustering for fast search and grouping of engineering do- cuments................................ 42 2.4.3. EnsLM: Ensemble Language Model for Data Diversity by Semantic clustering............................... 43 2 2.4.4. A Self-Training Approach for Short Text clustering . . . . . . . . . 45 3. Capítulo III. Contexto metodológico 47 3.1. Diseño..................................... 47 3.1.1. Tecnologíasutilizadas ........................ 47 3.1.2. Diseñodelasolución......................... 47 3.1.2.1. 3.1.2.2. 3.1.2.3. 3.1.2.4. 3.1.2.5. 3.1.2.6. 3.1.2.7. Clasecargadedatos. ................... 49 Clasepreprocesamiento................... 49 Clasemétodosderepresentación. . . . . . . . . . . . . . 50 métodosdeescalacióndelosdatos. . . . . . . . . . . . . 51 Clasemétodosdeclustering. ............... 52 Evaluación. ........................ 52 Visualización ....................... 54 3.1.3. Enfoque................................ 55 3.1.4. Tipo.................................. 55 3.1.5. Diseño ................................ 56 3.1.6. Modelo................................ 56 4. Capítulo IV. Resultados y discusión o análisis 58 4.1. Experimentos ................................. 58 4.2. Característicasdelsistema .......................... 59 4.3. Tiemposdeejecución............................. 60 4.4. Resultadosdelosexperimentos........................ 60 4.4.1. CountVectorizer ........................... 61 4.4.2. TFIDF ................................ 62 3 4.4.3. WordtoVec.............................. 62 4.5. SeleccióndeModelos............................. 63 4.5.1. Modelos por tamaño del vector de representación . . . . . . . . . . 63 4.5.2. Modelospormétodosdeclustering ................. 64 4.5.3. Modelospormétodosdenormalización . . . . . . . . . . . . . . . 66 4.5.4. Modelospormétodosderepresentación . . . . . . . . . . . . . . . 66 Índice de figuras 71 Índice de cuadros 72 Lista de Códigos 72 Referencias 73 A. Temas en la constitución política 82 B. Rutinas 83 B.1. Main,rutinaprincipal) ............................ 83 B.2.PruebasdeCountVectorizer......................... 84 B.3. PruebasdeTFI-DF .............................. 87 B.4. PruebasdeWordtoVec............................ 90 B.5. ClaseModel ................................. 94 B.6. ClaseLoads.................................. 96 B.7. ClasePreprocessings ............................. 99 B.8. ClaseRepresentations ............................ 100 B.9. ClaseClusters ................................ 102 B.10.ClaseEvaluations............................... 107 4 B.11.RutinadeVisualizacióndelosresultados . . . . . . . . . . . . . . . . . . 108
dc.format	application/PDF
dc.language.iso	spa
dc.publisher	Biblioteca Digital wdg.biblio
dc.publisher	Universidad de Guadalajara
dc.rights.uri	https://www.riudg.udg.mx/info/politicas.jsp
dc.subject	Asistido
dc.subject	Lenguaje.
dc.title	Derecho comparado asistido por computadora: procesamiento de lenguaje natural legal
dc.type	Tesis de Maestría
dc.rights.holder	Universidad de Guadalajara
dc.rights.holder	Vargas Gutiérrez, Héctor Alejandro
dc.coverage	GUADALAJARA, JALISCO
dc.type.conacyt	masterThesis
dc.degree.name	MAESTRIA EN TECNOLOGIAS DE INFORMACION
dc.degree.department	CUCEA
dc.degree.grantor	Universidad de Guadalajara
dc.degree.creator	MAESTRO EN TECNOLOGIAS DE INFORMACION
dc.contributor.director	Rodriguez Hernandez, Gerardo
Aparece en las colecciones:	CUCEA

Ficheros en este ítem:

Fichero	Tamaño	Formato
MCUCEA11193.pdf Acceso Restringido	6.06 MB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro sencillo del ítem