Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/133342
Información del item - Informació de l'item - Item information
Títol: Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares
Autors: Pilaluisa, José
Director de la investigació: Tomás, David
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: Procesamiento del lenguaje natural | Modelos de lenguaje | Recuperación de información | Integración de datos | Creación de corpus
Data de creació: 2022
Data de publicació: 2023
Data de lectura: 19-de gener-2023
Editor: Universidad de Alicante
Resum: Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado.
URI: http://hdl.handle.net/10045/133342
Idioma: spa
Tipus: info:eu-repo/semantics/doctoralThesis
Drets: Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Apareix a la col·lecció: Tesis doctorals

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
Thumbnailtesis_jose_ramiro_pilaluisa_quinatoa.pdf13 MBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons