Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales

Doval, Yerai; Gómez Rodríguez, Carlos; Vilares Ferro, Jesús

Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57754

Información del item - Informació de l'item - Item information
Título:	Segmentación de palabras en español mediante modelos del lenguaje basados en redes neuronales
Título alternativo:	Spanish word segmentation through neural language models
Autor/es:	Doval, Yerai \| Gómez Rodríguez, Carlos \| Vilares Ferro, Jesús
Palabras clave:	Segmentación de palabras \| Ensamblado de palabras \| Español \| Modelos del lenguaje basados en redes neuronales \| Word segmentation \| Word assembly \| Spanish \| Neural language models
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2016
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2016, 57: 75-82
Resumen:	En las plataformas de microblogging abundan ciertos tokens especiales como los hashtags o las menciones en los que un grupo de palabras se escriben juntas sin espaciado entre ellas; p.ej.: #añobisiesto o @ryanreynoldsnet. Debido a la forma en que se escriben este tipo de textos, este fenómeno de ensamblado de palabras puede aparecer junto a su opuesto, la segmentación de palabras, afectando a cualquier elemento del texto y dificultando su análisis. En este trabajo se muestra un enfoque algorítmico que utiliza como base un modelo del lenguaje - en nuestro caso concreto uno basado en redes neuronales - para resolver el problema de la segmentación y ensamblado de palabras, en el que se trata de recuperar el espaciado estándar de las palabras que han sufrido alguna de estas transformaciones añadiendo o quitando espacios donde corresponda. Los resultados obtenidos son prometedores e indican que tras un mayor refinamiento del modelo del lenguaje se podrá sobrepasar al estado del arte. \| In social media platforms special tokens abound such as hashtags and mentions in which multiple words are written together without spacing between them; e.g. #leapyear or @ryanreynoldsnet. Due to the way this kind of texts are written, this word assembly phenomenon can appear with its opposite, word segmentation, affecting any token of the text and making it more difficult to perform analysis on them. In this work we show an algorithmic approach based on a language model - in this case a neural model - to solve the problem of the segmentation and assembly of words, in which we try to recover the standard spacing of the words that have suffered one of these transformations by adding or deleting spaces when necessary. The promising results indicate that after some further refinement of the language model it will be possible to surpass the state of the art.
Patrocinador/es:	Este trabajo ha sido parcialmente financiado por el Ministerio de Economía y Competitividad español a través de los proyectos FFI2014-51978-C2-1-R y FFI2014-51978-C2-2-R, y por la Xunta de Galicia a través del programa Oportunius.
URI:	http://hdl.handle.net/10045/57754
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_57_08.pdf		425,83 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo