Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/40020
Información del item - Informació de l'item - Item information
Título: Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data
Título alternativo: PoS tagging and Named Entitiy Recognition in a Big Data environment
Autor/es: Gamallo Otero, Pablo | Pichel Campos, Juan Carlos | García González, Marcos | Abuín Mosquera, José Manuel | Fernández Pena, Tomás
Palabras clave: Análisis morfosintáctico | Reconocimiento y clasificación de entidades nombradas | Big data | Computación paralela | PoS tagging | Named entity recognition | Parallel computing
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2014
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2014, 53: 17-24
Resumen: Este artículo describe una suite de módulos lingüísticos para el castellano, basado en una arquitectura en tuberías, que incluye tareas de análisis morfosintáctico así como de reconocimiento y clasificación de entidades nombradas. Se han aplicado técnicas de paralelización en un entorno Big Data para conseguir que la suite de módulos sea más eficiente y escalable y, de este modo, reducir de forma significativa los tiempos de cómputo con los que poder abordar problemas a la escala de la Web. Los módulos han sido desarrollados con técnicas básicas para facilitar su integración en entornos distribuidos, con un rendimiento próximo al estado del arte. | This article describes a suite of linguistic modules for the Spanish language based on a pipeline architecture, which contains tasks for PoS tagging and Named Entity Recognition and Classification (NERC). We have applied run-time parallelization techniques in a Big Data environment in order to make the suite of modules more efficient and scalable, and thereby to reduce computation time in a significant way. Therefore, we can address problems at Web scale. The linguistic modules have been developed using basic NLP techniques in order to easily integrate them in distributed computing environments. The qualitative performance of the modules is close the state of the art.
Patrocinador/es: Este trabajo ha sido subvencionado con cargo a los proyectos HPCPLN - Ref:EM13/041 (Programa Emergentes, Xunta de Galicia), Celtic - Ref:2012-CE138 y Plastic - Ref:2013-CE298 (Programa Feder-Innterconecta).
URI: http://hdl.handle.net/10045/40020
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Versión del editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 53 (2014)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_53_01.pdf902,74 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.