Propuesta de un sistema de clasificación de entidades basado en perfiles e independiente del dominio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/69090
Información del item - Informació de l'item - Item information
Título: Propuesta de un sistema de clasificación de entidades basado en perfiles e independiente del dominio
Título alternativo: Proposal for a domain independent named entity classification system based on profiles
Autor/es: Moreno, Isabel | Romá-Ferri, María Teresa | Moreda, Paloma
Grupo/s de investigación o GITE: Procesamiento del Lenguaje y Sistemas de Información (GPLSI)
Centro, Departamento o Servicio: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos | Universidad de Alicante. Departamento de Enfermería
Palabras clave: Clasificación de entidades nombradas | Perfiles | Aprendizaje automático | Dominio independiente | Español | Corpus desequilibrados | Named entity classification | Profiles | Machine learning | Domain independent | Spanish | Imbalanced corpora
Área/s de conocimiento: Lenguajes y Sistemas Informáticos | Enfermería
Fecha de publicación: sep-2017
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2017, 59: 23-30
Resumen: El reconocimiento y la clasificación de entidades nombradas (RCEN) es clave para muchas aplicaciones de procesamiento de lenguaje natural. Sin embargo, la adaptación de un sistema RCEN resulta costosa, ya que la mayoría solo funcionan adecuadamente en el dominio para el que fueron desarrollados. Considerando esta premisa, se evalúa si un sistema de clasificación de entidades nombradas basado en perfiles y aprendizaje automático obtiene los mismos resultados independientemente del dominio del corpus de entrenamiento. Para ello, hemos experimentado con 6 tipos de entidades de dos dominios en español: general y médico. Aplicando técnicas para equilibrar la distribución de las clases, se ha logrado que la diferencia de F1 entre ambos dominios sea de 0,02 (F1: 50,36 versus 50,38, respectivamente). Lo cual apoya la independencia del dominio del sistema basado en perfiles. | Named Entity Recognition and Classification (NERC) is a prerequisite to other natural language processing applications. Nevertheless, the adaptation of NERC systems is expensive given that most of them only work appropiately on the domain for which they were created. Bearing this idea in mind, a named entity classification system, which is profile and machine learning based, is evaluated to determine if the results are maintained regardeless of the domain of the training corpus. To that end, it is tested on 6 types of entities from two different domains in Spanish: general and medical. Applying techniques to balance class distribution, the difference in terms of F1 between domains is 0.02 points (F1: 50.36 versus 50.38, respectively). These results support the domain independence of our profile-based system.
Patrocinador/es: Investigación financiada por el Gobierno de España (TIN2015-65100-R; TIN2015-65136-C02-2-R) y la Generalitat Valenciana (PROMETEOII/2014/001).
URI: http://hdl.handle.net/10045/69090
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:INV - GPLSI - Artículos de Revistas
Procesamiento del Lenguaje Natural - Nº 59 (2017)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_59_02.pdf976,81 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.