Propuesta de un sistema de clasificación de entidades basado en perfiles e independiente del dominio
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/69090
Título: | Propuesta de un sistema de clasificación de entidades basado en perfiles e independiente del dominio |
---|---|
Título alternativo: | Proposal for a domain independent named entity classification system based on profiles |
Autor/es: | Moreno, Isabel | Romá-Ferri, María Teresa | Moreda, Paloma |
Grupo/s de investigación o GITE: | Procesamiento del Lenguaje y Sistemas de Información (GPLSI) |
Centro, Departamento o Servicio: | Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos | Universidad de Alicante. Departamento de Enfermería |
Palabras clave: | Clasificación de entidades nombradas | Perfiles | Aprendizaje automático | Dominio independiente | Español | Corpus desequilibrados | Named entity classification | Profiles | Machine learning | Domain independent | Spanish | Imbalanced corpora |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos | Enfermería |
Fecha de publicación: | sep-2017 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2017, 59: 23-30 |
Resumen: | El reconocimiento y la clasificación de entidades nombradas (RCEN) es clave para muchas aplicaciones de procesamiento de lenguaje natural. Sin embargo, la adaptación de un sistema RCEN resulta costosa, ya que la mayoría solo funcionan adecuadamente en el dominio para el que fueron desarrollados. Considerando esta premisa, se evalúa si un sistema de clasificación de entidades nombradas basado en perfiles y aprendizaje automático obtiene los mismos resultados independientemente del dominio del corpus de entrenamiento. Para ello, hemos experimentado con 6 tipos de entidades de dos dominios en español: general y médico. Aplicando técnicas para equilibrar la distribución de las clases, se ha logrado que la diferencia de F1 entre ambos dominios sea de 0,02 (F1: 50,36 versus 50,38, respectivamente). Lo cual apoya la independencia del dominio del sistema basado en perfiles. | Named Entity Recognition and Classification (NERC) is a prerequisite to other natural language processing applications. Nevertheless, the adaptation of NERC systems is expensive given that most of them only work appropiately on the domain for which they were created. Bearing this idea in mind, a named entity classification system, which is profile and machine learning based, is evaluated to determine if the results are maintained regardeless of the domain of the training corpus. To that end, it is tested on 6 types of entities from two different domains in Spanish: general and medical. Applying techniques to balance class distribution, the difference in terms of F1 between domains is 0.02 points (F1: 50.36 versus 50.38, respectively). These results support the domain independence of our profile-based system. |
Patrocinador/es: | Investigación financiada por el Gobierno de España (TIN2015-65100-R; TIN2015-65136-C02-2-R) y la Generalitat Valenciana (PROMETEOII/2014/001). |
URI: | http://hdl.handle.net/10045/69090 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisión científica: | si |
Versión del editor: | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln |
Aparece en las colecciones: | INV - GPLSI - Artículos de Revistas Procesamiento del Lenguaje Natural - Nº 59 (2017) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_59_02.pdf | 976,81 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.