Improving an automatically extracted corpus for UMLS Metathesaurus word sense disambiguation

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/85169
Información del item - Informació de l'item - Item information
Título: Improving an automatically extracted corpus for UMLS Metathesaurus word sense disambiguation
Título alternativo: Mejora de un corpus extraído automáticamente para desambiguar términos del UMLS Metathesaurus
Autor/es: Jimeno-Yepes, Antonio | Aronson, Alan R.
Palabras clave: Desambiguación | Extracción de terminología | Dominio Biomédico | Estadísticas de corpus | Categorización Semántica | Word Sense Disambiguation | Term Extraction | Biomedical Domain | Corpus statistics | Semantic Categorization
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: oct-2010
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Jimeno-Yepes, Antonio; Aronson, Alan R. “Improving an automatically extracted corpus for UMLS Metathesaurus word sense disambiguation”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948
Resumen: Anotar a mano un conjunto de ejemplos para entrenar métodos de aprendizaje automático para desambiguar anotaciones con conceptos del UMLS Metathesaurus no es posible debido a su elevado coste. En este artículo, evaluamos dos métodos para mejorar la calidad de un corpus obtenido de manera automática. El primer método busca términos específicos y el segundo filtra falsos positivos. La combinación de los dos métodos obtiene una mejora de 6% en F-measure y un 8% en recall, comparado con el corpus original extraído de manera automática. | Manually annotated data is expensive, so manually covering a large terminological resource like the UMLS Metathesaurus is infeasible. In this paper, we evaluate two approaches used to improve the quality of an automatically extracted corpus to train statistical learners to performWSD. The first one contributes to more specific terms while the second filters out false positives. Using both approaches, we have obtained an improvement on the original automatic extracted corpus of approximately 6% in F-measure and 8% in recall.
URI: http://hdl.handle.net/10045/85169
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 45 (2010)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_45_239-242.pdf606,14 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.