Uso de la detección de bigramas para categorización de texto en un dominio científico
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/13927
Título: | Uso de la detección de bigramas para categorización de texto en un dominio científico |
---|---|
Título alternativo: | Using bigrams detection for text categorization in scientific domain |
Autor/es: | Montejo Ráez, Arturo | Perea Ortega, José Manuel | Martín Valdivia, María Teresa | Ureña López, Luis Alfonso |
Palabras clave: | Bigramas | Categorización de texto | Multi-palabras | Colección HEP | Bigrams | Text categorization | Multi-words | HEP collection |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | abr-2010 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | MONTEJO RÁEZ, Arturo, et al. “Uso de la detección de bigramas para categorización de texto en un dominio científico”. Procesamiento del Lenguaje Natural. N. 44 (abr. 2010). ISSN 1135-5948, pp. 91-98 |
Resumen: | En este artículo se presentan una serie de experimentos aplicando la técnica de detección de multi-palabras para categorización de texto en un dominio científico. Para ello, se ha utilizado parte de la colección de artículos científicos de Física de Altas Energías (HEP) proporcionada por el Laboratorio Europeo de Física de Partículas (CERN). Los algoritmos de aprendizaje supervisado empleados para la experimentación han sido Rocchio y PLAUM. La técnica de detección de multi-palabras utilizada se ha limitado a secuencias fijas de dos términos como máximo, es decir, lo que se conoce como bigramas. El objetivo de este trabajo ha sido comprobar si el uso de bigramas frecuentes como términos característicos puede ser una mejora para la tarea de categorización de textos en este dominio específico, llegando a la conclusión de que la detección de multi-palabras no merece la pena ser usada para esta tarea en el dominio HEP. | This paper presents some experiments using the technique of multi-words detection for text categorization in scientific domain. We have used part of the collection of scientific papers of High Energy Physics (HEP) provided by the European Laboratory of Particle Physics (CERN). The supervised machine learning algorithms employed have been Rocchio and PLAUM. The technique of multi-words detection used has been limited to fixed sequences of maximum two terms, known as bigrams. The aim of this study is to determine whether the use of frequent bigrams as unique features may be an improvement for text categorization task in this specific domain. Our conclusion is that multi-words detection should not be used for this task in the HEP domain. |
Patrocinador/es: | Esta investigación ha sido parcialmente financiada por el Gobierno Español, proyecto TEXT-COOL 2.0 (TIN2009-13391-C04-02), por la Junta de Andalucía, proyecto GeOasis (P08-TIC-41999) y por la Universidad de Jaén, proyecto RRFC/PP2008/UJA-08-16-14. |
URI: | http://hdl.handle.net/10045/13927 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Revisión científica: | si |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 44 (abril 2010) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_44_11.pdf | 1,29 MB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.