Detección de plagio en documentos: sistema externo monolingüe de altas prestaciones basado en n-gramas contextuales
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/14723
Título: | Detección de plagio en documentos: sistema externo monolingüe de altas prestaciones basado en n-gramas contextuales |
---|---|
Título alternativo: | Plagiarism detection in documents: high performance monolingual external analysis system based on contextual n-grams |
Autor/es: | Rodríguez Torrejón, Diego Antonio | Martín Ramos, José Manuel |
Palabras clave: | Detección de plagio | N-grama | N-grama contextual | Monotonía referencial | Recuperación de información | Plagiarism detection | N-gram | Contextual n-gram | Referential monotonity | Information retrieval |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | oct-2010 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | RODRÍGUEZ TORREJÓN, Diego Antonio; MARTÍN RAMOS, José Manuel. “Detección de plagio en documentos: sistema externo monolingüe de altas prestaciones basado en n-gramas contextuales”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948 |
Resumen: | En este artículo se presenta una propuesta de sistema de detección de plagio externo monolingüe basada en una modificación del concepto de n-grama (“n-grama contextual”), un nuevo motor de búsqueda basado en dicho concepto, y una nueva estrategia de determinación del plagio y sus límites (“monotonía referencial”). Los resultados de evaluación obtenidos son comparables a los del primer clasificado en la PAN'09, aunque obtenidos con un muy inferior coste computacional (tiempo de ejecución entre 30 y 45 minutos en un PC portátil sin uso de programación concurrente), lo que lo convierte en una muy interesante alternativa a explotar. | In this paper a new approach is shown for a monolingual extrinsic plagiarism detection system based on a modification of the "n-gram" concept (named “contextual n-gram”), a new high performance Information Retrieval engine based on this new concept, and a new strategy (“referential monotonity”) for plagiarism detection and its limits. The assessment results can be compared with those results carried out by the winner team in PAN'09, but these are achieved with very low computational cost (results available between 30 and 45 minutes on a single laptop machine and without using concurrent programming) compared with the other existing works. Because of that, it is a very interesting proposal to exploit. |
URI: | http://hdl.handle.net/10045/14723 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Revisión científica: | si |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 45 (2010) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_45_21.pdf | 183,87 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.