On the relevance of search space reduction in automatic plagiarism detection

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/11708
Información del item - Informació de l'item - Item information
Título: On the relevance of search space reduction in automatic plagiarism detection
Título alternativo: Sobre la importancia de la reducción del espacio de búsqueda en la detección automática de plagio
Autor/es: Barrón Cedeño, Alberto | Rosso, Paolo
Palabras clave: Detección de plagio | Reducción del espacio de búsqueda | Similitud de texto | Plagiarism detection | Search space reduction | Text similarity
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2009
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: BARRÓN CEDEÑO, Alberto; ROSSO, Paolo. “On the relevance of search space reduction in automatic plagiarism detection”. Procesamiento del lenguaje natural. N. 43 (sept. 2009). ISSN 1135-5948, pp. 141-149
Resumen: En la detección automática de plagio con referencia, los fragmentos de texto de un documento sospechoso son buscados de manera exhaustiva en un conjunto de documentos originales (de referencia) con el objetivo de determinar si han sido plagiados o no. Uno de los factores más importantes para el éxito de este tipo de aplicaciones es el tamaño del corpus de referencia el cual, al mismo tiempo, puede representar un problema al considerar el desempeño y la precisión. En este artículo, abordamos la detección automática de plagio con referencia analizando el impacto de una etapa previa de reducción del espacio de búsqueda (conformado por los documentos originales en el corpus de referencia). Nuestros experimentos sobre el corpus METER muestran una mejora en la Precisión y Cobertura de los resultados obtenidos cuando la reducción del espacio de búsqueda es realizada al principio del proceso de detección de plagio. | In automatic plagiarism detection with reference, the text fragments in a suspicious document are exhaustively searched in a set of original (reference) documents in order to determine whether they have been plagiarised or not. One of the most important factors for the success of this kind of applications is the size of the reference corpus that, at the same time, may represent a problem when we consider performance and precision. In this paper, we approach automatic plagiarism detection analysing the impact of a preliminary search space reduction (composed of the original documents in the reference corpus). Our experiments over the METER corpus show that the Precision and Recall of the obtained results are improved when a search space reduction is applied at the beginning of a plagiarism detection process.
Patrocinador/es: This work was partially funded by the MCyT TIN2006-15265-C06-04 research project and the CONACyT-MEXICO 192021/302009 grant.
URI: http://hdl.handle.net/10045/11708
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 43 (septiembre 2009)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_43_16.pdf165,23 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.