Are the existing training corpora unnecessarily large?

Ballesteros Martínez, Miguel; Herrera de la Cruz, Jesús; Francisco Gilmartín, Virginia; Gervás Gómez-Navarro, Pablo

Are the existing training corpora unnecessarily large?

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/22026

Información del item - Informació de l'item - Item information
Título:	Are the existing training corpora unnecessarily large?
Título alternativo:	¿Son los corpora de dependencias innecesariamente grandes?
Autor/es:	Ballesteros Martínez, Miguel \| Herrera de la Cruz, Jesús \| Francisco Gilmartín, Virginia \| Gervás Gómez-Navarro, Pablo
Palabras clave:	Análsis sintáctico de dependencias \| CoNLL Shared Tasks \| Diseño de corpora \| Optimización \| Dependency parsing \| Design principles for Treebanks \| Optimization
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2012
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	BALLESTEROS, Miguel, et al. “Are the existing training corpora unnecessarily large?”. Procesamiento del Lenguaje Natural. N. 48 (2012). ISSN 1135-5948, pp. 21-27
Resumen:	El tamaño de los corpora de entrenamiento ha sido siempre uno de los cuellos de botella de los analizadores de dependencias, tanto en términos de optimización como en términos de precisión. En previos estudios nos dimos cuenta que los corpora pueden contener proporciones significativas de datos redundantes al nivel de árboles sintácticos. Dado que el desarrollo de estos tipos de corpora requiere un gran esfuerzo consideramos que un proceso apropiado para seleccionar las frases que se incluyen en el producto final pueden proporcionar sistemas entrenados con los mismos resultados (o incluso mejores) utilizando menor cantidad de frases. Este argumento se demuestra en el estudio llevado a cabo que se expone en este artículo. \| This paper addresses the problem of optimizing the training treebank data because the size and quality of the data has always been a bottleneck for the purposes of training. In previous studies we realized that current corpora used for training machine learning–based dependency parsers contain a significant proportion of redundant information at the syntactic structure level. Since the development of such training corpora involves a big effort, we argue that an appropriate process for selecting the sentences to be included in them can result in having parsing models as accurate as the ones given when training with bigger – non optimized corpora (or alternatively, bigger accuracy for an equivalent annotation effort). This argument is supported by the results of the study we carried out, which is presented in this paper. Therefore, this paper demonstrates that the training corpora contain more information than needed for training accurate data–driven dependency parsers.
Patrocinador/es:	This research is funded by the Spanish Ministry of Education and Science (TIN2009-14659-C03-01 Project), Universidad Complutense de Madrid and Banco Santander Central Hispano (GR58/08 Research Group Grant).
URI:	http://hdl.handle.net/10045/22026
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Revisión científica:	si
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 48 (2012)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_48_02.pdf		1,03 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo