A named entity recognition system based on a finite automata acquisition algorithm

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/1330
Información del item - Informació de l'item - Item information
Title: A named entity recognition system based on a finite automata acquisition algorithm
Authors: Padró Cirera, Montserrat | Padró Cirera, Lluís
Keywords: Reconocimiento de nombres propios | Autómatas de estados finitos | Aprendizaje automático | Named entity recognition | Finite state automaton | Machine learning
Issue Date: Sep-2005
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: PADRÓ CIRERA, Montserrat; PADRÓ CIRERA, Lluís. “A named entity recognition system based on a finite automata acquisition algorithm”. Procesamiento del lenguaje natural. Nº 35 (sept. 2005), pp. 319-326
Abstract: En este artículo presentamos un nuevo sistema para el reconocimiento de nombres propios en español. Este sistema está basado en el algoritmo CSSR (Causal-States Splitting Reconstruction) (Shalizi and Shalizi, 2004) que aprende un autómata de estados finitos partiendo de datos secuenciales. Los resultados obtenidos son ligeramente peores que los mejores sistemas presentados en la “shared task” del CoNLL 2002, pero dada la simplicidad de los atributos utilizados, estos resultados son realmente prometedores y creemos que pueden ser fácilmente mejorados introduciendo más información al sistema. | In this work, a new Named Entity Recognition system for Spanish is presented. This system is based on Causal-State Splitting Reconstruction algorithm (Shalizi and Shalizi, 2004), which learns a finite automaton from data sequences. The obtained results are slightly below the best systems presented in CoNLL 2002 shared task, though given the simplicity of the used features, they are really promising. Furthermore, we think that these results can be easily improved by introducing more information in the system.
Sponsor: This research is being funded by the Catalan Government Research Department (DURSI), by the Spanish Ministry of Science and Technology (ALIADO TIC2002-04447-C02) and by the European Comission projects: Meaning (IST-2001-34460) and CHIL (IST-2004-506909).
URI: http://hdl.handle.net/10045/1330
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 35 (septiembre 2005)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_35_39.pdf101,01 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.