Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/24245
Información del item - Informació de l'item - Item information
Título: Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA
Título alternativo: Theory and practice of lemmatization of the Multilingual Digital Corpus of Old and Contemporary Texts-IVITRA
Autor/es: Antolí Martínez, Jordi M.
Grupo/s de investigación o GITE: Traducció de Clàssics Valencians a Llengües Europees. Estudis Literaris, Lingüístics i Traductològics Comparats
Centro, Departamento o Servicio: Universidad de Alicante. Departamento de Filología Catalana
Palabras clave: Lematització | Categorització | Corpus informatitzat | Etiquetatge | Filologia | TIC | Català antic | Lemmatization | Categorisation | Digital corpus | Tagging | Philology | ICT | Old Catalan
Área/s de conocimiento: Filología Catalana
Fecha de publicación: 2011
Editor: Universitat d'Alacant. Departament de Filologia Catalana
Cita bibliográfica: ANTOLÍ MARTÍNEZ, Jordi M. “Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA”. Ítaca. Revista de Filologia. Núm. 2 (2011). ISSN 2172-5500, pp. 253-269
Resumen: Al si del projecte institucional de recerca IVITRA (Institut Virtual Internacional de Traducció) s'està desenvolupant el Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis mitjançant un seguit d'eines informàtiques (els programes Introcorpus®, Mettagging®, Ivitrarech ® i el Metaconcor®); a grans trets, aquesta tecnologia permet introduir, processar, emmagatzemar i recuperar de manera selectiva la informació d'un corpus textual. En concret, el processament dels textos que es fa comporta l'assignació de la categoria, el lema, l'idioma de cada un dels mots, primer de manera automàtica i després, mitjançant el programa Mettagging®, de manera detallada i individualitzada en aquells casos en què, bé la grafia, bé la categoria, bé el règim o bé qualsevol altre element morfosintàctic, lèxic o semàntic, fa necessari calibrar més específicament una determinada forma, construcció, locució, etc. Tot aquest procés i, en concret, la lematització, comporta una relació entre el treball filològic i les noves tecnologies que fa necessària una certa reflexió. | In the framework of the institutional research project IVITRA (International Virtual Institute for Translation) a Multilingual Digital Corpus of Old and Contemporary Texts has been developed, with the help of a series of software tools (the programmes Introcorpus®, Mettagging®, Ivitratech® and Metaconcor®). Along general lines, these ICT tools allow the users to enter, process, store and recover the information from the text corpus. More precisely, the text processing consists, in the first place, of an automatic assignment of a category, a lemma and a language to each word. Subsequently, with the help of Mettagging®, a more accurate assignment takes place in the cases where the spelling, the category, the government, or any other morphosyntactic, lexical or semantic element, makes it necessary, thus characterizing more specifically a determinate form, construction, phrase, etc. This whole process, and specifically the lemmatization, combines ICT with philological research, in a way that requires a certain degree of reflection.
URI: http://hdl.handle.net/10045/24245 | http://dx.doi.org/10.14198/ITACA2011.2.11
ISSN: 2172-5500
DOI: 10.14198/ITACA2011.2.11
Idioma: cat
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Ítaca. Revista de Filologia - 2011, Núm. 2
INV - TRACLAVAL - Articles de Revistes

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailItaca_02_11.pdf218,29 kBAdobe PDFAbrir Vista previa

Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.