Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/24245
Información del item - Informació de l'item - Item information
Title: Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA
Other Titles: Theory and practice of lemmatization of the Multilingual Digital Corpus of Old and Contemporary Texts-IVITRA
Authors: Antolí Martínez, Jordi M.
Research Group/s: Traducció de Clàssics Valencians a Llengües Europees. Estudis Literaris, Lingüístics i Traductològics Comparats
Center, Department or Service: Universidad de Alicante. Departamento de Filología Catalana
Keywords: Lematització | Categorització | Corpus informatitzat | Etiquetatge | Filologia | TIC | Català antic | Lemmatization | Categorisation | Digital corpus | Tagging | Philology | ICT | Old Catalan
Knowledge Area: Filología Catalana
Issue Date: 2011
Publisher: Universitat d'Alacant. Departament de Filologia Catalana
Citation: ANTOLÍ MARTÍNEZ, Jordi M. “Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA”. Ítaca. Revista de Filologia. Núm. 2 (2011). ISSN 2172-5500, pp. 253-269
Abstract: Al si del projecte institucional de recerca IVITRA (Institut Virtual Internacional de Traducció) s'està desenvolupant el Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis mitjançant un seguit d'eines informàtiques (els programes Introcorpus®, Mettagging®, Ivitrarech ® i el Metaconcor®); a grans trets, aquesta tecnologia permet introduir, processar, emmagatzemar i recuperar de manera selectiva la informació d'un corpus textual. En concret, el processament dels textos que es fa comporta l'assignació de la categoria, el lema, l'idioma de cada un dels mots, primer de manera automàtica i després, mitjançant el programa Mettagging®, de manera detallada i individualitzada en aquells casos en què, bé la grafia, bé la categoria, bé el règim o bé qualsevol altre element morfosintàctic, lèxic o semàntic, fa necessari calibrar més específicament una determinada forma, construcció, locució, etc. Tot aquest procés i, en concret, la lematització, comporta una relació entre el treball filològic i les noves tecnologies que fa necessària una certa reflexió. | In the framework of the institutional research project IVITRA (International Virtual Institute for Translation) a Multilingual Digital Corpus of Old and Contemporary Texts has been developed, with the help of a series of software tools (the programmes Introcorpus®, Mettagging®, Ivitratech® and Metaconcor®). Along general lines, these ICT tools allow the users to enter, process, store and recover the information from the text corpus. More precisely, the text processing consists, in the first place, of an automatic assignment of a category, a lemma and a language to each word. Subsequently, with the help of Mettagging®, a more accurate assignment takes place in the cases where the spelling, the category, the government, or any other morphosyntactic, lexical or semantic element, makes it necessary, thus characterizing more specifically a determinate form, construction, phrase, etc. This whole process, and specifically the lemmatization, combines ICT with philological research, in a way that requires a certain degree of reflection.
URI: http://hdl.handle.net/10045/24245 | http://dx.doi.org/10.14198/ITACA2011.2.11
ISSN: 2172-5500
DOI: 10.14198/ITACA2011.2.11
Language: cat
Type: info:eu-repo/semantics/article
Peer Review: si
Appears in Collections:Revistas - Ítaca - 2011, Núm. 2
INV - TRACLAVAL - Articles de Revistes

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailItaca_02_11.pdf218,29 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.