Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10045/24245
Title: | Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA |
---|---|
Other Titles: | Theory and practice of lemmatization of the Multilingual Digital Corpus of Old and Contemporary Texts-IVITRA |
Authors: | Antolí Martínez, Jordi M. |
Research Group/s: | Traducció de Clàssics Valencians a Llengües Europees. Estudis Literaris, Lingüístics i Traductològics Comparats |
Center, Department or Service: | Universidad de Alicante. Departamento de Filología Catalana |
Keywords: | Lematització | Categorització | Corpus informatitzat | Etiquetatge | Filologia | TIC | Català antic | Lemmatization | Categorisation | Digital corpus | Tagging | Philology | ICT | Old Catalan |
Knowledge Area: | Filología Catalana |
Issue Date: | 2011 |
Publisher: | Universitat d'Alacant. Departament de Filologia Catalana |
Citation: | ANTOLÍ MARTÍNEZ, Jordi M. “Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA”. Ítaca. Revista de Filologia. Núm. 2 (2011). ISSN 2172-5500, pp. 253-269 |
Abstract: | Al si del projecte institucional de recerca IVITRA (Institut Virtual Internacional de Traducció) s'està desenvolupant el Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis mitjançant un seguit d'eines informàtiques (els programes Introcorpus®, Mettagging®, Ivitrarech ® i el Metaconcor®); a grans trets, aquesta tecnologia permet introduir, processar, emmagatzemar i recuperar de manera selectiva la informació d'un corpus textual. En concret, el processament dels textos que es fa comporta l'assignació de la categoria, el lema, l'idioma de cada un dels mots, primer de manera automàtica i després, mitjançant el programa Mettagging®, de manera detallada i individualitzada en aquells casos en què, bé la grafia, bé la categoria, bé el règim o bé qualsevol altre element morfosintàctic, lèxic o semàntic, fa necessari calibrar més específicament una determinada forma, construcció, locució, etc. Tot aquest procés i, en concret, la lematització, comporta una relació entre el treball filològic i les noves tecnologies que fa necessària una certa reflexió. | In the framework of the institutional research project IVITRA (International Virtual Institute for Translation) a Multilingual Digital Corpus of Old and Contemporary Texts has been developed, with the help of a series of software tools (the programmes Introcorpus®, Mettagging®, Ivitratech® and Metaconcor®). Along general lines, these ICT tools allow the users to enter, process, store and recover the information from the text corpus. More precisely, the text processing consists, in the first place, of an automatic assignment of a category, a lemma and a language to each word. Subsequently, with the help of Mettagging®, a more accurate assignment takes place in the cases where the spelling, the category, the government, or any other morphosyntactic, lexical or semantic element, makes it necessary, thus characterizing more specifically a determinate form, construction, phrase, etc. This whole process, and specifically the lemmatization, combines ICT with philological research, in a way that requires a certain degree of reflection. |
URI: | http://hdl.handle.net/10045/24245 | http://dx.doi.org/10.14198/ITACA2011.2.11 |
ISSN: | 2172-5500 |
DOI: | 10.14198/ITACA2011.2.11 |
Language: | cat |
Type: | info:eu-repo/semantics/article |
Peer Review: | si |
Appears in Collections: | Ítaca. Revista de Filologia - 2011, Núm. 2 INV - TRACLAVAL - Articles de Revistes |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Itaca_02_11.pdf | 218,29 kB | Adobe PDF | Open Preview | |
Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.