Stand-off Annotation of Web Content as a Legally Safer Alternative to Crawling for Distribution

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/62549
Información del item - Informació de l'item - Item information
Títol: Stand-off Annotation of Web Content as a Legally Safer Alternative to Crawling for Distribution
Autors: Forcada, Mikel L. | Esplà-Gomis, Miquel | Pérez-Ortiz, Juan Antonio
Grups d'investigació o GITE: Transducens
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: Bitext | Parallel text | Stand-off annotation | Legal issues | Statistical machine translation
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: 2016
Editor: University of Latvia
Citació bibliogràfica: Baltic Journal of Modern Computing. 2016, 4(2): 152-164
Resum: Sentence-aligned web-crawled parallel text or bitext is frequently used to train statistical machine translation systems. To that end, web-crawled sentence-aligned bitext sets are sometimes made publicly available and distributed by translation technologies practitioners. Contrary to what may be commonly believed, distribution of web-crawled text is far from being free from legal implications, and may sometimes actually violate the usage restrictions. As the distribution and availability of sentence-aligned bitext is key to the development of statistical machine translation systems, this paper proposes an alternative: instead of copying and distributing copies of web content in the form of sentence-aligned bitext, one could distribute a legally safer stand-off annotation of web content, that is, files that identify where the aligned sentences are, so that end users can use this annotation to privately recrawl the bitexts. The paper describes and discusses the legal and technical aspects of this proposal, and outlines an implementation.
Patrocinadors: Funding from the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran) is acknowledged.
URI: http://hdl.handle.net/10045/62549
ISSN: 2255-8942 (Print) | 2255-8950 (Online)
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: Creative Commons Attribution-ShareAlike 4.0 International license
Revisió científica: si
Versió de l'editor: http://www.bjmc.lu.lv/
Apareix a la col·lecció: INV - TRANSDUCENS - Artículos de Revistas
Investigacions finançades per la UE

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
Thumbnail2016_Forcada_etal_BalticJModernComputing.pdf216,07 kBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons