Similitud español-inglés a través de word embeddings

Enríquez de Salamanca Ros, Fernando; Cruz Mata, Fermín; Ortega Rodríguez, Francisco Javier; Troyano Jiménez, José Antonio

Similitud español-inglés a través de word embeddings

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/69112

Información del item - Informació de l'item - Item information
Título:	Similitud español-inglés a través de word embeddings
Título alternativo:	Spanish-English similarity through word embeddings
Autor/es:	Enríquez de Salamanca Ros, Fernando \| Cruz Mata, Fermín \| Ortega Rodríguez, Francisco Javier \| Troyano Jiménez, José Antonio
Palabras clave:	Similitud bilingüe \| Word embeddings \| Alineamiento de textos \| Transformación de modelos \| Cross-lingual similarity \| Text alignment \| Model transformation
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2017
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2017, 59: 31-38
Resumen:	En este trabajo hemos afrontado la tarea de similitud de textos multilingüe mediante representaciones vectoriales de las palabras. Hemos experimentado con varias colecciones de textos con pares de frases en español e inglés, adaptando dos técnicas basadas en word embeddings que han mostrado su eficacia en la similitud de textos monolingüe: la agregación de vectores y el alineamiento. La agregación permite construir una representación vectorial de un texto a partir de los vectores de las palabras que lo componen, y el algoritmo de alineamiento aprovecha los word embeddigs para decidir el emparejamiento de palabras de los dos textos a comparar. En el proceso se han utilizado dos estrategias distintas: usar traductores automáticos para poder aplicar directamente las técnicas de similitud monolingüe, y aplicar una técnica de transformación de modelos para trasladar los vectores de un idioma al espacio del otro. Las dos estrategias han funcionado razonablemente bien por separado, y los resultados mejoran cuando las salidas de los dos tipos de sistemas se integran mediante técnicas de ensemble learning. \| In this paper we have faced the cross-lingual text similarity task using vector representations of words. We have experimented with several collections of texts with pairs of sentences in Spanish and English, adapting two techniques based on word embeddings that have shown their effectiveness in the similarity of monolingual texts: vector aggregation and vector-based text alignment. The aggregation allows to construct a vector representation of a text from the vectors of the words that compose it, and the algorithm of alignment takes advantage of word embeddigs to decide the pairing of words of the two texts to be compared. Two different strategies have been used in the process: using automatic translators to be able to directly apply monolingual similarity techniques, and applying a model transformation technique to translate the vectors of one language into the space of the other. Both strategies have worked reasonably well separately, and the results improve when the outputs of the two types of systems are integrated by means of ensemble learning techniques.
URI:	http://hdl.handle.net/10045/69112
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 59 (2017)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_59_03.pdf		1,33 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo