HanaNLG: Sistema de generación de lenguaje híbrido y flexible

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/108797
Información del item - Informació de l'item - Item information
Title: HanaNLG: Sistema de generación de lenguaje híbrido y flexible
Other Titles: HanaNLG: A Flexible Hybrid System for Natural Language Generation
Authors: Barros, Cristina | Lloret, Elena
Right's holder: Universidad de Alicante
Research Group/s: Procesamiento del Lenguaje Natural y Sistemas de Información (GPLSI)
Center, Department or Service: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Keywords: Tecnologías del Lenguaje Humano | Generación del Lenguaje Natural | Realización Lingüística | Sistema híbrido
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: 2-Sep-2020
Abstract: HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) es un sistema híbrido para la fase realización capaz de generar automáticamente texto que es fácilmente adaptable a diferentes géneros, dominios y lenguajes. HanaNLG es híbrido porque se basa en el uso de recursos lingüísticos así como en información estadística, a través del uso de Modelos de Lenguaje Factorizados, para construir la salida final. Para generar lenguaje, el sistema propuesto hace uso de estrategias de over-generation y ranking, donde primero se genera un conjunto de frases candidatas para después realizar un ranking donde se seleccione una frase en base a un criterio definido, en nuestro caso, su probabilidad. Además, dado que HanaNLG solo está enfocado en la fase de realización, no tenemos información de los procesos de macroplanificación y microplanificación, para poder guiar la generación en base a un tema concreto, palabras, dominio, etc. Es por ello, que proponemos el concepto de característica semilla. Estas características semillas pueden considerarse objetos abstractos (por ejemplo, fonemas, sentimientos, polaridades, etc.) que guiarán el proceso de generación en relación al vocabulario que la frase generada deba contener. Por consiguiente, el tipo de textos generados por HanaNLG puede ser adaptado a diferentes dominios y también a diferentes objetivos comunicativos (por ejemplo, generación automática de resúmenes). Asimismo, dada la naturaleza de los recursos y técnicas empleadas, nuestro sistema también es fácilmente adaptable a diferentes géneros, dominios y lenguajes. Una descripción más detallada del método completo se puede encontrar en [Barros19, Barros17]. | HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) is a hybrid system for the surface realisation stage capable of automatically generating text which is easily adaptable to different genres, domains and language. HanaNLG is hybrid because the final text is created based on the use of linguistic resources in conjunction with statistical information, through the use of factored language models. In order to generate language, this approach makes use of overgeneration and ranking strategies, where a set of candidate sentences is first generated and then a ranking is performed to select a sentence based on a defined criterion, which, in our case, is the sentence probability. In addition, since HanaNLG is only focused on the surface realisation stage, there is not any information about the macroplanning and microplanning processes, so, to guide the generation on the basis of a specific theme, words, domain, etc., we propose the concept of seed feature. These seed features can be considered as abstract objects (e.g., phonemes, emotions, polarities, etc.) which will guide the generation process in relation with the vocabulary that the generated sentence must contain. Therefore, the text generated by HanaNLG can be adapted to different domains and also to different communicative goals (e.g., automatic summarisation). Likewise, given the nature of the resources and techniques employed, our system is also easily adaptable to different genres, domains and language. A detailed description of the complete approach can be found at [Barros19, Barros17].
Sponsor: Esta aplicación ha sido parcialmente financiada por la Generalitat Valenciana (PROMETEU/2018/089: "SIIA: Tecnologías del Lenguaje Humano para una Sociedad Inclusiva Igualitaria y Accesible"; PROMETEOII/2014/001: "DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y generación de información sobre la web 2.0") y el Gobierno de España (RTI2018-094649-B-I00: "INTEGER: Intelligent Text Generation, GENERACION INTELIGENTE DE TEXTOS"; TIN2015-65100-R; "RESCATA: Representación canónica y transformaciones de los textos aplicado a las Tecnologías del Lenguaje Humano").
URI: http://hdl.handle.net/10045/108797
Language: spa
Type: software
Rights: © Las autoras
Peer Review: no
Appears in Collections:Registro de Programas de Ordenador y Bases de Datos

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailMemoria-HanaNLG-registro-de-software.pdfMemoria descriptiva100,52 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.