HanaNLG: Sistema de generación de lenguaje híbrido y flexible

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/108797
Información del item - Informació de l'item - Item information
Título: HanaNLG: Sistema de generación de lenguaje híbrido y flexible
Título alternativo: HanaNLG: A Flexible Hybrid System for Natural Language Generation
Autor/es: Barros, Cristina | Lloret, Elena
Titular/es del derecho: Universidad de Alicante
Grupo/s de investigación o GITE: Procesamiento del Lenguaje Natural y Sistemas de Información (GPLSI)
Centro, Departamento o Servicio: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Palabras clave: Tecnologías del Lenguaje Humano | Generación del Lenguaje Natural | Realización Lingüística | Sistema híbrido
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: 2-sep-2020
Resumen: HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) es un sistema híbrido para la fase realización capaz de generar automáticamente texto que es fácilmente adaptable a diferentes géneros, dominios y lenguajes. HanaNLG es híbrido porque se basa en el uso de recursos lingüísticos así como en información estadística, a través del uso de Modelos de Lenguaje Factorizados, para construir la salida final. Para generar lenguaje, el sistema propuesto hace uso de estrategias de over-generation y ranking, donde primero se genera un conjunto de frases candidatas para después realizar un ranking donde se seleccione una frase en base a un criterio definido, en nuestro caso, su probabilidad. Además, dado que HanaNLG solo está enfocado en la fase de realización, no tenemos información de los procesos de macroplanificación y microplanificación, para poder guiar la generación en base a un tema concreto, palabras, dominio, etc. Es por ello, que proponemos el concepto de característica semilla. Estas características semillas pueden considerarse objetos abstractos (por ejemplo, fonemas, sentimientos, polaridades, etc.) que guiarán el proceso de generación en relación al vocabulario que la frase generada deba contener. Por consiguiente, el tipo de textos generados por HanaNLG puede ser adaptado a diferentes dominios y también a diferentes objetivos comunicativos (por ejemplo, generación automática de resúmenes). Asimismo, dada la naturaleza de los recursos y técnicas empleadas, nuestro sistema también es fácilmente adaptable a diferentes géneros, dominios y lenguajes. Una descripción más detallada del método completo se puede encontrar en [Barros19, Barros17]. | HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) is a hybrid system for the surface realisation stage capable of automatically generating text which is easily adaptable to different genres, domains and language. HanaNLG is hybrid because the final text is created based on the use of linguistic resources in conjunction with statistical information, through the use of factored language models. In order to generate language, this approach makes use of overgeneration and ranking strategies, where a set of candidate sentences is first generated and then a ranking is performed to select a sentence based on a defined criterion, which, in our case, is the sentence probability. In addition, since HanaNLG is only focused on the surface realisation stage, there is not any information about the macroplanning and microplanning processes, so, to guide the generation on the basis of a specific theme, words, domain, etc., we propose the concept of seed feature. These seed features can be considered as abstract objects (e.g., phonemes, emotions, polarities, etc.) which will guide the generation process in relation with the vocabulary that the generated sentence must contain. Therefore, the text generated by HanaNLG can be adapted to different domains and also to different communicative goals (e.g., automatic summarisation). Likewise, given the nature of the resources and techniques employed, our system is also easily adaptable to different genres, domains and language. A detailed description of the complete approach can be found at [Barros19, Barros17].
Patrocinador/es: Esta aplicación ha sido parcialmente financiada por la Generalitat Valenciana (PROMETEU/2018/089: "SIIA: Tecnologías del Lenguaje Humano para una Sociedad Inclusiva Igualitaria y Accesible"; PROMETEOII/2014/001: "DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y generación de información sobre la web 2.0") y el Gobierno de España (RTI2018-094649-B-I00: "INTEGER: Intelligent Text Generation, GENERACION INTELIGENTE DE TEXTOS"; TIN2015-65100-R; "RESCATA: Representación canónica y transformaciones de los textos aplicado a las Tecnologías del Lenguaje Humano").
URI: http://hdl.handle.net/10045/108797
Idioma: spa
Tipo: software
Derechos: © Las autoras
Revisión científica: no
Aparece en las colecciones:Registro de Programas de Ordenador y Bases de Datos

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailMemoria-HanaNLG-registro-de-software.pdfMemoria descriptiva100,52 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.