HanaNLG: Sistema de generación de lenguaje híbrido y flexible

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/108797
Información del item - Informació de l'item - Item information
Títol: HanaNLG: Sistema de generación de lenguaje híbrido y flexible
Títol alternatiu: HanaNLG: A Flexible Hybrid System for Natural Language Generation
Autors: Barros, Cristina | Lloret, Elena
Titular/s del dret: Universidad de Alicante
Grups d'investigació o GITE: Procesamiento del Lenguaje Natural y Sistemas de Información (GPLSI)
Centre, Departament o Servei: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Paraules clau: Tecnologías del Lenguaje Humano | Generación del Lenguaje Natural | Realización Lingüística | Sistema híbrido
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: 2-de setembre-2020
Resum: HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) es un sistema híbrido para la fase realización capaz de generar automáticamente texto que es fácilmente adaptable a diferentes géneros, dominios y lenguajes. HanaNLG es híbrido porque se basa en el uso de recursos lingüísticos así como en información estadística, a través del uso de Modelos de Lenguaje Factorizados, para construir la salida final. Para generar lenguaje, el sistema propuesto hace uso de estrategias de over-generation y ranking, donde primero se genera un conjunto de frases candidatas para después realizar un ranking donde se seleccione una frase en base a un criterio definido, en nuestro caso, su probabilidad. Además, dado que HanaNLG solo está enfocado en la fase de realización, no tenemos información de los procesos de macroplanificación y microplanificación, para poder guiar la generación en base a un tema concreto, palabras, dominio, etc. Es por ello, que proponemos el concepto de característica semilla. Estas características semillas pueden considerarse objetos abstractos (por ejemplo, fonemas, sentimientos, polaridades, etc.) que guiarán el proceso de generación en relación al vocabulario que la frase generada deba contener. Por consiguiente, el tipo de textos generados por HanaNLG puede ser adaptado a diferentes dominios y también a diferentes objetivos comunicativos (por ejemplo, generación automática de resúmenes). Asimismo, dada la naturaleza de los recursos y técnicas empleadas, nuestro sistema también es fácilmente adaptable a diferentes géneros, dominios y lenguajes. Una descripción más detallada del método completo se puede encontrar en [Barros19, Barros17]. | HanaNLG (Hybrid surfAce realisatioN Approach for Natural Language Generation) is a hybrid system for the surface realisation stage capable of automatically generating text which is easily adaptable to different genres, domains and language. HanaNLG is hybrid because the final text is created based on the use of linguistic resources in conjunction with statistical information, through the use of factored language models. In order to generate language, this approach makes use of overgeneration and ranking strategies, where a set of candidate sentences is first generated and then a ranking is performed to select a sentence based on a defined criterion, which, in our case, is the sentence probability. In addition, since HanaNLG is only focused on the surface realisation stage, there is not any information about the macroplanning and microplanning processes, so, to guide the generation on the basis of a specific theme, words, domain, etc., we propose the concept of seed feature. These seed features can be considered as abstract objects (e.g., phonemes, emotions, polarities, etc.) which will guide the generation process in relation with the vocabulary that the generated sentence must contain. Therefore, the text generated by HanaNLG can be adapted to different domains and also to different communicative goals (e.g., automatic summarisation). Likewise, given the nature of the resources and techniques employed, our system is also easily adaptable to different genres, domains and language. A detailed description of the complete approach can be found at [Barros19, Barros17].
Patrocinadors: Esta aplicación ha sido parcialmente financiada por la Generalitat Valenciana (PROMETEU/2018/089: "SIIA: Tecnologías del Lenguaje Humano para una Sociedad Inclusiva Igualitaria y Accesible"; PROMETEOII/2014/001: "DIIM2.0: Desarrollo de técnicas Inteligentes e Interactivas de Minería y generación de información sobre la web 2.0") y el Gobierno de España (RTI2018-094649-B-I00: "INTEGER: Intelligent Text Generation, GENERACION INTELIGENTE DE TEXTOS"; TIN2015-65100-R; "RESCATA: Representación canónica y transformaciones de los textos aplicado a las Tecnologías del Lenguaje Humano").
URI: http://hdl.handle.net/10045/108797
Idioma: spa
Tipus: software
Drets: © Las autoras
Revisió científica: no
Apareix a la col·lecció: Registro de Programas de Ordenador y Bases de Datos

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailMemoria-HanaNLG-registro-de-software.pdfMemoria descriptiva100,52 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.