Readers versus Re-rankers in Question Answering over COVID-19 scientific literature

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/122850
Información del item - Informació de l'item - Item information
Títol: Readers versus Re-rankers in Question Answering over COVID-19 scientific literature
Títol alternatiu: Readers versus Re-rankers para la Búsqueda de Respuestas sobre COVID-19 en literatura científica
Autors: Lozano-Álvarez, Borja | Berná, Javier | Peñas Padilla, Anselmo
Paraules clau: Question Answering | Information Retrieval | Transformers based pretrained models | BERT | COVID-19 | Búsqueda de Respuestas | Recuperación de Información | Modelos pre-entrenados basados en transformers
Àrees de coneixement: Lenguajes y Sistemas Informáticos
Data de publicació: de març-2022
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2022, 68: 133-142. https://doi.org/10.26342/2022-68-10
Resum: In this work we present a comparison between the two most used neural Question Answering (QA) architectures to solve the problem of information overload on COVID-19 related articles. The span extraction (reader) and the re-ranker. We have found that there are no studies that compare these two methods even though they are so widely used. We also performed a search of the best hyperparameters for this task, and tried to conclude whether a model pre-trained with biomedical documents such as bioBERT outperforms a general domain model such as BERT. We found that the domain model is not clearly superior to the generalist one. We have studied also the number of answers to be extracted per context to obtain consistently good results. Finally, we conclude that although both approaches (readers and re-rankers) are very competitive, readers obtain systematically better results. | En este trabajo presentamos una comparación entre las dos arquitecturas neuronales de Respuesta a Preguntas (QA) más utilizadas para resolver el problema de la sobrecarga de información en los artículos relacionados con COVID-19: extracción de respuestas (reader) y el reordenamiento (re-ranker). Hemos encontrado que no hay estudios que comparen estos dos métodos a pesar de que son tan ampliamente utilizados. También realizamos una búsqueda de los mejores hiperparámetros para esta tarea y tratamos de concluir si un modelo pre-entrenado con documentos del dominio biomédico como bioBERT supera a un modelo de dominio general como BERT. Encontramos que el modelo de dominio biomédico no es claramente superior al generalista. También hemos estudiado el número de respuestas a extraer por contexto para obtener resultados consistentemente buenos. Finalmente, concluimos que aunque ambos enfoques (readers y re-rankers) son muy competitivos, los readers obtienen sistemáticamente mejores resultados.
Patrocinadors: This work has been partially funded by VIGICOVID project FSuperaCovid-5 (Fondo Supera COVID-19/CRUE-CSIC-Santander) and by the Spanish Ministry of Science, Innovation and Universities (Deep-Reading RTI2018-096846-B-C21, MCIU/AEI/FEDER, UE).
URI: http://hdl.handle.net/10045/122850
ISSN: 1135-5948
DOI: 10.26342/2022-68-10
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2022-68-10
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 68 (2022)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_68_10.pdf1,28 MBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.