Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10045/135626
Title: | Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud |
---|---|
Authors: | Grande Ruiz, Eduardo |
Research Director: | Gutiérrez, Yoan |
Center, Department or Service: | Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos |
Keywords: | Procesamiento del lenguaje natural | Inteligencia artificial | Extracción de información | Modelo BERT | Documentos científicos | Enfermedades raras |
Issue Date: | 29-Jun-2023 |
Date of defense: | Jun-2023 |
Abstract: | En la actualidad existen múltiples modelos de inteligencia artificial centrados en la detección de entidades nombradas, que son capaces de detectar una amplia variedad de aspectos. En este trabajo, se centran esos aspectos a enfermedades raras, detectándolas en textos del ámbito clínico. Todos esos textos clínicos son resúmenes de documentos científicos publicados en PubMed. De las enfermedades, no solo se detectarán sus nombres en sí, sino que se quieren detectar una amplia variedad de aspectos relacionados con esas enfermedades, como por ejemplo, sus causas, tratamientos, diagnósticos... Todos esos aspectos se clasificarán en una serie de categorías. Las anotaciones del modelo se generarán, en primera instancia, de forma automática, usando la herramienta Metathesaurus, contenida dentro de UMLS, un sistema de lenguaje médico. Metathesaurus contiene más de 3 millones de conceptos, siendo la inmensa mayoría del ámbito clínico. Además, cuenta con una serie de categorías ya definidas, y con los conceptos clasificados en estas categorías. Para cada texto, se cuenta con un archivo txt que contiene el texto y un archivo ann que contiene sus anotaciones. Esas anotaciones se encuentran definidas en formato BRAT, un formato de anotación que permite después visualizarlas de forma fácil, modificarlas y crear nuevas. Para cada anotación, se especifica el inicio, final, la categoría a la que pertenece y las palabras o grupos de palabras sobre las que se aplica. Una vez se cuenta con esas anotaciones, es posible revisarlas manualmente para que el corpus sea de la mayor calidad posible, pero al tener una base ya de anotaciones, esta tarea será más ágil. La clasificación que se debe de realizar es compleja, ya que contiene bastantes categorías, además de que cada palabra (o grupos de palabras) pueden pertenecer a la vez a varias clases, por lo que las anotaciones se pueden superponer tanto de forma estricta (mismo inicio y final) como de forma parcial. Para la obtención del modelo, se contará como base PubMedBERT, un modelo basado en BERT reentrenado por Microsoft con vocabulario del ámbito clínico, también extraído de PubMed. Este modelo será ajustado para poder ser usado en esta tarea en concreto. Como es una tarea particular, se han definido una serie de métricas, diferenciando las tareas de detección y de clasificación. Esas métricas serán de utilidad para conocer el rendimiento del modelo, y poder ver así si es lo suficientemente bueno, o por contra, se deben de realizar mejoras para obtener mejor rendimiento. En conclusión, este trabajo busca desarrollar un modelo para la detección de enfermedades raras en textos clínicos, usando un corpus extraído de documentos científicos clínicos. Las anotaciones podrán solaparse, por lo que al tratarse de una tarea particular de detección de entidades, se realizan modificaciones sobre el modelo para reentrenarlo y métricas para medir el modelo resultante. |
URI: | http://hdl.handle.net/10045/135626 |
Language: | spa |
Type: | info:eu-repo/semantics/masterThesis |
Rights: | Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 |
Appears in Collections: | Máster Universitario en Ciencia de Datos - Trabajos Fin de Máster |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
![]() | 941,19 kB | Adobe PDF | Open Preview | |
This item is licensed under a Creative Commons License