Multilingüismo para combatir la ambigüedad
UNED/DICYT La palabra cirugía puede referirse a la especialidad médica o a la propia intervención quirúrgica. Como este, existen multitud de conceptos cuyo significado varía según su contexto. En la literatura especializada estos matices son importantes y la precisión con la que se procesa dicha información muy valorada. La desambiguación es clave, por ejemplo, para recuperar información de los artículos científicos a la hora de generar automáticamente resúmenes o clasificaciones de los textos.
Las técnicas de Procesamiento del Lenguaje Natural (NLP) pueden usarse, entre otras cosas, para identificar términos relevantes en un texto y conseguir plasmarlos como nodos de una red que se asocian según su afinidad. La confirmación de estas relaciones, a partir de datos obtenidos de diversas fuentes, permite atribuir un significado determinado a un concepto para contribuir a su desambiguación.
El Grupo NLP & IP de la UNED se propuso averiguar la eficacia de esta tarea si la información recuperada procedía de otras lenguas además del inglés: "la traducción de un idioma a otro de una palabra que resulta ambigua puede ofrecer la clave sobre su desambiguación en cualquiera de los idiomas que hemos estudiado" señala Lourdes Araujo, investigadora del grupo y coautora del estudio: "en este caso queríamos determinar si la información multilingüe era capaz de mejorar los resultados obtenidos por los enfoques monolingües en las tareas de desambiguación, y bajo qué condiciones esa mejora es real y significativa".
Para comprobarlo, los investigadores tuvieron que diseñar su propio sistema, configurado para detectar dos tipos de conceptos. Por un lado, el sistema detecta todas las palabras del texto que aportan información relevante, en este caso nombres y adjetivos. Por otro lado, identifica los conceptos médicos, tomados del Unified Medical Language System (UMLS), una base de datos que clasifica y codifica al completo la terminología médica.
Si la palabra ambigua que aparece en un artículo científico es, por ejemplo, “ultrasonido”, el sistema tomará en primer lugar los dos significados que la UMLS recoge para ese término: el referido a las ondas mecánicas y el referido al procedimiento técnico. A continuación se recuperarán las palabras que sean relevantes del resto del documento, y también del documento en otras lenguas. Con toda esta información se elaboran dos grafos que permiten poner en relación los conceptos y ser comparados para ver la diferencia en los resultados. El primero de los grafos se genera tomando únicamente la información en inglés (monolingüe), y el segundo lo hace incluyendo las palabras procedentes de otros idiomas (multilingüe). Al añadir la información en varios idiomas el número de conceptos relacionados con ambos sentidos de la palabra “ultrasonido” aumenta, pero en el grafo multilingüe el significado que presenta mayor número de conexiones es el correcto, mientras que en el monolingüe es incorrecto.
“Hemos demostrado que la traducción de las palabras que conforman el contexto de un concepto ambiguo es una fuente de información muy útil que permite seleccionar el significado correcto del término” explica Andrés Duque, coautor del estudio publicado en Journal of Biomedical Informatics. Además, los investigadores pudieron comprobar que cuanto más difiere la lengua traducida de la lengua original del texto, más eficaz resulta para desambiguar.
“En los tres experimentos que llevamos a cabo el multilingüismo resultó útil para la desambiguación de conceptos, sobre todo cuando el conjunto de datos empleado no era excesivamente grande” subraya el investigador. El sistema, por tanto, puede resultar especialmente ventajoso en determinadas áreas donde la información disponible es escasa, como en el caso de las enfermedades raras, ya que permitiría a los profesionales poder preseleccionar la información de manera precisa, mejorando así la efectividad en la localización de información relevante.
Referencia bibliográfica | |
Duque A, Martínez-Romo J, Araujo L. (2016) Can Multilinguality improve Biomedical Word Sense Disambiguation? Journal of Biomedical Informatics, 64 320-332. |