Alimentación España Madrid, España, Mi茅rcoles, 02 de septiembre de 2009 a las 10:57

Una nueva manera de acceder a la informaci贸n cient铆fica de las universidades

Rodolfo Barrere y Lautaro Matas del Observatorio CTS de la OEI comentan la puesta en marcha del Portal de visualizaci贸n de las universidades iberoamericanas

MC/CAEU-OEI-AECID/DiCYT Con el propósito de brindar una nueva forma de visualización de la información contenida en los documentos publicados por las principales universidades iberoamericanas, los jóvenes investigadores Rodolfo Barrere y Lautaro Matas están trabajando en una herramienta que estará disponible próximamente en Internet. Se trata de un portal que introduce una perspectiva distinta en las tareas de acceso a la información: el énfasis del proyecto no sólo está puesto en el acto de encontrar el documento buscado, sino también en mostrar sus relaciones temáticas con otros documentos del corpus al que pertenece. De esta manera, la labor de explorar fuentes de conocimiento adquiere un innovador matiz contextual.

 

Ambos investigadores son argentinos y trabajan para el Observatorio Iberoamericano de la Ciencia, la Tecnología y la Sociedad, perteneciente al Centro de Altos Estudios Universitarios de la Organización de Estados Iberoamericanos (OEI). Barrere y Matas ya han puesto a disposición del público una prueba piloto de la herramienta, que presenta un mapa de las temáticas de investigación de la Universidad Complutense de Madrid, diseñado a partir de los 3000 documentos de la institución más citados en Scholar Google.

 

La ejecución del proyecto tiene previstos diez meses de trabajo, plazo que termina en diciembre de este año, cuando se publicará la herramienta en Internet integrada en un portal. En su versión definitiva, el sitio contará con una colección representativa de distintas universidades y sus corpus documentales, que consistirán exclusivamente en papers producidos por autores de las casas de estudios seleccionadas o de autores externos publicados en las revistas de esas instituciones. Una vez sistematizado el procesamiento de datos, el portal será actualizado periódicamente.

 

PREGUNTA: ¿En qué situaciones puntuales será de utilidad esta herramienta?

 

RODOLFO BARRERE (RB): Es una forma nueva de acceder a la información, que a su vez tiene un componente particular, ya que estamos hablando del conocimiento que producen y almacenan las universidades iberoamericanas. Es una información, además, que todavía no tiene el grado de visibilidad que podría tener. Se trata todavía de un volumen poco aprovechado, que está disponible a través de Internet pero que aún no ha sido organizado con una herramienta que aliente una exploración contextual. Nuestro proyecto intentará no sólo que el usuario tenga acceso al conocimiento, sino que también pueda navegar a través de esa información de una forma más libre y amplia, con un enfoque interdisciplinario. Así el usuario no sólo obtendrá el conocimiento, sino que también sabrá fácilmente de qué universidad proviene y cómo está relacionado con otros elementos del corpus que integra y con otros corpus de otras instituciones. Con un buscador común, uno tiene que tener una idea previa muy definida de qué es eso que está buscando.

 

Caso contrario, se pierde en la enormidad inabarcable que es la información en la web. El portal permitirá buscar un documento preciso, pero también instrumentará al usuario para que pueda ver el dibujo más amplio en el que ese documento está inserto. Se dice que hay dos formas de acercarse a la información. Está el llamado information retrieval, que consiste básicamente en buscar un documento que dice justo lo que se está necesitando encontrar. Acá la necesidad rectora es la precisión. El otro camino se llama knowledge discovery, que apela más la exploración del campo que se está navegando. El portal permitirá acceder a la información de las dos maneras, con especial énfasis en la navegación contextual. Un concepto como “cáncer de pulmón” no sólo está asociado al campo médico más duro, sino que también está atado a conceptos como “supervivencia”, “calidad de vida”, “cirugía”, “ansiedad”, “depresión”. Todos estos términos llevan a otras áreas temáticas y disciplinarias. Nos postulamos trabajar en una herramienta cuantitativa con un enfoque cualitativo.

 

LAUTARO MATAS (LM): El portal también resumirá de una forma inteligible grandes volúmenes de información. De todas formas, el análisis de lenguaje natural conlleva un margen de error que todavía no está resuelto desde el punto de vista computacional. Sin embargo, al prescindir de la participación de un evaluador humano, se elimina cualquier posibilidad de sesgo y se asegura un tratamiento uniforme de las distintas fuentes.

RB
: Hay otra arista para tener cuenta. Existen los investigadores y existen también los usuarios que son externos al mundo científico. Se trata de dos comunidades que casi no hablan el mismo idioma. Si uno trabaja con un buscador tradicional y no conoce la jerga especializada, puede tener dificultades para llegar al documento. Mediante el acercamiento por relaciones, el portal facilitará la vinculación entre tema y usuario.

P: ¿Cómo nació el proyecto?

RB: Venimos trabajando desde hace tiempo en cuestiones relacionadas con la extracción de información de textos. Es lo que se conoce como análisis de lenguaje natural. Se procesa cada artículo y se obtiene de él aquella información contenida en el texto, tal cual fue escrito. En los análisis tradicionales se obtiene información cuantitativa a partir de datos normalizados en campos definidos: disciplina, institución a la que pertenece, año de publicación, etc. Se trata de un conocimiento estructurado. La contraparte es esa información que aparece dispersa en un texto y que aún no ha sido catalogada. La gran mayoría de la información disponible es de esta índole y hay cada vez más fuentes de información con este tipo de datos. Incluso en Internet, a partir del movimiento open access, se ha dado toda una revolución, especialmente en lo que tiene que ver con sitios académicos. Sin ir más lejos, las universidades iberoamericanas ofrecen casi medio millón de documentos a través de la web. Esta información aún no ha sido explotada del todo.

 

LM: El gran beneficio de Internet radica en que hay una enorme cantidad de información disponible, pero al mismo tiempo esa información es inabarcable. El enfoque de nuestro proyecto consiste en obtener conocimiento a partir de los contenidos de los documentos que ha producido o publicado —o las dos cosas al mismo tiempo— cada universidad. Con los buscadores tradicionales, se hace difícil tener una idea clara de cómo se relacionan los contenidos de esos documentos. Nosotros tratamos de avanzar hacia la estructura de la información. El portal funcionará como una ampliación del servicio que ofrecen los buscadores comunes y permitirá al usuario acceder a la información por distintas vías, con un procedimiento mucho más libre y dinámico. Lo interesante del proyecto, además, es que estas estructuras emergentes no se condicen necesariamente con el conocimiento general que hay sobre un tema, sino con el modo en que ese conocimiento está estructurado dentro del corpus de documentos al que pertenece. En una universidad determinada, temas relacionados con la economía pueden estar vinculados con conceptos del tipo más variado: “equidad”, por ejemplo. El portal permitirá visualizar el modo en que el corpus de una institución establece lazos entre un tema y otro.

 

P: Teniendo esto último en cuenta, ¿el portal permitiría ver la tendencia o la “línea editorial” de una universidad?

 

RB: En principio sí, pero recién contamos con una prueba piloto que sólo da cuenta de una parte del acervo documental de una universidad. Nuestra idea es ir agregando un número más representativo del total de instituciones. Cuando contemos con más de una universidad, el usuario también podrá ver y comparar los modos en que dos universidades distintas abordan un mismo tema.

LM: De todas formas, habría que tener cierto cuidado con el concepto de “línea editorial”. Lo que muestra el portal responde al corpus que la universidad publica y considera propio, pero eso no necesariamente es representativo de sus líneas institucionales. No todos los documentos académicos son producidos en el seno de las universidades, por sus investigadores internos. El portal sí puede mostrar indicadores del rango de intereses de una universidad determinada, pero su orientación o tendencia institucional es un concepto mucho más complejo.

 

P: ¿Cómo fue la etapa de desarrollo del proyecto? ¿Qué pasos tuvieron que seguir para que el portal se hiciera funcional?

 

LM: En primer lugar, necesitábamos encontrar una manera normalizada para asegurar una correcta identificación y recuperación de los documentos académicos. Los sitios de las universidades presentan estructuras muy heterogéneas.

RB: No es algo fácil de distinguir en una primera instancia: los documentos pueden ser artículos académicos, que es lo que nos interesa a nosotros, pero también pueden ser programas de materias u otros textos.

 

LM: Por eso elegimos Scholar Google, que nos permitió encontrar una forma de búsqueda normalizada para todas las universidades. El primer paso, entonces, consiste en implementar un robot que consulta a Scholar Google y descarga sólo los artículos en formato PDF. Esta cuestión del formato es una norma de calidad que nos impusimos para evitar que se filtrara información anómala como los extractos de las bibliotecas o los resúmenes documentales. También nos propusimos rastrear documentos que aparecieran citados en otros documentos, lo que les otorga validación: es difícil que un paper cite o trabaje sobre citas que no pertenecen a otro paper. Una vez que los documentos son descargados, se comienza la extracción de conceptos a partir de técnicas de análisis de lenguaje natural. Optamos por relevar construcciones gramaticales que contuvieran sustantivos que hicieran referencia a objetos del mundo real. Este proceso todavía se está afinando. La tercera etapa tiene que ver con la construcción de un modelo semántico emergente del corpus que determine relaciones entre los conceptos. Un ejemplo: si en distintos documentos aparecen las palabras “coche”, “carro” y “auto”, uno las puede relacionar gracias a su aparición en contextos comunes como “volante”, “rueda” o “motor”.

 

RB: No sólo pueden ser palabras sinónimas, sino también conceptos que se conectan semánticamente: “rueda” y “coche” ya están relacionados de por sí. El siguiente paso consistió en idear un mapa que diera cuenta de esas relaciones semánticas. Esto se hizo mediante técnicas de clustering o de agrupamiento de conceptos en conjuntos, lo que a su vez nos permitió generar grafos para aquellas palabras que estuvieran altamente relacionadas y para las mismas relaciones entre conceptos y temas. El desafío final fue hallar un modo de representar visualmente esos grafos, que no son más que entidades matemáticas. Esto fue un problema en sí mismo. No todas las relaciones se pueden visualizar. Si hubiéramos intentado representar todo, nos habría quedado una gran maraña de significados. Lo que hicimos, entonces, fue podar los grafos hasta que se hiciera visible su estructura troncal: las relaciones más importantes en el conjunto, los flujos de información que prevalecían en ese gran todo. El recorte fue necesario para llegar a un resumen inteligible. Representar gráficamente implica un problema de organización en el espacio que se soluciona distribuyendo los clústers y sus relaciones según distintos tamaños y colores. La última parte del trabajo consistió en la construcción de una interfaz que permitiera al usuario interactuar cómodamente con los contenidos.

P: El portal abordará el cúmulo de conocimiento de las universidades más importantes de Iberoamérica. ¿El modo de trabajo cambia cuando se pasa de un país de la región a otro?

 

RB: No. Justamente nuestro primer objetivo fue hallar una metodología común y normalizada para abordar a todas las fuentes por igual. Intentamos aproximarnos a cada archivo con los mismos ojos, para que no medien preconceptos ni distorsiones de sentido. Habrá universidades que aparecerán mejor representadas que otras, pero eso devendrá del tamaño de sus archivos y de la densidad temática de sus documentos, que establecerán mayores o menores lazos con otros, y no de la aproximación del portal.

En ese sentido, esta herramienta podría servir para conocer conceptos que hagan alusión a problemáticas intrínsecamente iberoamericanas.

LM: Es posible. En universidades de países en desarrollo o de subregiones más empobrecidas, conceptos como “mortalidad infantil” aparecerán rodeados de un contexto semántico distinto al de otras subregiones en las que la problemática no es tan grave. En ese sentido el portal abriría posibilidades de comparación muy interesantes. El proyecto está naciendo y aún quedan muchas utilidades por descubrir. La herramienta tiene una potencialidad que todavía no se ha explotado. No sería raro que se establezcan nuevos usos, incluso varios que nosotros no estamos teniendo en cuenta y que tal vez los usuarios consideren más atractivos.