La recuperación automática de la información

Avances en el tratamiento de textos en español

 

Antonio Moreno Sandoval

 

La colaboración entre la lingüística y la informática está permitiendo el tratamiento y el análisis de grandes colecciones de datos textuales. El proyecto PROTEUS y sus aplicaciones muestran los avances realizados con textos en español.

 

1. ¿QUÉ ES EL PROCESAMIENTO INFORMÁTICO DE LAS LENGUAS NATURALES?

 

Desde hace más de tres dé­cadas se está trabajando en lo que se conoce como Lin­güística Computacional o también Procesamiento del Lenguaje Natural: una dis­ciplina aplicada que reúne los contenidos de dos ciencias, la Lingüística y la Informática. La idea de que los ordenado­res puedan entender realmente el lenguaje humano (y no simplemente instrucciones que deben ser escritas de una manera rígida y concreta) ha estado en la mente de todos desde que los ordenadores comenzaron a intervenir en nuestras vidas. Incluso la litera­tura y el cine nos han sugerido la posibilidad de poder conversar con máquinas inteligen­tes (recordemos por ejemplo el ordenador central de 2001, una odisea del espacio , o el robot parlanchín de La guerra de las galaxias). No cabe duda de que no podremos disponer de semejantes colaboradores en un futuro inmediato, pero en cambio muchas activida­des podrán realizarse ‑de hecho se pueden realizar ya‑ sin el esfuerzo y la dedicación de un ser humano. Nos referimos concretamente a aquellas actividades donde sea necesario el tratamiento de la información codificada en una lengua natural como el español, el inglés o el chino. Por el contrario, se entiende por lenguas artificiales o formales aquellas que han sido creadas por el hombre para formali­zar el conocimiento y poder llevar a cabo operaciones con él, por ejemplo, el lenguaje matemático o los lenguajes de programación. La diferencia fundamental con las lenguas na­turales es que los lenguajes artificiales care­cen de ambigüedad y su sintaxis es mucho más rígida.

Debido precisamente a la flexibilidad y ri­queza de las lenguas naturales su tratamiento por ordenador se hace muy complejo y es necesario, por tanto, restringir el campo de aplicación a dominios lingüísticos concretos en busca de patrones sintácticos y semánticos más rígidos que permitan su interpretación de una manera inequívoca. Por ejemplo, en el lenguaje oral se permiten muchas más liber­tades expresivas que en el escrito: uno puede dejar oraciones incompletas o utilizar pala­bras aproximadas con la seguridad de que el contexto ayudará a su(s) oyentes) a entender las ambigüedades e imprecisiones. En un texto escrito ‑cuando menos‑ las oraciones tienen que ser gramaticales, y si queremos que nues­tros lectores nos entiendan debemos ajustar­nos lo más posible a una única interpretación. Consecuentemente, los textos ambiguos, con múltiples lecturas, no son aptos para ser trata­dos por ordenador. Típicamente son los tex­tos literarios donde el autor juega con el len­guaje de una manera artística. Por el contra­rio, los textos técnicos y científicos son apro­piados para ser interpretados automáticamen­te: el autor utiliza un lenguaje sin ambigüeda­des, donde no pretende decir nada más que lo que realmente dice. Normalmente, el nú­mero de construcciones sintácticas (sintagmas, oraciones, párrafos) y de palabras no es ex­cesivo, y el vocabulario técnico no es ambi­guo: cuando decimos que "el limitados salta cuando se sobrepasa un determinado límite de cargó", nos referimos a una de las acep­ciones del verbo saltar (concretamente, la que no es sinónimo de brincar, dar saltos) y a una acepción particular de carga (la cantidad de electricidad que está soportando el circuito, y que no es equivalente a peso).

Tenemos, por tanto, que un texto ideal para ser tratado por ordenador podría ser un ma­nual de instalaciones eléctricas, por ejemplo. Su vocabulario es inequívoco y sus construc­ciones sintácticas no son complejas. En resu­men, se puede conocer la información que contiene sin mucho margen de error. Dada esta característica, podríamos desarrollar dis­tintos sistemas informáticos que utilizaran esta información. Básicamente, podríamos tener dos aplicaciones: una sería traducir dicho ma­nual a otra lengua ‑lo que se conoce por traducción automática (1)‑; la otra, extraer la información y exponerla en un formato que sea más rápido de leer y consultar (por ejem­plo, en forma de registro de base de datos o en forma de plantilla). A esto último se lo denomina extracción o recuperación de in­formación. Si desarrolláramos estos sistemas pensando en traducir o interpretar unos cuan­tos manuales, obviamente los resultados no compensarían el esfuerzo y la inversión. Pero si trabajáramos con un número grande de textos (o información escrita en otros formatos) el ahorro de tiempo y dinero sin duda seria considerable y, por tanto, la inversión podría ser rentable.

Las administraciones, públicas y privadas, trabajan con enormes cantidades de textos y algunas cuentan con sistemas informáticos que les ayudan a manejarlos de una forma mucho más eficiente. Por ejemplo, la CEE utiliza sis­temas de traducción automática para traducir sus documentos a las nueve lenguas oficiales (aunque siempre se requiere la corrección a posterior¡ de los textos traducidos mecánica­mente). El Gobierno americano está desarro­llando sistemas para extraer información de textos periodísticos, de manera que la infor­mación clave se muestre en unas tablas. No son más que ejemplos de aplicaciones que se utilizan y que se utilizarán en el futuro cerca­no.

En la actualidad, la aplicación de las últimas innovaciones en el campo del procesamiento de lenguas naturales para el tratamiento auto­mático de grandes colecciones documenta­les es uno de los objetivos prioritarios de los planes de I+D en el área de tecnología de la información, no solamente a nivel nacional sino especialmente a nivel internacional, don­de los países más avanzados llevan investi­gando desde los años 60.

En resumen, la Lingüística Computacional es una ciencia aplicada (o ingeniería) que se encarga del desarrollo de sistemas informá­ticos que comprendan las lenguas naturales. Entre otras aplicaciones, hemos citado la tra­ducción automática y la extracción de infor­mación pero también se incluyen los interfaces para consultar bases de datos utilizando una lengua natural, o los populares correctores ortográficos, gramaticales y de estilo.

 

2. EXTRACCIÓN DE INFORMACIÓN DE TEXTOS

 

Ya hemos hablado de que gran cantidad de información sólo está disponible en forma es­crita: manuales, informes técnicos, documen­tos legales, noticias de periódicos, etc. Mu­chas veces necesitamos acceder a cierta in­formación que está escondida entre montañas de documentos de una forma rápida y eficien­te. Evidentemente, una manera es leerse cada uno de los documentos y comprobar por uno mismo si su contenido nos interesa, pero esto es sin duda costoso. Mucho más útil es tener almacenada una porción de la información to­tal (es decir, la información más relevante) en una forma más estructurada ‑por ejemplo, en una base de datos convencional‑ de tal mane­ra que nuestro acceso al contenido de cada documento sea notablemente más rápido.

El objetivo fundamental es tratar de emular la capacidad humana de interpretación de mensajes escritos mediante el uso de progra­mas informáticos. Como cualquier otro tipo de automatización, estos sistemas computa­cionales liberarán a los especialistas huma­nos de muchas tareas repetitivas y que exi­gen, por otra parte, gran esfuerzo de concen­tración. Una ventaja adicional es que los orde­nadores pueden funcionar sin descanso, con­siguiendo resultados que sólo se lograrían con una fuerte inversión de personal y tiem­po. La característica más sobresaliente de los sistemas de extracción de información es que permiten la cooperación, o, mejor dicho, la combinación de las habilidades más apropia­das de los humanos y de las máquinas: los analistas humanos son claramente superiores a los ordenadores en tareas complejas como la interpretación de información ambigua. En cambio, las máquinas pueden aventajar a los especialistas en tareas que requieren un alto grado de concentración y atención, como por ejemplo buscar en amplias cantidades de tex­tos con baja densidad de información. En es­tos casos, es frecuente que pase desapercibi­da información relevante escondida entre montones de datos prescindibles. La tarea de estos sistemas será, por tanto, procesar pre­viamente los textos para filtrar la información relevante de la irrelevante, dejando que los analistas humanos se concentren en las tareas complejas y altamente especializadas. La meta de algunos proyectos informáticos de los últi­mos años ha sido precisamente desarrollar sistemas de este tipo.

Concretamente, en el New York University (NYU) se está trabajando en este campo des­de mediados de los años 70 y en la actualidad disponen de un sistema llamado PROTEUS (PROtotype TExt Understanding System) para analizar y extraer información de textos escri­tos en inglés. Dicho sistema tiene una cober­tura bastante amplia en cuanto a construccio­nes sintácticas del inglés y su diccionario con­tiene alrededor de 35.000 entradas léxicas (equivalentes a las entradas de un diccionario impreso). Los autores del artículo han desa­rrollado un sistema similar para el español. En la actualidad cuenta con una cobertura sintáctica bastante similar a la del inglés, aun­que con un diccionario mucho menos elabo­rado. El dominio temático de aplicación en ambos casos es interpretar textos periodísti­cos, aunque solamente los informativos y no los artículos de opinión.

A diferencia de otros sistemas de recupera­ción de información, nuestro sistema no se­lecciona documentos (o fragmentos de docu­mentos) que pueden contener la información requerida, sino que resume el contenido de los documentos y lo muestra de una forma muy estructurada y accesible, a la que poste­riormente se le puede aplicar un proceso de recuperación de información.

Otro aspecto importante es que el usuario de PROTEUS puede modelar el tipo de infor­mación que considera relevante. Aunque esto requiere que el dominio temático de los tex­tos esté muy nítidamente acotado y que la estructura de la base de datos se determine antes del procesamiento de los textos. Esto implica que el sistema es reutilizable para diferentes dominios temáticos, siempre que los modelos interpretativos se adapten específicamente a los nuevos temas. Este tipo de sistemas se adapta idealmente a textos y documentos de tipo técnico, como por ejem­plo informes médicos, manuales de funciona­miento, reportajes científicos y de medio am­biente, textos jurídicos y administrativos (bo­letines oficiales, etc.) y textos periodísticos de carácter informativo.

En resumen, los sistemas de extracción de información facilitan el acceso y tratamiento de grandes colecciones de datos textuales, y mejoran la productividad en las tareas de in­formación y análisis.

 

3. ESTADO ACTUAL DE PROTEUS

 

Los orígenes del proyecto PROTEUS datan del otoño de 1984. El Prof. R. Grishman, del departamento de Informática de la Universi­dad de Nueva York, desarrolló un analizados sintáctico que sirviera como base común para todas las aplicaciones que se crearan dentro del proyecto. Muchos aspectos del diseño del sistema reflejan la herencia del famoso y le­gendario Linguistic String Project, desarrollado (y todavía en uso) por este departamento desde mediados de los años 60 (Sager 1981). El sistema actual incluye un analizados léxico y otro semántico, además del sintáctico, y un generador de plantillas (o registros de bases de datos) especialmente diseñado para la apli­cación en extracción de información. El pro­yecto PROTEUS cuenta con varias aplicacio­nes, entre ellas la consulta a bases de datos utilizando el inglés para comunicarse con el ordenador, pero sobre todo destaca por su participación en todas las conferencias que ha organizado el Gobierno americano sobre la extracción de información (conocidas como Message Undestanding Conferences, MUG). En las cuatro conferencias que se han convo­cado desde 1987, PROTEUS se ha situado siempre entre los cinco primeros grupos de investigación en Estados Unidos en esta área. El objetivo de estas conferencias, organizadas y subvencionadas por DARPA (Defense Advanced Research Projects Agency), persi­gue la evaluación de las distintas tecnologías existentes actualmente en el ámbito de la in­vestigación avanzada en sistemas inteligentes.

El sistema PROTEUS fue desarrollado ini­cialmente para analizar textos en inglés. En los últimos años se ha extendido también al japonés y al español. La versión española ha sido desarrollada por los autores del artículo durante su estancia de 16 meses en la NYU. Varios artículos y conferencias recogen los resultados de la investigación, que se pueden resumir en los siguientes puntos:

 

1. El sistema PROTEUS ha demostrado su capacidad de trasladarse a otras lenguas, con resultados similares a los obtenidos en inglés.

2. El sistema PROTEUS en su estado actual de la versión inglesa consigue extraer entre el 40 y el 50 por ciento de la infor­mación relevante en textos sobre terro­rismo en Hispanoamérica (dominio temá­tico sobre los que se aplicó la evaluación de la última conferencia, MUC‑4), con una precisión también en torno al 50 por cien­to.

 

4. UN EJEMPLO CONCRETO

 

En este apartado presentaremos, de mane­ra simplificada, el funcionamiento del sistema ante un caso real.

Cuando nos enfrentamos con un texto en­contramos diferentes problemas que deben resolverse en sucesivas etapas. En primer lugar, tenemos un input que es simplemente una cadena de palabras en la que el ordena­dor no reconoce ninguna estructura. Por lo tanto, nuestra primera tarea es determinar la estructura de las oraciones, es decir, recono­cer las relaciones que existen entre las pala­bras. Técnicamente, esto se conoce como aná­lisis sintáctico. Por ejemplo, en "Para las pues­tas a tierra el instalador empleará principal­mente electrodos artificiales", tenemos que reconocer que empleará es el verbo, el insta­lador es el sujeto, y electrodos artificiales es el objeto.

Una vez reconocida la escritura, hay que reconocer el significado de la oración, o aná­lisis semántico. En esta fase del procesamien­to se nos presenta un problema típico de las lenguas naturales: una misma idea puede ser expresada de varias formas, o mejor dicho, con distintas estructuras sintácticas u oracio­nes. Continuando con nuestro ejemplo, pode­mos decir también: "electrodos artificiales se­rán empleados por el instalador para las pues­tas a tierra" o "se emplearán electrodos artifi­ciales para las puestas a tierra" (en este último caso, si queremos evitar decir quién fue el autor de la acción). En las tres oraciones exis­te la misma estructura semántica: una acción (que se corresponde semánticamente con el verbo), un agente (el instalador), un instru­mento (electrodos artificiales) y un tema (las puestas a tierra). De la misma manera que podemos reducir las tres oraciones a una úni­ca estructura semántica, nos interesa que este tipo de expresiones se almacenen de una única forma en la base de datos. Es por ello que en nuestra plantilla informativa se repre­senta la información de una manera más abs­tracta, donde los detalles superficiales (como el adverbio principalmente) son eliminados. Un ejemplo de plantilla sería:

 

Tipo de acción:              Emplear

   Autor de la acción:    El instalador

   Tema de la acción:    Puestas a tierra

 Instrumento:               Electrodos artificiales

 

Si trabajáramos con oraciones aisladas habría que producir plantillas o registros de la base de datos para cada oración. Evidente­mente con esto no conseguiríamos nuestro objetivo de resumir el contenido de un artículo. Por ello, lo que hacemos es, dependiendo del tipo de tema del artículo, utilizar plantillas ge­nerales con bastantes campos (o huecos para rellenar), elaboradas a partir del estudio se­mántico de posibilidades. Es decir, se escoge un tema concreto y bien delimitado, y se es­tudian los campos de registro (cada uno apor­tando una información relevante) que pueden aparecer. La experiencia ha demostrado que no se necesitan muchos campos (entre 15 y 20) para dar cuenta de la información impor­tante sobre un tema particular. Por supuesto, muchos de los campos pueden quedar vacíos, pues no es habitual que en un artículo se cu­bran todos los aspectos del tema en cuestión.

 

5. PERSPECTIVAS

 

No es nuevo en Lingüística Computacional el hecho de que cualquier buen sistema de comprensión de lenguas naturales requiere una base rica de conocimiento del mundo, es decir, saber inferir interpretaciones correctas sobre ideas que no aparecen explícitamente en el texto. Siguiendo con nuestro ejemplo del limitados, nuestro conocimiento sobre ins­talaciones eléctricas nos permite interpretar correctamente palabras con más de un signi­ficado. De lo expuesto se puede deducir que cuanto más general queramos que sea nues­tro sistema de extracción de información, más conocimiento del mundo debemos recoger, al tiempo que debemos contar con un meca­nismo de razonamiento que sepa utilizar di­cho conocimiento. Esto no quiere decir que el procesamiento automático de lenguas natura­les sea una utopía: simplemente tenemos que limitar el conocimiento que se necesita para interpretar textos, restringiéndonos a domi­nios muy concretos.

Por otra parte, hay que aceptar cierto grado de error en los resultados de estos sistemas. Como en muchos casos el volumen de textos es demasiado grande para ser procesados directamente por seres humanos, parece pre­ferible conseguir resultados parciales que no obtener nada. Además, los resultados obteni­dos por analistas humanos distan mucho de ser excelentes. En la MUC‑4 se realizó el siguiente experimento: dos analistas especia­listas en el tema de la evaluación trabajaron sobre los mismos textos sobre los que lo hi­cieron los sistemas informáticos, con el fin de comparar la actuación humana y la compu­tacional. Los analistas no consiguieron recu­perar más del 75 por ciento de la información relevante de los textos, mientras que el mejor sistema se acercó al 60 por ciento (Sundheim 1992).

La falta de resultados espectaculares en este tipo de sistemas ha frustrado muchos intentos, pero es innegable que se van haciendo pro­gresos cada año y, sobre todo, se puede ha­blar ya de programas que funcionan satisfac­toriamente ayudando en distintas actividades humanas.

 

Notas

 

 

(1) A. MORENO SANDOVAL ha publicado en colaboración con F MARCOS MARÍN y F SÁNCHEZ LEÓN un extenso artícu­lo sobre el proyecto EUROTRA de traducción automática en el número 16 (1988) de Telos, págs 90‑99.

 

 

REFERENCIAS BIBLIOGRÁFICAS

 

El proyecto PROTEUS está financiado por la Defense Advanced Research Project Agency con la beca N00014‑90‑J­-1851 de la Office of Naval Research, y por la National Science Foundation con la beca IRI‑89‑02304.

La investigación de Antonio Moreno Sandoval fue subven­cionada por una beca posdoctoral MEC‑Fullbright.

GRISHMAN, R. Introducción a la Lingüística Computacional. Visor, Madrid, 1991,

CRISHMAN, R. Information Extraction from Natural Language Text". PROTEUS Project Memorandum núm. 47. Department of Computer Science, New York University. Nueva York, 1991.

MARCOS, F./MORENO, A./SÁNCHEZ, F. "El proyecto EUROTRA en el marco de la investigación sobre traducción por ordenador, en Telos, núm. 16, diciembre‑febrero 1988‑89, págs. 90‑99. Madrid 1989.

MORENO, A./OLMEDA, C./GRISHMAN, R./MACLEOD, C./ STERLINC, J. "PROTEUS: un sistema multilingüe de extracción de información’’, en Actas del VIII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). Universidad de Granada, 1992.

OLMEDA, C./MORENO, A. "El tratamiento semántico en un sistema automático de extracción de información". PROTEUS Project Memorandum núm. 50, Department of Computes Science, New York University, Nueva York, 1992.

Proceedings of the Message Understanding Conference‑3.

San Mateo, Morgan Kauffmann, 1991.

Proceedings of the Fourth Message Understanding Conference (MUC‑4). San Mateo, Morgan Kauffmann, 1992.

SAGER, N, Natural Language Information Processing: a Computes Grammar of English and Its Applications. Readmg, Addison‑Wesley, 1981.

SUNDHEIM, B. "Overview of the Fourth Messag e Understanding Evaluation and Conference", en Proc. Of the MUC­4, págs. 3‑21. 1992.