El proyecto EUROTRA en el marco de la investigación sobre traducción por ordenador

 

F. Marcos Marín / A. Moreno Sandoval / F. Sánchez León

 

El proyecto EUROTRA; sus antecedentes y técnicas, ponen de relieve grandes problemas para la traducción mecánica por ordenador. Pero las perspectivas resultan, a pesar de todo, prome­tedoras.

 

INTRODUCCIÓN

 

La traducción por ordenador ha conocido, en sus cuatro esca­sas décadas de vida, vicisitu­des que van desde el entu­siasmo hasta la moderación, pasando por el repudio. Tal vez esta ajetreada existencia nos está acercando a un horizonte, imprescindi­ble, de planteamientos limitados, junto a los ine­vitables proyectos totales ambiciosos. Tampoco es cierto que ante la existencia de la traducción mecánica los afectados se dividan en acérrimos partidarios o en igualmente encarnizados ene­migos. El Translation Practices Report realizado por Digital muestra que la ausencia de una acti­tud positiva o negativa predefinida con respec­to a ella caracteriza a los profesionales, entre el 40 y el 50 por ciento. Las secciones administra­tivas de los ministerios son las más favorables (28 por ciento), mientras que los traductores no asalariados son los más opuestos (también el 28 por ciento).

La traducción por ordenador no es un con­cepto unívoco, sino que caben hasta tres tipos de instrumentos: la traducción mecánica, llama­da también "automática" (MT), la traducción con ayuda de la máquina (MAT) o "traducción asisti­da", y los bancos de datos terminológicos (TD). El término "automática", tomado del francés, no es el idóneo, porque en realidad se trata de una traducción mecánica, hecha por una máqui­na de acuerdo con unas pautas que han sido preparadas, los programas. La traducción ayu­dada o asistida supone una interacción entre el ordenador y la máquina, de distintos grados: el hombre puede ser el director de la traducción y pedir a la máquina que le resuelva una serie de problemas mecánicos, no puramente léxicos o, más rigurosamente, se trata de que la máqui­na vaya realizando los procesos de análisis y acción sobre el texto y, en el caso de que se encuentre con ambigüedades u otros proble­mas que no pueda resolver, pregunte al traduc­tor humano cuál es la solución en este caso.

La oposición de partida radica en el concep­to mismo de traducción, no en su cara teórica, sino en la práctica. Por ello se llega a una opo­sición entre traducción técnica y traducción li­teraria, con la pretensión de que el estilo sería la marca distintiva. Sin embargo, la situación es mucho más complicada, al servir la traducción a dos finalidades diferenciadas: la adquisición de información y la distribución de la misma. Mien­tras que la primera tiende a ser aséptica, la se­gunda está irremediablemente vinculada a los problemas de mercado y distribución del pro­ducto, por lo cual están presentes en sus textos no sólo los aspectos técnicos, sino también, de forma más o menos velada, los intentos de ac­tuar sobre el receptor, por la vía del convenci­miento. La connotación se introduce así en el lenguaje técnico, jugando un mala pasada a los defensores del supuesto carácter denotativo de éste y, de rechazo, a los traductores.

Hasta seis técnicas lingüísticas, opuestas y combinables, se aplican para estos fines: direc­ta en oposición a indirecta, interlingua frente a transfer, enfoque local o enfoque global. Los in­teresados no son centros de investigación, sino empresas de todo tipo, desde universidades hasta casas comerciales. El mercado no está sólo a la espera, también absorbe productos que se le van sirviendo. A1 fondo, como pers­pectiva final, está la posibilidad de procesar la lengua natural como llave para la inteligencia artificial. Ante esto no falta quien dibuje una sonrisa y mueva la cabeza. Sin embargo, son ya miles y miles de páginas las que se traducen por medio de los ordenadores y la realidad in­discutible es que, en nuestras sociedades mo­dernas, los seres humanos no dan abasto a las necesidades de traducción. Hemos de traducir y no tenemos suficientes traductores, ni tiempo, ni locales, las máquinas pueden ayudar a resol­ver la situación, aunque de momento sea en for­ma imperfecta.

El último adjetivo es la clave de la cuestión. Pedimos a los ordenadores una perfección que no se exige al traductor humano. Todos noso­tros leemos cientos de páginas traducidas al año, si no al mes, y podríamos preguntarnos qué grado satisfacción alcanzan esas traduccio­nes humanas, qué errores hemos detectado y cuántos otros se nos habrán escapado, alguno seguramente (no posiblemente) grave. Parece que el hombre descargara en su instrumento la frustración por sus limitaciones como creador.

 

LAS CUATRO DÉCADAS

 

La era de los ordenadores empezó en 1946; poco tiempo 'después se iniciaron los primeros intentos de traducción mediante su uso. Las téc­nicas de programación eran rudimentarias, a veces puramente físicas (cableado e intercone­xiones); las máquinas tenían una muy escasa memoria, que físicamente, al ser de válvulas de vacío, ocupaba un espacio desproporcionado. La finalidad de los primeros proyectos era muy ambiciosa: sus autores creían que una lengua es un código, como los empleados en las transmi­siones, y pensaban que "lo único" que había que hacer era descifrar ese código de la len­gua "fuente" y cambiar su cifra por la de la len­gua receptora o "meta". Construyeron dicciona­rios para un sistema de traducción literal palabra por palabra, que debía ir seguido de una reordenación ‑de la cadena de palabras para pasar a la sintaxis de la lengua meta. Los cono­cimientos lingüísticos eran también muy primiti­vos y los autores de los sistemas tampoco eran lingüistas, característica que, desgraciadamen­te, se ha mantenido en muchos de los proyectos (las excepciones suelen corresponder, precisa­mente, a los que han funcionado mejor, como el canadiense Taum, autor de METEO).

 

Los años sesenta conocen la primera y mayor crisis, hasta ahora, de la traducción mecánica. Se produce una situación contradictoria, que no parece haber sido analizada acertadamente. Sin pretender haber encontrado la clave que la ex­plique, creemos que vale la pena hacer algunas consideraciones al respecto. La sección de Ciencias del Comportamiento de la National Academy of Sciences encargó a un Automatic Language Processing Advisory Commitee (AL­PAC) un informe sobre "Lenguas y máquinas, los ordenadores en la traducción. y la lingüísti­ca", publicado por el National Research Council en Washington en 1966. El informe, muy negati­vo, provocó el sucesivo abandono de la finan­ciación de los proyectos de traducción mecáni­ca por el gobierno norteamericano (en 1975 no quedaba ninguno así financiado), pero no impi­dió el desarrollo de proyectos a largo plazo en lingüística informática, logró la unión de los lin­güistas interesados en este campo y no pudo parar ni la investigación ni el uso de los progra­mas ya existentes, en las propias oficinas minis­teriales norteamericanas.

La reacción lingüística es comprensible: los sesenta son los años del formidable desarrollo de la lingüística chomskiana, caracterizada por su frontal oposición a los planteamientos con­ductistas que estaban en la base del informe ALPAC. Muchas tesis generativas, paradójica­mente las menos seguras y hoy abandonadas, sostenían posiciones muy favorables a los inves­tigadores de la traducción mecánica. La Univer­sidad de Montreal, por ejemplo, ha mantenido un proyecto de traducción (TAUM) que se de­sarrolló sobre estas bases teóricas y que ha contado con escelentes lingüistas. La reacción "oficinesca" también es explicable: para el enorme número de fórmulas, ritos y memoriales de escasa variación un mecanismo automatiza­do es muy necesario; la multiplicación de la bu­rocracia lo hace imprescindible. No se olvide, por otra parte, que los ordenadores iban su­friendo progresivas mejoras y eran cada vez más capaces de ocuparse de las lenguas naturales, al igual que los programas y todos los pe­riféricos que hoy forman esa potente rama de la "Ofimáticá". El desarrollo de diccionarios, bases de datos, procesadores de textos, editores y co­rrectores de grafía y. estilo está intrínsecamente relacionado con este campo.

La tercera década, la de los setenta, es la dé­cada comercial y de la iniciativa privada, con lo que se vuelve a demostrar que éste es el único modo de progresar. Veamos un ejemplo: la fi­nanciación gubernativa había permitido a la Universidad de Tejas crear el Centro de Inves­tigación Lingüística en 1961 e iniciar el proyec­to METAL (Mechanical Translation and Analsys of Languages). Se acabaron los fondos oficiales en 1974 y acabó, momentáneamente, el proyec­to, para renacer, años después, gracias a otra ayuda oficial; pero dado el carácter feble que tomaba, la empresa alemana Siemens, que par­ticipaba en esta segunda fase, acabó haciéndo­se cargo por entero de él en 1980. El grupo TAUM‑METEO, surgido de TAUM, que el go­bierno canadiense financiaba desde 1965, pudo instalar en 1977 el sistema METEO, el único sis­tema de traducción que puede llamarse de ver­dad "automático", para la traducción de partes meteorológicos. Sin embargo, los costos eleva­dos del proyecto TAUM‑AVIATION y la lenti­tud de su desarrollo causaron su cancelación en 1981. Otros sistemas se instalan, SYSTRAN, del GAT, grupo de la Universidad de Georgetown, adoptado en 1974 por la NASA, la oficina ameri­cana del espacio, pervive, combinado y mejora­do por otros sistemas que lo van perfeccionando. Adquirido por diversas compañías y entidades, como General Motors y la Comunidad Europea, fue uno de los elementos iniciales del proyecto europeo EUROTRA, del que hablaremos más adelante. Otros sistemas del momento son LO­GOS, parcialmente financiado por Siemens des­de 1978; WEIDNER, que desarrolla la Brigham Young University, sistema que había sido patro­cinado por la Iglesia de los Santos de los últi­mos Días, los mormones, para la traducción de sus textos religiosos; APANAM, a partir del sis­tema de la Universidad de Georgetown; GAT, para español e inglés, es el sistema de la Orga­nización Panamericana de la Salud, en Was­hington: en 1980 empezó su funcionamiento efectivo.

Los setenta conocen también la implantación de los sistemas de traducción ayudada por el ordenador o combinada con él. CULT empezó en la Universidad China de Hong Kong para traducir del chino al inglés, y ALPS (Automated Language Processing Systems), derivado del trabajo realizado en la Brigham Young Universi­ty, en 1980, incrementado poco después por in­vestigadores de WEIDNER, cuyos accionistas parecen ser mayoritariamente japoneses, desde 1983. Este proyecto ha resultado interesante para las empresas, como IBM, en cuyas máqui­nas funciona, tanto en el tipo PC/AT como en los ordenadores mayores, en la modalidad VM/ CMS. Tiene dos niveles de actuación: el prime­ro, Auto Term, ofrece al usuario, en pantalla, la traducción de todos los términos que aparecer. en una frase, junto con un procesador de texto plurilingüe y un consultor de diccionarios rápi­do. El segundo nivel, Trans Active, analiza ora­ciones a base de preguntar al usuario cuando se encuentra ante algún punto confuso, tras lo cual produce una traducción de esa oración.

Los ochenta se iniciaron, por tanto, en plena recuperación del interés por la investigación. En 1982 los japoneses anunciaron su proyecto de ordenador de quinta generación, uno de cu­yos elementos esenciales era la lengua natural, incluyendo la traducción mecánica: el proyecto MU, en este caso. Este planteamiento de la dé­cada de los ochenta tiene una repercusión que todavía no se presenta con crudeza, pero que tenderá a ello: la creciente exigencia de los lin­güistas a participar en el plano que les corres­ponde en la investigación de lingüística infor­mática, apoyada por el hecho innegable de que esta participación ha proporcionado resultados satisfactorios, en la mayoría de los casos. Tal vez por ello ciertos "expertos" en inteligencia artificial han pretendido desmarcarse de la tra­ducción mecánica, intensificando los trabajos de robótica, que son los menos interesantes para los lingüistas y los más espectaculares. Hay, empero, una observación que no es bala­dí: mientras que este tipo de investigaciones in­cide en el mercado del trabajo y en la ecología, la investigación lingüística mejora las condicio­nes de aquél y crea nuevos puestos.

Una de las características más notables de los proyectos de los ochenta es su carácter univer­sitario. Siguen algunos de los programas ante­riores, como hemos visto; pero, junto a ellos, se desarrollan las nuevas investigaciones en las universidades y centros asociados. CETA (Groupe d'Études pour la Traduction Automati­que) se creó, tras el abandono de CETA, en Grenoble, Francia. SUSY‑II empezó en 1981, para sustituir a SUSY (Saarbrücker Überset­zungssystem), cuyos objetivos eran no sólo len­guas naturales como el alemán, inglés, francés y ruso, sino también artificiales, como el esperan­to. Exclusivamente universitario es el proyecto que más directamente nos afecta, por la partici­pación de España: EUROTRA, el más interna­cional y de mayor cobertura lingüística, al abar­car a todas las lenguas nacionales de la Comu­nidad Europea.

Esta situación ha conducido, en esta segunda mitad transcurrida de la década, a que se re­nueve el interés de las casas comerciales, como IBM, cuyo proyecto MENTOR, que se lleva a cabo en Madrid e Israel, empezó en 1987 en su primera fase.

El proyecto EUROTRA, probablemente el más ambicioso de cuantos proyectos de traduc­ción mecánica se desarrollan en la actualidad, empezó a funcionar como tal en 1982.

La Comunidad Económica Europea se propuso dos objetivos fundamentales para su proyecto:

 

La construcción de un prototipo pre‑indus­trial de un sistema de traducción mecánica para las lenguas oficiales de la Comunidad.

La formación de expertos en traducción por ordenador y otras áreas de la lingüísti­ca computacional dentro de los países co­munitarios.

 

El prototipo ha de ser multilingüe y capaz de proporcionar traducciones de una calidad aceptable sin la intervención humana antes o durante el propio proceso de traducción. No se descarta, sin embargo, la posibilidad de que sea necesaria una ligera labor de postedición humana de los documentos traducidos por el prototipo ‑como es común en todos los siste­mas actuales, tanto en los que ya funcionan como en los que se encuentran en fase de de­sarrollo.

Lo ambicioso de este proyecto es el número de lenguas que pretende cubrir: español, fran­cés, inglés, italiano, portugués, alemán, danés y, como caso excepcional ‑ya que se trata de una lengua incluso grafémicamente muy distinta a las restantes, cuyos caracteres no son soporta­dos por los ordenadores convencionales‑, griego. Traducir un documento de cualquiera de las nueve lenguas oficiales de la Comunidad a cualquier otra por el método de transfer, que se describe en el epígrafe siguiente, supone la creación de 9x8=72 módulos de transferencia para cubrir todos los pares de lenguas posibles, sin olvidar los nueve módulos de análisis, uno para cada lengua, y los nueve de generación. Ésta es, como puede verse, una tarea nada despreciable que habrá de estar terminada para el año 1990.

En cuanto al volumen del diccionario, pieza fundamental en cualquier sistema que pretenda manipular de alguna forma la lengua natural, se ha establecido en 20.000 entradas, en esta pri­mera fase del prototipo, del área temática de las nuevas tecnologías de la información, que es el submundo elegido para EUROTRA. La cons­trucción del diccionario es, sin duda, uno de los trabajos más pesados y costosos en tiempo y número de personas de los sistemas de traduc­ción mecánica. Mientras que un analizador sin­táctico es fácilmente utilizable, con leves modi­ficaciones, en varios proyectos distintos, un dic­cionario rara vez lo es, dado que no todos los sistemas emplean la misma información semán­tica, por ejemplo, o que quizá los programas es­peran que ésta aparezca ordenada de determi­nada manera. En este sentido, es importante la labor de grupos como los de las universidades de Pisa (Italia) y de Kyoto (Japón), que están tratando de convertir los ya existentes dicciona­rios legibles por ordenador (machinereadable dictionaries, MRD) en estructuras manejables por sistemas de procesamiento de la lengua na­tural, y que podríamos llamar bases de datos lé­xicos (lexical databases, LDB). Es mucho el tiempo y el dinero que ahorrarían a todo tipo de proyectos que podrían beneficiarse así del trabajo realizado por otros, quizá más concien­zudamente.

También resultan de gran ayuda para el lexi­cógrafo que tenga a su cargo la elaboración del diccionario de un sistema de traducción por or­denador los bancos de datos terminológicos (terminology databanks, TD), que ponen a su disposición la más fidedigna y actualizada tra­ducción de términos sobre ramas de la ciencia y de la técnica que están en continuo cambio y crecimiento. Una vez incorporados a su diccio­nario, la traducción que proporcione su sistema de traducción mecánica será más ajustada en este sentido que cualquier traducción humana.

Por último, cabe mencionar que existen dos grupos de investigación de EUROTRA funcio­nando en España, uno en la Universidad Autó­noma de Madrid y otro en la Central de Barce­lona, encargados, respectivamente, de la elabo­ración del diccionario, la normalización del tex­to y la morfología, y de los niveles sintáctico, re­lacional y semántico, además de los módulos de transferencia.

 

TÉCNICAS LINGÜÍSTICAS

 

Si la finalidad es una traducción directa, de una lengua determinada a otra bien determina­da (p. ej., GAT), las técnicas lingüísticas procu­rarán, sencillamente, tener en cuenta las nece­sidades de la lengua a la que se traduce, por ejemplo a la hora de deshacer ambigüedades. Los proyectos como EUROTRA, en cambio, cuya meta son muchas lenguas, deben construir analizadores y sintetizadores independientes. A muy grandes rasgos, podemos decir que los pa­sos son los siguientes:

 

1. Se toma una oración de la lengua fuente y se somete a un proceso de análisis, en el cual se van determinando las característi­cas morfológicas, las especificaciones sin­tácticas abstractas, y los rasgos semánticos. Para ello hay procedimientos específicos: analizadores morfológicos, procedimientos sintácticos, como las redes de transición o las redes de transición aumentadas, técni­cas de trazado o parsers: de arriba abajo o de izquierda a derecha, de abajo arri­ba o de derecha a izquierda. La combina­ción de estos medios va desambiguando la oración y proporciona (en el caso ideal) una interpretación definitiva. Esta interpre­tación se presenta como un conjunto de rasgos abstractos, como una representa­ción de la abstracción de esa oración fuen­te.

2. El segundo paso sería la transición de ese nivel abstracto, el más abstracto posible, de la lengua fuente al nivel también más abstracto posible de la lengua meta. Los problemas implicados son varios, y funda­mentales, por lo que volveremos a ellos una vez finalizada esta exposición esque­mática.

3. El tercer gran paso del esquema es la ge­neración de la oración en la lengua meta que corresponde a la lengua fuente. Para ello se hace uso de generadores sintácti­cos y morfológicos (que corresponden a los analizadores del mismo tipo usados en la primera fase) que tienen en cuenta las especificaciones del análisis de los rasgos semánticos. Es evidente que la prueba de que el proceso es correcto sería su rever­sibilidad: una oración de la lengua fuente OLF sería traducida a la oración de la len­gua meta OLM. Tras ello partiríamos de OLM, considerada ahora como fuente, y

 

habríamos de llegar a OLF, ahora como meta. Inútil decir que este punto todavía no ha sido alcanzado y debemos confor­marnos, por ahora, con aproximaciones. Sin embargo, hay que reconocer que se han superado los fracasos de la traducción directa, que era una traducción lineal pala­bra por palabra dirigida léxicamente, es decir, sin ningún tipo de transferencia es­tructural y en la que tan sólo se efectuaba una reordenación de las palabras de la OLM. El peso de la traducción recae, por tanto, en los diccionarios, que han de estar muy desarrollados, y en el análisis morfoló­gico. Es ya clásico el ejemplo de un siste­ma de traducción directa del inglés al ruso y viceversa, que debía traducir la siguien­te oración:

 

"El espíritu es fuerte, pero la carne es dé­bil".

 

La traducción al ruso fue aceptable, pero cuando se efectuó el camino inverso con la oración rusa, el resultado fue:

 

"El vodka es bueno, pero el filete está po­drido".

 

Ningún sistema actual medianamente bien pensado ofrecería tan pésimas traducciones.

 

El paso segundo se da, como hemos visto, en un nivel profundamente abstracto, al que se lle­ga por progresivas representaciones de los car­gos analizados. Si se emplea un método de in­terlingua, se considera que desde el primer ni­vel se pasa a representar la "estructura univer­sal" de la oración, que corresponde a una forma lingüística concreta de una lengua dada, pero que no la representa como propia de esa len­gua, sino como un "contenido universal" que respeta, necesariamente, pero no calca, la es­tructura que representa las oraciones de la len­gua fuente y la lengua meta, no se trata de la "sustancia del contenido", sino de la conforma­ción de ese contenido en todos los planos lin­güísticos: morfofonológico, sintáctico y semánti­co. El correspondiente "contenido universal" se supone que es el mismo en todas las lenguas. A partir de las estructuras de las lenguas particu­lares se llega a una suerte de "lugar común lin­güístico", en el sentido matemático, donde todas las estructuras se acoplan en lo común de la lengua o la común esencia, si usamos el vocabulario del remoto planteamiento filosófico idealista, neoplatónico, de esta tesis. Ésta sería, precisamente, la interlingua, cuya base teórica es el concepto de los "universales lingüísticos". Cabe mencionar que, si bien esta estrategia es cronológicamente anterior a la de transfer, es usada hoy en día por pocos de los proyectos en fase de desarrollo, que se inclinan, la mayoría, por el transfer. La dificultad radica en la inexis­tencia, hoy por hoy, de una teoría lo suficiente­mente desarollada que dé cuenta de la repre­sentación de un texto de forma universal e in­dependiente de la lengua en que esté escrito. Algunos expertos opinan que, por este motivo, los sistemas de los próximos diez o veinte años estarán basados en el transfer. Sin embargo, al­gunos sistemas de traducción por ordenador que se desarrollan en la actualidad utilizan la estrategia de la interlingua: es el caso del siste­ma holandés Distributed Language Translation (DLT), sistema multilingüe, basado en realidad en una técnica mixta transferinterlingua, que emplea el esperanto como interlingua, o el de la empresa japonesa FUJITSU, que se desarro­lla, entre otros países, en España.

Otra técnica es el transfer o transferencia. Este sistema implica un tercer y nuevo nivel: mediante el análisis de cada lengua llegamos a un nivel de máxima abstracción en la represen­tación de los rasgos que son propios, para cada oración. Sin embargo, entre ese nivel en la len­gua F y el correspondiente en la lengua M; es necesario que haya un convertidor, un sistema que transfiera el "significado" de F en el de M, este estadio de transferencia o tercer nivel es el transfer. Por supuesto, cada una de estas eta­pas y sus pasos intermedios requieren la elabo­ración de reglas lingüísticas y permite la ex­tracción de conclusiones teóricas de gran finu­ra. El funcionamiento de estas reglas exige que se construyan los programas correspondientes, para que el sistema de traducción funcione. La mayor atención concedida a este aspecto, el in­formático, sobre el primero, el lingüístico, es, a nuestro juicio, una de las razones de los estan­camientos sucesivos de la traducción mecánica. La solución; por supuesto, no consiste en primar a los lingüistas en detrimento de los informáti­cos, sino en determinar con sensatez los límites de la colaboración y el trabajo específico. Lo significativo de esta estrategia es que el módulo de transfer es específico para cada par de len­guas. Por otro lado, la complejidad del transfer está en relación inversamente proporcional a la profundidad en el estudio del análisis y de la generación. La situación ideal es la de transfer­0, en la que esta fase se reduce al mínimo; sin perder de vista el hecho de que cuanto mayor sea el nivel de análisis deseado, más difícil será de conseguir y, por tanto, será menos fiable construir un sistema de traducción mecánica que se beneficie de esta profundidad de análi­sis. EUROTRA, como ya se ha dicho, utiliza la transferencia como etapa central de su proceso.

Cuando hablamos de enfoque local nos refe­rimos a sistemas, como SYSTRAN, que parten de un detallado análisis de la palabra: elemen­tos morfológicos, tipos de derivación, conside­ración fraseológica, "sentidos", que son conside­rados en una etapa inicial. Los partidarios del enfoque global reprochan al anterior que este análisis se realiza demasiado pronto, con el fin de desambiguar los homógrafos cuanto antes, y que podría aprovechar los resultados de otros análisis que se realizan con posterioridad. ME­TAL, por ejemplo, que es un sistema global, no desambigua en el análisis inicial, de la palabra, sino que espera a tener en cuenta el contexto, raras veces superior al contexto oracional, en todo caso.

Con todo, las dificultades para producir un sistema de análisis automático completo de una lengua son varios, siendo las más importantes la polisemia y la homonimia de las lenguas natura­les. Por ello, los sistemas de traducción mecáni­ca se ven obligados a reducir su cobertura, tan­to lingüística como conceptual, y el grado de automatización del proceso de traducción. Así, la solución pasa por delimitar un submundo o sublengua de la lengua general, o bien optar por algún tipo de traducción asistida por orde­nador (MAT). Si se adopta la estrategia de la sublengua, habrá que buscar una que sea con­sistente, completa y que presente una elevada economía de expresión. Una sublengua ofrece las siguientes ventajas: contiene un subconjunto bastante reducido del léxico total de una len­gua; la polisemia y la homonimia se ven reduci­das drásticamente dado que los significados po­tenciales han de tener sentido dentro de la sub­lengua; la cantidad de conocimiento extralin­güístico que maneje el sistema ‑si es que lo hace‑ habrá de limitarse al submundo tratado y no será un conocimiento global del mundo; el inventario de estructuras sintácticas disponibles en una lengua se usa tan sólo en una pequeña parte, lo que simplifica enormemente la cons­trucción de gramáticas. Además, y como una ventaja adicional para la traducción, se ha com­probado que la semejanza estructural entre sublenguas correspondientes en distintas lenguas es mayor que la que existe entre dos sublen­guas diferentes de la misma lengua. En este sentido, la elección y delimitación de una sub­lengua o submundo apropiado no es tarea bala­dí: así, el grupo TAUM pudo comprobar lo acertado de su elección al diseñar TAUM‑ME­TEO, que traducía partes meteorológicos, y el fracaso que supuso tomar como sublengua la de los manuales de mantenimiento aeronáutico para su proyecto TAUM‑AVIATION.

Si se opta, sin embargo, por la traducción asistida por ordenador (MAT) en alguna de sus modalidades, habrá que determinar, en primer lugar, el grado de ayuda humana a la traduc­ción. Suponiendo que ésta sea la mínima posi­ble, estaremos ante un sistema de traducción mecánica ayudada por el hombre (human‑arded machine tránslation, HAMT). La ayuda humana podrá realizarse antes de la traducción (preedi­ción), reescribiendo giros y reemplazando pala­bras ambiguas por otras que para el sistema tengan un significado único, después de la tra­ducción (postedición), corrigiendo posibles errores y limando el estilo de la traducción, o durante el propio proceso de traducción (tra­ducción interactiva), siendo ésta un diálogo con la máquina que ayude al sistema en la labor de desambiguación. Esta última estrategia es la más complicada (aunque también la más atrac­tiva) por cuanto que necesita de la incorpora­ción al sistema de un módulo de diálogo hom­bre‑máquina.

Muy relacionada con la interlingua, aunque sin tratarse de una técnica lingüística estricta­mente, se encuentra la aproximación a la tra­ducción mecánica desde el punto de vista de la Inteligencia Artificial. Para la IA, los "universa­les lingüísticos" se transforman en lenguajes de representación del conocimiento donde tienen cabida tanto la información lingüística que se extrae directamente del texto, como aquella que, no siendo explícitamente mencionada, puede inferirse de éste. En este tipo de sistemas, el "conocimiento del mundo" que posee el propio sistema es utilizado en la desambigua­ción. Para los defensores de esta escuela, la tra­ducción no es un hecho exclusivamente lingüís­tico. Así, algunos de sus sistemas no hacen ver­dadera traducción, sino paráfrasis de lo expre­sado en una lengua en otra.

Un ejemplo concreto nos puede ayudar a comprender cómo se aplican estas técnicas. EUROTRA, como se ha mencionado anterior­mente, utiliza un modelo de transfer. Esto influye directamente en los lenguajes de represen­tación por cuanto que no se necesita un número muy elevado de estos niveles, en los que se descompone la relación de traducción. (análisis o generación). Esta descomposición en distintos niveles es necesaria porque no es posible de­sarrollar una notación que sea capaz de relacio­nar textos directamente. Es decir, no existe un formalismo que describa las relaciones morfoló­gicas, sintácticas y semánticas al mismo tiempo. Cada lenguaje de representación está definido explícitamente por medio de una gramática (G), que genera todas las expresiones posibles en ese nivel. Cada nivel se relaciona con el prece­dente y el siguiente mediante traductores (T). Estos "traductores" simplemente transmiten los objetos lingüísticos creados en un nivel al si­guiente, donde de nuevo pasan por las reglas de la gramática, y así sucesivamente. Este es el esquema general, donde aparecen ya los distin­tos lenguajes de representación con su nombre:

En la breve explicación que seguirá a conti­nuación agruparemos los niveles por fenóme­nos, ya sean morfológicos (ENT y EMS), sintác­ticos (ECS y ERS) o semánticos (IS).

 

A los tres primeros niveles (ETS, ENT y EMS) se los conoce dentro de EUROTRA como base levels o niveles básicos. ETS (EUROTRA Text Structure) se encarga de la estructura del texto teniendo como elementos terminales a los ca­racteres, es decir, a cada carácter le asigna in­formación acerca de si es una letra, un blanco, un signo de puntuación, un dígito, etc. En este nivel ya se delimitan provisionalmente las pala­bras y las oraciones gracias a los signos de puntuación y a los blancos, y así se evita la so­bregeneración en los niveles morfológicos y sintácticos.

La morfología se divide en dos niveles: el más bajo (ENT) se encarga de los aspectos morfografémicos, por así decirlo, y el superior (EMS) trata las cuestiones puramente morfosin­tácticas. Es decir, la gramática de ENT se en­carga de la normalización de caracteres y, so­bre todo, de la alomorfía. En este primer nivel morfológico se establece qué combinaciones de letras forman las posibles cadenas básicas de una lengua determinada. Es importante se­ñalar que en muchas ocasiones alguno de los "alomorfos" elegidos para establecer estas ca­denas no se corresponde con los utilizados en morfología teórica. Estas cadenas básicas, que se calculan alrededor de las 10.000 para cada lengua, trasmiten una información elemental acerca de las posibilidades combinatorias de cada una, es decir, de si se trata de una raíz, un prefijo, un elemento flexivo, etc. Con esta infor­mación la gramática del siguiente nivel (EMS) puede combinar distintos "objetos" para formar palabras, ya plenamente analizadas. De esta forma reciben la categoría gramatical, el géne­ro, el número, el tiempo, la persona, etc,, que se necesitan para el análisis sintáctico superfi­cial.

ECS y ERS son los niveles sintácticos que se encargan de establecer la relación entre las pa­labras y la interpretación semántica, es decir, ECS agrupa secuencias de palabras en sintag­mas y ERS recoge las relaciones gramaticales que subyacen bajo las realizaciones superficia­les. ECS representa la estructura de constitu­yentes (SN, SV, etc.), mientras que ERS trata con sujetos, objetos, etc. La división de trabajo entre ambos niveles varía según las lenguas y, en consecuencia, no se puede generalizar que determinados fenómenos deben ser tratados necesariamente en un nivel u otro; es una cues­tión abierta a cada grupo nacional. En español, por ejemplo, los fenómenos de concordancia entre artículo, nombre y adjetivo, al caer dentro del ámbito del SN, se tratan en ECS. En cam­bio, los procesos de pasivización, donde son re­levantes las nociones de sujeto y objeto, se re­presentan en ERS.

IS (Interface Structure) es el lenguaje de re­presentación más abstracto en nuestro sistema. Es entrada y salida para el transfer, y punto de contacto entre las dos lenguas. En este nivel se representan, por un lado, los papeles temáticos (agente, paciente, instrumento, meta, etc. ); por otro, los rasgos semánticos (animado, humano, abstracto, concreto, etc. ). Al llegar a este nivel, toda construcción tiene una "cabeza léxica" que rige (de ahí el nombre de governor que recibe) al resto de los argumentos (arg) que dependen de ella. Esta representación tan abstracta es la que se transfiere al nivel equivalente de la len­gua meta. Entonces comienza el proceso a la in­versa, del nivel más abstracto al más concreto. Esto es lo que se denomina generación.

 

PERSPECTIVAS

 

En la previsión del futuro es preciso diferen­ciar muchos de los puntos que hemos ido tra­tando anteriormente. Los bancos de datos ter­minológicos, por ejemplo, se benefician ya de los grandes avances de las técnicas, no sólo en cuanto a los tipos de bancos de datos, sino de soportes, como el disco óptico, o de posibilida­des de acceso, que incluyen la sencilla línea te­lefónica y la pantalla del televisor casero. La traducción ayudada por ordenador también dis­fruta de esas ventajas y del desarrollo de los procesadores de textos, que llega hoy con faci­lidad a los sistemas del tipo "lo que usted ve (en la pantalla) es lo que tendrá usted al final del proceso" (what you see is what you get).

Todos estos adelantos se suman al de la tra­ducción mecánica en su aspecto más automáti­co. Sin embargo nadie puede creer hoy que es­temos cerca de la solución, y nada sería más negativo que un optimismo excesivo en este campo. Hace siete mil años el hombre no sabía escribir; de todos modos, siete mil ,años no son nada, ni siquiera en la historia de los homínidos, y aproximadamente la mitad de la humanidad sigue hoy sin saber leer o escribir, pese a tanto avance.

Las soluciones han de venir del doble frente: los lingüistas, por su lado, y en algunos puntos los lógicos, con ellos, han de perfeccionar y aquilatar sus técnicas de trabajo, para ofrecer resultados seguros. Cuando no tenemos todavía ni siquiera una gramática descriptiva del espa­ñol completa, no resulta extraño que sea difícil lograr un buen sistema de traducción. No diga­mos nada de los estudios semánticos. La mayor parte de las lenguas de cultura, si no todas, ca­rece de una buena semántica descriptiva, por no hablar de la de tipo histórico, imprescindible para la completa explicación de fenómenos y causas. En el lado informático, al parecer, la exigencia pasa por ordenadores más veloces, instrumentos de uso común con mayor memo­ria, cosas no demasiado difíciles de resolver, y también con capacidad del trazado simultáneo de varios análisis, así como capaces de acudir a repertorios de informaciones adicionales, como bases de conocimientos, en casos de duda e indefinición, donde, según todas las noticias, radi­ca el problema. A este respecto, se hace nece­sario investigar sobre la forma adecuada de es­tructuración de las bases de conocimiento. Asi­mismo, es indispensable una mejora del algorit­mo de procesamiento, capaz de cubrir mayor número de fenómenos lingüísticos en un tiempo menor. Por último, ha de mejorarse el entorno del usuario, de forma que el sistema no obligue a éste a contestar complicadas preguntas en un lenguaje desconocido para él.

Es muy posible que una de las explicaciones de los fracasos radique en la pretensión de que el traductor mecánico imite al traductor huma­no. Es curioso, porque al inventar la máquina de escribir no se pensó en copiar la mano y los micrófonos no copian la boca o la oreja. La pre­tensión de explicar todo esto y de dar solucio­nes sería ilusoria. El conjunto de las meditacio­nes de todos, sin embargo, podrá ir ayudando a solucionar este problema, del que depende el éxito del intento.

 

Para terminar, volveremos al punto de parti­da: la traducción mecánica no es un sueño, está ahí. Todos los años se traducen millones de pa­labras, cada vez más. Se puede decir que no pasa día sin que las grandes empresas reciban propaganda de sistemas comerciales accesi­bles por teléfono, que ofrecen traducciones re­visadas o borradores de traducciones en plazos mínimos (veinticuatro horas). La exigencia de perfección es tan exagerada como sería preten­der que todos los seres humanos supiéramos traducir al menos de una lengua. Plantear este intento, sobre todo vinculado a necesidades de carácter burocrático y técnico, en relación con la lengua literaria, tiene el mismo sentido que obligar a todos los hablantes de una lengua a componer poesía. La investigación está abierta, de ella se beneficia un buen número de seres humanos ya.

 

REFERENCIAS BIBLIOGRÁFICAS

 

No citaremos aquí ninguna obra sobre la traducción en general. Los conceptos informáticos mínimos y la bibliografía pertinente se encuentran en Francisco Marcos Marín y jesús Sánchez Lobato, Lin­güística Aplicada, Madrid: Síntesis, .988. Para la relación de los tra­ductores con las nuevas técnicas es muy interesante el Translahon Practices Report, Readmg, Digital Equipment Co. Ltd„ 1986. Son ya libros históricos los de A. G. Oetnnger, Automatic Language Transla­tion, Cambridge (Mass). Harvard Umversity Press, 1960, y G. Mou­mn, La Machete á Tradure. Historie des Problémes Lingustiques La Haya: Mouton, 1964. Entre estas anécdotas mencionaremos que el primer artículo en España sobre la matera parece ser el de F. Marcos Marín, "Posibilidad y dificultades de la traducción automáti­ca", Filología Moderna, 42, 1971, 313‑327. Una buena historia de la traducción por ordenador puede encontrarse en W, J. Hutchms, Ma­chine Translation: Past, Present, Future, Chichester, England: Ellis Horwood Limited, 1986. La situación actual se presenta claramente en Jonathan Slocum, "Machete Translation", Computers and the Hu­mamhes, 19, 1985, 109‑116. Los números 1, 2 y 3 del vol. 11 de Com­putahonal Linguistics, 1985, están dedicados a la traducción mecáni­ca, con abundante y moderna bibliografía, que incluye una sección especial, A Machete(‑aided) Translation Bibliography", págs. 170­183, que sólo incluye escritos en inglés, francés y alemán, entre 1973 y 1984 La información oficial sobre EUROTRA aparece en la News­letter, 42, 1985 de la Comisión de las Comunidades Europeas. Sobre la metodología y el funcionamiento de EUROTRA pueden consultar­se M. Kmg, "EUROTRA: An attemp to achieve multilingual MT", en V. Lawson (edt), Practica] Expenence m Machine Translahon, Ams­terdam: North Holland, 1982, pp. 139‑148; M. King y S. Perschke, "EUROTRA and its oblectives'", Mulrilingua, 1, 1982, 27‑32; R L. John­son, S. Krauwer, M. Rosner y G. B. Varile, Design of kernel archi­tecture of the EUROTRA system', en Proceedings of COLING‑84, 1984, pp. 226‑235; D, J, Arnold, S. Krauwer, M, Rosner, L, des Tombe y G. B. Varile, "The < CA>, T framework m EUROTRA: a theoreti­cally committed notaticn for MT", en Proceedings of COLING‑86, 1986, pp. 297‑303; o el muy reciente A. Bech y A. Nygaard, "The E­framework: a formalism for natural language processing'", en Procee­dings of COLING‑88, 1988, pp 36‑39. Algunos de los últimos intentos de extracción de información semántica de diccionarios legibles por ordenador pueden encontrarse en N. Calzolan y E. Picchi, "Acquisi­tton of semantic information from an ordinary English dictionary and its evaluation', ambos en Proceedmgs of COLING‑88, pp. 87‑92 y 459‑464, respectivamente. Mori Rimon y Luis de Sopeña han prepa­rado un informe interno de IBM (última redacción que conocemos, febrero de 1987) titulado Machete Assisted Translation. fi proposal for IBM EMEA / oreas Division, que ilustra la actitud de las grandes compañías y algunas de las perspectivas que se divisan, como pue­de ser un cierto interés por la traducción con ayuda del ordenador.