Las industrias del idioma

El proyecto LIFE, iniciativa de la CEE frente a Japón y Estados Unidos

 

Obdulio Martín Bernal/Manuel Rodriguez Jiménez

 

Las nacientes industrias de la lengua ‑surgidas de la aplicación de las nuevas tecnologías de la información al idioma‑ están cobrando una importancia económica e industrial creciente. Se examinan aquí bajo una perspectiva general, delimitando sus contenidos y ofreciendo un bosquejo de las iniciativas concretas emprendidas por la Comunidad Económica Europea, defi­nidas principalmente en el proyecto LIFE (Language Industry for Europe).

 

Nadie duda ya de que los idio­mas han sobrepasado hoy su papel fundamental como ins­trumentos de comunicación y cultura. El progreso científico y tecnológico, y, en especial, la difusión generalizada de las llamadas Nuevas Tecnologías de la Información otorgan a la lengua una creciente importancia como instrumento de trabajo, pero también como objeto industrial, al constituirse la infor­mación y su entorno en un sector económico de primera magnitud. Dentro de este sector, la consideración industrial de la lengua tiene una entidad todavía incipiente pero que ofrece esti­mables expectativas económicas, políticas, so­ciales y culturales.

 

HECHO CULTURAL Y HECHO INDUSTRIAL

 

La expresión industrias de la lengua ha toma­do carta de naturaleza en amplios espacios so­ciopolíticos y económicos de las sociedades de­sarrolladas, y no parecen molestar ya sus pre­tendidas connotaciones economicistas ni a los más pertinaces defensores del purismo. Entre otras razones, porque el peso de las realidades económicas tiende a crear con notable rapidez una opción social determinada, pero también porque la explotación industrial de la lengua, además de su nítido significado como actividad económica, aporta, cuando menos en sus pri­meros planteamientos conceptuales, notables garantías de valor añadido en cuanto a revalori­zación y difusión de la propia lengua y de todos aquellos bienes culturales que se apoyan en ella. “Hecho cultural junto a hecho industrial, és­tos serían los dos focos en la perfecta imagen geométrica de la elipse lingüística” (1).

Las nacientes industrias del idioma son pro­ducto de la aplicación de las nuevas tecnologías de información a la lengua, y abarcan desde la traducción por ordenador hasta la conversión de texto a voz, pasando por la terminología, la lexicografía y el reconocimiento de la palabra escrita, entre otros muchos aspectos. Los co­rrectores ortográficos incorporados a los trata­mientos de texto, la gestión de archivos, los programas de análisis del léxico, los sistemas de reconocimiento de voz y su generación, jun­to con las ayudas de producción multilingüe de textos, son productos industriales ‑algunos de ellos meros futuribles aún‑ enmarcados en este contexto general.

Lejos estaban los futurólogos de no hace tanto de imaginarse la apertura de nuevos mercados basados en las manipulaciones técnicas de la palabra. Sin embargo, hoy esta actividad ofrece ya apreciables resultados y un acelerado ritmo de crecimiento, y a medio y largo plazo se pre­vé un mercado potencial mucho mayor. Algu­nos productos como los bancos de datos, los diccionarios electrónicos, la traducción con ayu­da de ordenador, etc., están presentes en ma­yor o menor medida y en distintos grados de desarrollo en el mercado; otros servicios y sis­temas como la síntesis y sobre todo el reconoci­miento de voz, la enseñanza de idiomas por or­denador, la redacción automática de borrado­res, etc., tendrán que esperar todavía para al­canzar un desarrollo satisfactorio y algún tiempo más hasta que se llegue a una implantación ge­neralizada.

A pesar de que sus ámbitos distan mucho de estar bien delimitados, son numerosos los cam­pos de actividad que puede englobar la “indus­tria de la lengua”, según puede apreciarse en el Cuadro 1, que constituye un primer esquema aproximativo de los expertos de la CEE en un informe sobre el proyecto LIFE (Language In­dustry for Europe) (2). Los más importantes de estos dominios son tratados con detenimiento en otros artículos de este Cuaderno Central.

Los todavía no muy numerosos analistas que han abordado hasta ahora esta actividad emer­gente coinciden en señalar que uno de los indi­cios de la imparable industrialización de los idiomas es la creciente aparición de artilugios que se expresan en voz alta, generalmente has­ta ahora de forma rudimentaria, pero suficiente para comunicaciones concretas, de carácter téc­nico. Ahí es donde se espera, por otra parte, surja el núcleo industrial de las industrias lin­güísticas. En el terreno de la traducción auto­mática, las cifras hablan por sí solas. Según fuentes de las Naciones Unidas, se traducen al año más de 300.000 páginas. El mercado mun­dial de la traducción alcanza por su parte la ex­traordinaria cifra de 200 millones de páginas al año y genera transacciones superiores a los 150.000 millones de pesetas en el mismo plazo. Teniendo en cuenta que la mayoría de esta in­formación es de tipo técnico, en el más amplio sentido de la palabra ‑la traducción literaria es otra cosa y su automatización es aún casi qui­mérica‑, estamos ante un panorama revelador del auge que se prevé para tales industrias que acabarán con el monopolio humano de la comu­nicación verbal y escrita a medida que vayan

 

CUADRO 1

SECTORES

DE LAS INDUSTRIAS DE LA LENGUA

 

Léxicos y diccionarios electrónicos

Diccionarios electrónicos

Bancos de datos lexicográficos, morfológicos y fonéticos

Correctores ortográficos

Indización automática

 

Tratamiento del lenguaje natural

Traducción automática con ayuda de ordenador

Consulta de bancos de datos en lenguaje natural

Creación de bancos de datos monolingües

Corrección morfosintáctica

 

Comunicación oral hombre‑máquina

Introducción oral de textos

Generación y síntesis de voz

Diálogo oral hombre‑máquina

 

Inteligencia artificial y comunicación

Bases de información

Redacción de borradores con ayuda de ordenador

Enseñanza de idiomas con ayuda de ordenador

 

progresando las realizaciones en inteligencia artificial y técnicas afines.

Los análisis prospectivos se muestran asimis­mo de acuerdo en otro aspecto importante: las repercusiones de esta nueva industria se harán notar sobre todo en los campos primarios que confluyen en ella, la informática y la lingüística; pero, a medio y largo plazo, esta actividad, lla­mada a integrarse cada vez más en el denomi­nado hipersector de la información, terminará afectando ‑y en algunos casos lo ha hecho ya‑ a otros muchos sectores económicos, des­de los medios de comunicación hasta la educa­ción, pasando por la banca, y desde la industria química a la industria de automóviles, por poner sólo algunos ejemplos.

 

FACTORES POLÍTICOS, FACTORES ECONÓMICOS

 

El concepto político‑económico de las “indus­trias del idioma” abarca todas las actividades relacionadas con la investigación, desarrollo, fa­bricación y comercialización de equipos de tra­tamiento de datos que manejan, interpretan y producen la lengua humana, tanto en forma oral como escrita (3). Puesto que tales sectores de actividad tienen en común los mismos recursos lingüísticos y descansan sobre una base infor­mática común, parece pertinente pensar que, al menos en principio, estas industrias del idioma tienen un campo abonado en aquellas comuni­dades multilingües que necesitan resolver pro­blemas de integración política, económica y cul­tural.

Mas, como en la inmensa mayoría de los sec­tores industriales de punta, son Japón y los Esta­dos Unidos ‑países monolingües‑ quienes es­tán a la cabeza en el desarrollo de sistemas y de equipos informático‑lingüísticos. No hace fal­ta decir que en este desarrollo están primando las motivaciones puramente industriales y eco­nómicas sobre los posibles objetivos políticos y culturales.

Las grandes empresas norteamericanas y ni­ponas ‑que suelen ser, por otro lado, las gran­des transnacionales‑ orientan decididamente sus ya costosos esfuerzos en este campo a la captación de mercados exteriores, entre ellos el europeo.

En este terreno, sin embargo, las razones po­líticas y económicas se superponen como en tantos otros, hasta fundirse en un solo plano. Ja­pón, por ejemplo, no sólo puede obtener altas cotas de mercado exterior en la medida en que se anticipe en el desarrollo y producción de sistemas y equipos en el campo de la traduc­ción automática, sino que, además, ello le per­mitirá ir minando la ardua barrera lingüística que entraña la complejidad de su idioma y su escritura en sus relaciones con el resto del mundo.

Otro tanto cabe decir de los Estados Unidos y la potenciación de la hegemonía del inglés ‑y de todas las secuelas que conlleva‑, que supo­ne sin duda la entrada en el mercado de sus productos relacionados con la industria de la lengua.

El desarrollo de esta actividad industrial en Europa es, como en otros campos tecnológicos, dispersa y balbuciente, pese a que existe una nómina de competentes lingüistas y se ha desa­rrollado una estimable experiencia en el campo concreto de la lingüística informática. Hay quien ha sentenciado ya, con ánimo más provocativo que agorero, que “la ausencia de voluntad polí­tica europea en materia lingüística, tanto en la perspectiva de Europa en su conjunto como en las prácticas públicas de los diversos Estados que la componen hacen que sea imposible en­frentarse, con una razonable probabilidad de éxito, al problema que, para su múltiple patri­monio lingüístico, supone la interacción entre las lenguas naturales, por un lado, y electrónica y teletransmisión, por otro” (4). Curiosamente, por más que el diagnóstico denote una simplifi­cadora dialéctica de tertulia, la predicción sub­siguiente no deja, empero, de resultar verosímil en sus aspectos más preocupantes.

La voluntad de una política lingüística ‑que al menos algún país como Francia ha dado ya prueba de tener, y hasta de manera extrema­ es desde luego una condición necesaria pero nunca suficiente para poder competir en el te­rreno de las industrias de la lengua con Estados Unidos y Japón. El grado de desarrollo científi­co‑técnico, las posibilidades y prioridades eco­nómicas e industriales, la dinámica del merca­do, etc. son, entre otros, factores de decisiva trascendencia a la hora de abordar con plan­teamientos competitivos el sector de las indus­trias del idioma.

En las instancias políticas y en los grupos cualificados de expertos de la CEE existe la convicción de que en este terreno, como en otros, debe diseñarse y ponerse en práctica una política comunitaria de la suficiente magni­tud para competir en un plano de igualdad con los gigantes industriales. Se parte de la idea de que en el proceso de integración económica y política que está viviendo la comunidad, la plu­ralidad de lenguas produce serios obstáculos y ritmos lentos, si no costes monetarios muy ele­vados. O dicho de otra forma, las actividades in­dustriales basadas en la lingüística y las NTI, en la medida en que puedan contribuir a resolver los problemas planteados por las barreras lin­güísticas ‑si no a derribarlas‑, encuentran en Europa unas condiciones de desarrollo, tanto en el plano político como en el económico, espe­cialmente favorables.

En este contexto, en la Europa oficial se ha comenzado ya a poner las bases ‑de momen­to, fundamentalmente las bases teóricas‑ para una planificación a nivel comunitario de las in­dustrias de la lengua.

Los esfuerzos del Consejo de Europa para promover la terminología multilingüe, y los tra­bajos de la propia comisión de la CEE para po­ner en común las actividades que ya están de­sarrollando algunos países en el marco de los programas europeos, son los antecedentes que se han traducido ya en algunas iniciativas con­cretas y en la puesta en marcha del proyecto LIFE.

 

INICIATIVAS COMUNITARIAS

 

La compilación del banco de datos terminoló­gico “Eurodicatom”, realizada por los servicios de traducción de la Comisión Europea, es la primera iniciativa de importancia abordada por este organismo. Por su parte, la Dirección Ge­neral XIII de la CEE adquirió en 1985 el sistema Systran. A partir de 1977, la Comisión, con el asesoramiento de especialistas, desarrolla pla­nes para transferir información entre las len­guas comunitarias, valiéndose para ello de la tra­ducción automática y de otros recursos. La ini­ciativa principal corresponde al sistema de tra­ducción automática Eurotra, que abarca todos los idiomas oficiales de la Comunidad. Entra en su fase final en 1988, tras la incorporación, en 1986, del español y el portugués.

Además, el programa ESPRIT‑1, aprobado por el Consejo en 1983, contiene varios proyec­tos de investigación con algún contenido lin­güístico. Uno de ellos se dedica al análisis de los idiomas europeos, escritos y hablados, e in­cluso existen otros relativos al conocimiento del habla.

Todas estas actividades han favorecido, en opinión de los redactores del citado informe LIFE, un clima innovador y han puesto las bases técnicas que precisa el desarrollo de una indus­tria europea de la lengua, a la que estarían lla­mados a colaborar tanto los países integrantes de la Comunidad como sus propias institucio­nes.

Los estudios realizados hasta ahora indican que la Comunidad debe ocuparse con prefe­rencia de la creación de nuevos fondos lexico­gráficos, hablados y escritos. Además, debe reorientar los proyectos ya existentes, reaccio­nar con fuerza ante la competencia de Japón y Estados Unidos en materias como la edición electrónica, el reconocimiento del habla y otras técnicas de vanguardia, y aprovechar al máxi­mo los adelantos técnicos de las tecnologías de la información para perfeccionar los dispositivos de traducción automática y otras aplicaciones relativas a estas industrias.

 

PROYECTO LIFE; UNA INDUSTRIA A LA MEDIDA EUROPEA

 

Todos estos estudios e iniciativas embriona­rias han pasado a englobarse en un proyecto más amplio y unitario ‑aunque todavía escasa­mente definido y más escasamente operativo­ que se conoce con el nombre de LIFE (Langua­ge Industry for Europe). Entre sus fines están los de hacer un inventario general de los equi­pos de investigación e industriales, de los recursos informáticos, léxicos, lingüísticos y de adiestramiento, y de las actuales fuentes de fi­nanciación de todos ellos, aprovechando la ex­periencia de otros programas comunitarios y estimulando los planes de enseñanza y forma­ción profesional que combinan los idiomas y la técnica. No obstante, la industria es la que ha de definir los mercados, pues otra cosa sería poner los bueyes delante del carro.

En el campo concreto de la traducción auto­mática, todos los especialistas están de acuerdo en que, aunque no se vislumbra aún una sustitu­ción del traductor humano, sí están ya disponi­bles ciertos instrumentos suficientes, por lo ge­neral, para interpretar textos técnicos, cuyo vo­lumen es, como decíamos, infinitamente mayor que los correspondientes a la creación literaria. Aunque los traductores profesionales ven con gran recelo a las máquinas de traducir, ordena­dores que funcionan con programas especiales de traducción, parecen condenados a trabajar con ellos, que llegarán a convertirse en valiosos auxiliares al relevarlos de la pesada tarea de la primera traducción, con lo que quedaría a su cuidado la resolución de las ambigüedades y la corrección de estilo.

En un plano más general, la integración de los tratamientos de texto, la traducción apoyada en el ordenador, la llamada “autoedición” ‑téc­nica que logra escritos con calidad de imprenta en el propio domicilio o en la oficina, basada en el uso de ordenadores personales‑, y la con­sulta a las bases de datos en el idioma natural, parece decantarse como una de las ramas más prometedoras de la industria general de la len­gua.

Detrás de cada industria hay, no obstante, un mercado, una demanda de servicios o produc­tos que justifique las inversiones en investiga­ción y proyectos. Aquí es donde interviene el criterio de difusión de las lenguas. El inglés, convertido en el idioma de “intercambio” cientí­fico, técnico y comercial, tiene muchos intere­ses que defender, ya que junto con el español y con gran ventaja sobre el francés, el alemán y otros idiomas europeos, será uno de los de ma­yor implantación en Occidente el próximo siglo.

Los progresos en el reconocimiento mecáni­co de la palabra hacen concebir esperanzas a largo plazo. La máquina a la que se dicta un texto para que lo escriba empieza a dejar poco a poco el mundo utópico para materializarse en el real. Un indicio del desarrollo que pueden cobrar estas industrias está en que hace sólo unos años, el 80 por ciento de las personas que rechazaban los tratamientos de texto se han “convertido” y los usan habitualmente.

El ámbito y las aplicaciones comerciales del proyecto LIFE no están aún bien definidos, se­gún se ha señalado. El LIFE se propone estu­diar la repercusión económica de las barreras lingüísticas y hacer inventario de las investiga­ciones en curso y de los adelantos actuales con posibles aplicaciones industriales. Además, va­lorará de modo comparativo las acciones comu­nitarias y las necesidades de coordinación y fi­nanciación.

Los planes de promoción de la CEE involu­cran a especialidades como la lexicografía electrónica, la inteligencia artificial, el trata­miento de la lengua natural y la comunicación hombre‑máquina. Tales planes se proponen evitar la repetición de esfuerzos de investiga­ción. Dentro de estos planes, la traducción asis­tida por ordenador es sin duda el tema “estre­lla”.

En este sentido, la comisión de especialistas del LIFE debate la rentabilidad de la traduc­ción aproximada, objetivo que consideran al­canzado y que no ha de sustituir al traductor hu­mano, sino servirle de herramienta. El coste de las traducciones y la carencia de traductores mueven a la industria en esta dirección, aunque los cambios culturales, necesarios para adaptar­se a interpretar un texto “mal escrito”, preocu­pan a algunos miembros de la Comisión por el deterioro que puedan producir en el correcto uso del idioma, caso de que estas técnicas se apliquen a los medios de comunicación social. No obstante, la propia CEE aplica ya con éxito, para la traducción rápida de documentos, el ya aludido programa llamado SYSTRAN (S), inven­tado en 1970 por un americano de origen hún­garo, el doctor Peter Toma, y que tuvo su pri­mera aplicación práctica en la fuerza aérea de los Estados Unidos para traducir del ruso al in­glés. Sus productos son de calidad bastante aceptable y tarda muy poco en traducir: cuatro páginas en una hora, cuatro veces más veloz que un traductor humano.

 

LA OPINIÓN DE LOS ESPECIALISTAS EUROPEOS

 

Con el fin de ir perfilando y haciendo opera­tivo el proyecto LIFE, la Dirección General XIII está llevando a cabo reuniones y coloquios con expertos europeos. En una reunión celebrada hace sólo unos meses en Luxemburgo, en la que participó uno de los autores de este artícu­lo, se aportaron una serie de consideraciones relevantes:

 

• Puesto que los sectores de actividad que se engloban en el concepto de industrias de la lengua tienen en común los mismos recursos lingüísticos y descansan sobre una base informática común, es perfecta­mente legítimo y conveniente considerar las industrias del idioma como un campo coherente que precisa de una política co­mún dentro de la CEE.

• La comisión de la CEE tiene el importante cometido de fomentar y coordinar la crea­ción de instrumentos de gestión lingüística, como bancos lexicográficos, tesauros mono y multilingües, “corpus” de textos hablados y escritos, etc. Las principales tareas que hay que realizar al respecto son:

 

- Estandarizar y armonizar los formatos y otros códigos de representación.

‑ Crear una infraestructura técnica óptima.

‑ Garantizar el acceso de los beneficiarios a los recursos.

‑ Analizar el contexto legal general.

 

Dada la vocación política de la CEE en fa­vor del multilingüismo, la Comisión Euro­pea ha de continuar, intensificando incluso, sus esfuerzos para promover el empleo de la traducción mecánica en todos los secto­res en los que el proyecto de un gran mer­cado europeo exija una comunicación efi­caz entre los actores económicos.

• El rápido progreso de los métodos de co­municación entre hombres y máquinas en los Estados Unidos y Japón deben impulsar a la Comisión a convocar los recursos de­sarrollados en Europa sobre los métodos de reconocimiento de habla. Europa ha de esforzarse para estandarizar la representa­ción fonológica de sus diccionarios y sus bancos de sonidos y mostrar su inventiva para superar los obstáculos técnicos.

 

RECOMENDACIONES CONCRETAS

 

Junto a estas consideraciones generales, los especialistas emitieron una serie de recomen­daciones concretas, una de las cuales coincide precisamente con uno de los objetivos funda­mentales del proyecto LIFE: la Comisión ha de poseer un inventario general de los equipos de investigación e industriales, de los recursos in­formáticos, léxicos, lingüísticos y de adiestra­miento y de las actuales fuentes de financiación de todos ellos.

Asimismo, se sugiere a la Comisión que utili­ce la experiencia adquirida de los planes en marcha, como el ESPRIT y el EUROTRA, ocu­pándose de controlar proyectos y equipos de investigación para garantizar a la industria euro­pea el acceso a los resultados.

También se le insta a estimular los planes de enseñanza y formación profesional que combi­nan los conocimientos lingüísticos y las califi­caciones técnicas.

Se propone además que la Comisión lance al menos un proyecto‑demostración estrechamen­te coordinado que integre muchos sectores de la industria del idioma, con el fin de suscitar una toma de conciencia y provocar en la indus­tria un efecto de catálisis.

En lo que concierne a los idiomas regionales, la Comisión y los Estados integrantes deben promover, en opinión de los expertos, el análi­sis lingüístico completo en función de su ulterior aprovechamiento en aplicaciones industriales.

Los especialistas consideran que la Comisión debe confiar a la industria la tarea de valorar los mercados y definir la prelación de los pro­ductos que han de crearse, aunque reservándo­se el derecho de intervenir en sus criterios de valoración.

Otro aspecto importante es el del acceso e intercambio de información. En este sentido, se estima que los resultados de las actividades de la CEE deberán publicarse y difundirse entre todos los equipos involucrados, con el fin de evitar, al principio, la acentuada segmentación del mercado. A este efecto, la Comisión deberá favorecer la reunión frecuente de equipos de especialistas y de comités de coordinación.

 

NOTAS SOBRE LA SITUACIÓN ESPAÑOLA

 

En el momento de definir normas, elaborar productos informáticos y, en suma, abrir nuevos mercados, parece que las industrias e investi­gadores de nuestro país podrían desempeñar un papel relevante. Dentro de Europa, España es por sí misma una comunidad multilingüe, que ofrece como tal muchos elementos favorables al desarrollo de las industrias de la lengua. Otra cosa es que las bases científico‑tecnológicas propias y la estructura industrial estén en estos momentos a la altura de esas posibilidades.

Al margen de estas expectativas generales, es obvio que, dentro de los idiomas españoles, el castellano representa un activo, al menos teó­rico, de notables proporciones.

Parece claro, al margen de planteamientos ideológicos y optimismos de conveniencia, que el castellano, hablado por más de 300 millones de personas en el mundo, demuestra creciente vitalidad.

Los especialistas europeos consideran el gran futuro comercial de este idioma y se pro­ponen aprovecharlo apoyándose en su infraes­tructura de investigación de base y en las po­derosas transnacionales que se mueven en este vasto campo. Por ello, en definitiva, más que in­sistir una y otra vez sobre las posibilidades que ofrece el castellano, lo que a todos nos interesa saber, como señala el profesor Marcos Marín, es quién va manejar la industria lingüística que tenga como base este idioma (6).

Hasta ahora, en España, estas actividades han trascendido muy poco de la esfera universita­ria y experimental. Como sucede en general en Europa, en España los dos focos que se repar­ten la acción y el interés por las industrias de la lengua son la universidad y la empresa.

La Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), que se reúne re­gularmente, constituye hoy una de las platafor­mas de mayor importancia para la presentación y coordinación de conocimientos y trabajos.

Por dar un breve repaso a los trabajos que se desarrollan en España, cabe citar, a título de ejemplo y sin el menor ánimo de exhaustividad, el proyecto del Diccionario Electrónico del Es­pañol, de la Universidad Autónoma de Barcelo­na, los trabajos en traducción automática en los sistemas MENTOR (IBM) y METAL (Siemens), y los de síntesis de voz realizados en la ETSIT de la Universidad Politécnica de Madrid. Por lo que respecta a la investigación teórica y de base, algunas facultades de Informática y de Lingüística, sobre todo en Madrid, Cataluña y País Vasco, están desarrollando una labor conti­nuada y relevante desde hace ya varios años.

Asimismo, participan activamente en EURO­TRA investigadores españoles destacados en sus especialidades.

 

ALGUNOS CONCEPTOS DE LAS INDUSTRIAS DE LA LENGUA

 

Banco de datos

 

Conjunto de datos estructurados para su em­pleo en diferentes aplicaciones informáticas, que permiten el desarrollo independiente de los datos y programas.

 

Banco de datos fonéticos

 

Contiene el registro de la pronunciación de las palabras, aisladas o en contexto.

 

Banco lexicográfico monolingüe

 

Se trata de un banco de datos que contiene palabras sueltas, con sus definiciones y datos morfológicos y sintácticos. Son aptos para con­feccionar diccionarios, realizar investigaciones literarias y producir correctores ortográficos.

 

Banco lexicográfico multilingüe

 

Contiene las equivalencias entre palabras de varios idiomas. Se utilizan principalmente para actualizar diccionarios, aunque tienen amplias aplicaciones.

 

Banco de datos terminológicos monolingüe

 

Alberga términos y expresiones con sus defi­niciones correspondientes. Se usa para obte­ner respuestas concretas de forma muy rápida. Si se desea, se extraen series terminológicas en campos o subcampos concretos, lo que lo hace ideal para los redactores técnicos.

 

Bancos de datos terminológicos multilingües

 

Contienen términos y expresiones con sus co­rrespondientes en varios idiomas. Con las mis­mas funciones que el anterior, son muy útiles para traductores e intérpretes especializados.

 

Bases de información

 

Son sistemas estructurados de relaciones de jerarquía, similitud y asociación entre conceptos que definen personas, productos, actividades, etc. Se emplean en sistemas expertos y en la educación asistida por ordenador.

 

Corpus hablado

 

Se llama así a las grabaciones de muestras representativas de la palabra hablada, almacenadas en soporte electrónico, para su empleo en la investigación del reconocimiento del ha­bla.

 

Corpus electrónico de textos

 

Lo constituyen muestras representativas de textos, relativas en general a un campo concre­to. Dentro de un soporte electrónico, se em­plean en la investigación lingüística.

 

Descriptor

 

Es la representación de un concepto dentro de un tesauro. Normalmente es un nombre, sim­ple o compuesto, y se utiliza sólo para la indiza­ción.

 

Diccionario electrónico

 

Banco lexicográfico, mono o multilingüe, que se complementa con reglas semánticas que evi­tan la ambigüedad, y que es específico de un sistema, como la traducción automática o la co­rrección ortográfica. Es un tipo particular de base de conocimientos y se puede utilizar para otros fines, fuera de los tradicionales de análisis y síntesis de sistemas modulares de traducción automática (monolingües) o de transferencia (multilingües).

 

Eurotra

 

Programa de investigación de la Comunidad Europea que se propone la creación de un sis­tema ultramoderno de traducción automática en los nueve idiomas comunitarios.

 

Fame

 

Proyecto de la Comisión de las Comunidades Europeas que supone la creación de un corpus electrónico de textos y otro hablado.

 

Formex

 

Acrónimo en inglés de “Formalización del in­tercambio de publicaciones electrónicas”. Es un sistema electrónico de registro y venta de las publicaciones oficiales de las Comunidades Eu­ropeas.

 

Indización automática

 

Representación de los contenidos de un do­cumento mediante la selección automática de términos extraídos del texto, o a través de la asignación automática de descriptores sacados del lenguaje documental.

 

Consulta en lenguaje natural

 

Método de recuperación de información ba­sada en la comparación de las palabras de una pregunta con las palabras contenidas en los re­gistros de la base de datos. No se requiere el empleo de recursos lingüísticos, pero es menos eficaz que el empleo de un tesauro.

 

Reconocimiento del habla

 

Consiste en transcribir numéricamente una información emitida verbalmente con el objeto que sea reconocida por un ordenador digital. La conversión se realiza analizando las frecuen­cias de la voz, comparándolas con una lista de palabras almacenadas en memoria.

 

Síntesis del habla

 

Es la operación complementaria al reconoci­miento del habla. Si ésta se corresponde con “oír”, en el sentido humano, la segunda lo hace con “hablar”, por lo que es una reproducción o recreación de la voz humana por medios elec­trónicos e informáticos.

 

Systran

 

Sistema de traducción automática empleado por las instituciones europeas y otros organis­mos.

 

Tesauro

 

Vocabulario controlado y dinámico de des­criptores y no descriptores, que se relacionan jerárquicamente para abarcar un campo com­pleto del conocimiento. Se emplea en los siste­mas de información para representar inequívo­camente los conceptos contenidos en los docu­mentos y las preguntas. Ha venido sustituyendo poco a poco a los antiguos sistemas de clasifica­ción, aunque ahora se tiende a las técnicas con lenguaje natural.

 

Tesauro multilingüe

 

Contiene descriptores y no descriptores de varias lenguas naturales, que representan con­ceptos idénticos. Su utilidad es la utilización de bancos de datos en idiomas extranjeros y la creación de bancos de datos conjuntos, que pueden usar diferentes grupos lingüísticos.

 

Traducción Asistida por Ordenador (TAO)

 

Con los dispositivos de TAO, la traducción se convierte en un diálogo entre el hombre y la máquina, con el fin de evitar ambigüedades. El primer producto se puede revisar, si se desea, aunque suele ser útil si no se exige una calidad máxima.

 

Traducción automática (TA)

 

El texto se introduce en el ordenador y se traduce sin intervención humana. Eurotra y Sys­tran son dos sistemas de TA.

 

Nota, Para confeccionar este pequeño glosario, sin duda incompleto, hemos utilizado, entre otras fuentes, el informe emitido por los espe­cialistas del Proyecto LIFE.

 

REFERENCIAS BIBLIOGRÁFICAS

 

(1) Marcos Marín, F. “La lengua española en el mercado”. Cultura e industria. Rev. TELOS/15.

(2) LIFE (Language Industry for Europe). Comisión de las Comuni­dades Europeas. Dirección General XIII. Enero de 1987.

(3) Coloquio sobre las industrias del idioma. Luxemburgo, 26 de febrero de 1988. Comisión de las Comunidades Europeas. Dirección General XIII.

(4) Vidal Beneyto, J. “La industria de las lenguas”. El País, 29‑2-­1987.

(5) Traduction automatique Systran à la Commission de la CEE. Historique el situahon actuelle. Enero de 1988

(6) Marcos Marin, ibídem, pág. 7.