Máquinas que hablan y escuchan

Hacia una interpretación integral de la expresión sonora

 

Ángel A. Rodríguez Bravo

 

Los avances en las máquinas automáticas oyentes o parlantes son aún limitados. En este ensayo se critica el reduccionismo dominante en la investigación, basado en el paradigma de la redun­dancia, y se propone una nueva vía a través de la incorporación de las transgresiones.

 

“La máquina de copiar al dictado, o mecanógrafa automática... experimenta­da, capaz de aceptar texto continuo sin restricciones de cualquier locutor, pue­de ser una meta inalcanzable en este siglo, si es que alguna vez se llega a al­canzar”.

Liberman, 1976

 

A pesar de haber transcurrido más de una década, y de la ya casi mítica evolución de la tecnología electrónica en los últimos años, nada hace pen­sar a corto o medio plazo en previsiones más optimistas que las sugeridas en esta frase.

Es cierto que ya hay en funcionamiento nu­merosas máquinas capaces de emitir sonidos asimilables lingüísticamente a los que articula el ser humano, o de entender algunas secuencias verbales, pero el estado de desarrollo actual de estos sistemas está en realidad muy alejado de lo que suele proponer el gran espectáculo mas­mediático.

Al mencionar el gran espectáculo masmediá­tico, no me estoy refiriendo al famoso HAL‑9000 de Arthur C. Clarke, popularizado por Kubrick en su odisea espacial, o al dorado robot multi­lingüe de “La Guerra de las Galaxias”. Hablo de la información cotidiana, de artículos y progra­mas habituales en prensa, radio y televisión. Es fácil, por ejemplo, leer en los diarios titulares como: “Mister Macintosh, El locutor informático” (El País, 12/11/87), “Maquinas con ojos y oídos” (La Vanguardia, 17/3/85), “El ordenador que habla en castellano” (El País, 22/6/84), que echan las campanas al vuelo anunciando vertiginosos saltos neo‑tecnológicos, y tras los que sólo hay, en realidad, diminutos, lentos y laboriosos avan­ces sobre la síntesis de un número limitado de sonidos similares a los que articula el ser huma­no en determinada lengua, o sobre el reconoci­miento de algunas de las complicadísimas es­tructuras sonoras que utilizamos habitualmente en la comunicación oral.

Sin embargo, es cierto que una de las corrien­tes de investigación a la que se han dedicado más esfuerzos económicos y humanos en todo el mundo en los últimos 20 años es al diseño de sistemas automáticos oyentes, parlantes o traductores. En Estados Unidos, por ejemplo, se puso en marcha en 1971 el proyecto “ARPA-­SUR” (Advanced Research Projects Agency­-Speech Understanding Research), de una dura­ción de cinco años, que disfrutó de un presu­puesto de quince millones de dólares. Actual­mente, la Comunidad Europea está financiando el programa de investigación “EUROTRA”, so­bre traducción automática, que tiene un presu­puesto global estimado de 16 millones de ecus para un período de cinco años y medio. Empre­sas privadas como ITT en la sede de Harlow en el Reino Unido, o como FujitsuSecoinsa en su centro japonés de Kawasaki, están intentando desarrollar sus propios sistemas de traducción automática.

En España trabajan también varios grupos de investigadores dedicados a síntesis de voz y re­conocimiento automático del habla. Es el caso de equipos como el que dirige Elías Muñoz Me­rino en el Departamento de Electrónica de la Escuela Superior de Telecomunicaciones de Madrid, que presentó en 1984 un sistema de conversión texto‑voz en castellano de entrada por teclado; actualmente este grupo está traba­jando en el programa ESPRIT, (European Stra­tegic Programme for Research and Develop­ment in Information Tecnologies); o el del Gru­po de Reconocimiento de Formas e Inteligencia Artificial que conduce Francisco Casacuberta en la Universidad Politécnica de Valencia, y que está desarrollando varios proyectos enmar­cados en un plan general denominado “Recono­cimiento automático del habla”, subvencionado por la Comisión Asesora de Investigación Cien­tífica y Técnica (CAICYT). En el Departamento de Acústica de la Escuela Universitaria de Te­lecomunicaciones de la Salle Bonanova, en Bar­celona, el equipo que dirige Josep Martí ha puesto a punto hace pocos meses un conversor texto‑voz en catalán, con entrada desde tecla­do. Hay también grupos de científicos investi­gando en estos temas en la Universidad Politéc­nica de Barcelona, en la Universidad de Santia­go y en la Facultad de Ciencias de Granada.

En la República Federal de Alemania, la sín­tesis y el reconocimiento de la voz están desa­rrollándose bajo los auspicios de la compañía telefónica.

Creo que tanto el lector como yo nos aburri­ríamos seriamente si siguiera alagando la lista de empresas, instituciones y equipos universita­rios que batallan con los traductores automáti­cos y los ordenadores parlantes. Pero, en cual­quier caso, es evidente que el interés por el tema es algo generalizado.

 

SISTEMAS OYENTES Y SISTEMAS PARLANTES

 

Los trabajos en esta línea de investigación suelen desarrollar bien sistemas oyentes o bien sistemas parlantes, que, obviamente, por sepa­rado están considerablemente lejos de recons­truir el proceso total de la comunicación huma­na mediante el habla. Se han desarrollado también algunos sistemas integrados que escuchan y contestan con un vocabulario entre 100 y 200 palabras, capaces de trabajar en contextos in­formativos muy limitados, como, por ejemplo, expendiendo billetes en una línea aérea. Hace siete años una pregunta de 10 segundos formu­lada a este tipo de máquinas tardaba unos 50 segundos en obtener respuesta (Cfr. Lervison y Liberman: 50, 1981). En 1985 los laboratorios de IBM en Yorktown Hiegs (Nueva York) daban a conocer un sistema de reconocimiento de voz con un vocabulario de unas 5.000 palabras habi­tuales en. la correspondencia comercial; este sistema trabajaba con un solo locutor, sólo en­tendía palabras separadas por pausas, y necesi­taba una sesión de adiestramiento inicial de unos 20 minutos cada vez que se cambiaba de voz. Actualmente existen procesadores espe­cializados capaces de reconocer palabras aisla­das de vocabularios de más de 200 palabras, prácticamente en tiempo real.

Éste es esencialmente el tipo de mejoras que se han conseguido en los últimos 20 años en el campo del reconocimiento automático del ha­bla. La mayor parte de los esfuerzos investiga­dores han sido de tipo tecnológico, con lo que se ha logrado que las máquinas reconozcan más deprisa, pero no que reconozcan mejor. Las ta­sas de error que se alcanzan en las lecturas au­tomáticas de la voz siguen siendo muy similares a las de los años 60 (en torno al 5 por ciento).

Al comenzar este apartado se hablaba de sis­temas oyentes y sistemas parlantes, separándo­los a pesar de su proximidad funcional porque plantean algunos problemas profundamente distintos. La máquina parlante puede trabajar a partir de un único código de traducción texto-­sonidos, basado en la gramática y la fonética de determinada lengua, con la garantía de que sus mensajes sonoros serán entendidos por cual­quier persona que conozca el idioma. En cam­bio, a la máquina escuchante no le basta con disponer en la memoria de su sistema del códi­go gramático‑fonético del idioma “X” para reco­nocer secuencias sonoras pronunciadas por cualquier hablante. La señal vocal es absoluta­mente variable y sufre sistemáticamente múlti­ples distorsiones: el sonido de una misma pala­bra se altera en función de la fisiología de cada individuo, de cada contexto socio‑cultural, de cada ambiente sonoro, de cada estado de áni­mo, de cada estilo personal, de cada carácter. Por otra parte, en las secuencias sonoras del habla las palabras no están separadas; en reali­dad, al hablar articulamos un continuum acústico organizado esencialmente por el tono y la in­tensidad, con pausas que sólo se limitan a sepa­rar entre sí grupos de palabras asociados a ideas distintas, o, en muchas ocasiones, con pausas que ni siquiera llegan a tener sentido sintáctico o expresivo, sino puramente fisiológi­co. El ordenador tiene serios problemas para diferenciar entre las distintas palabras y, por supuesto, para trabajar a partir del reconoci­miento y la articulación de los elementos sono­ros que propone la lingüística clásica. Todo este cúmulo de dificultades para el reconocimiento automático de formas verbales ha hecho que los sistemas oyentes suelan depender de un solo lo­cutor. Para evitar esa dependencia, es decir, para que el ordenador entienda cualquier voz, es necesario utilizar métodos estadísticos que definan prototipos adecuados a partir de mues­tras vocales pronunciadas por muchos locuto­res.

Los investigadores que trabajan en reconoci­miento automático del habla han tenido también la necesidad de crear nuevos conceptos sobre los sonidos del lenguaje oral que se adaptasen mejor a sus necesidades. Así, se han definido, por ejemplo, conceptos como los de Microfone­ma, Difonema, Pseudofonema, etc., de cara a desarrollar una metodología de segmentación sonora que fuese más adecuada a los oyentes electrónicos.

En suma, tras 20 años de trabajo sobre el tema, las máquinas sólo pronuncian con soltura palabras aisladas y frases cortas, estas últimas ya con serios problemas de ritmo, estructura melódica y acentuación expresiva. Y sólo en­tienden con facilidad palabras sueltas, frases cortas pronunciadas cuidadosamente, o secuen­cias lingüísticas de vocabularios limitados.

Tras esta apretada síntesis sobre el estado de la cuestión parece adecuado recuperar, aun en contra del habitual triunfalismo tecnológico de los mass‑media en torno a estos temas, la línea desmitificadora y realista que proponía la cita de Liberman al principio de este artículo. Tal y como declara Casacuberta, “el reconocimiento del habla es un campo de investigación con ob­jetivos, métodos y aplicaciones bien definidos, en el que hay mucho trabajo a realizar a distin­tos niveles y en distintas materias” (Casacuber­ta: 4, 1987).

Existen dos problemas fundamentales que di­ficultan el aprendizaje verbal de las máquinas: a) los modelos aportados por la investigación fundamental aún no son capaces de abarcar toda la capacidad expresiva de la comunicación oral, b) la cantidad de memoria electrónica ne­cesaria para este tipo de tareas es muy grande, y, por tanto, el proceso extremadamente caro.

Hoy, los equipos de investigadores que se dedican a la síntesis o al reconocimiento auto­mático del habla trabajan fundamentalmente so­bre vertientes claramente técnicas, centradas en el desarrollo informático y muy especial­mente en el rendimiento económico. Es el caso de todas las investigaciones sobre el procesa­miento de la señal, el reconocimiento de formas o la inteligencia artificial.

La orientación lingüística de los estudios que persiguen que las máquinas hablen tiende casi exclusivamente al desarrollo de modelos auto­máticos de análisis sintáctico, que sean capaces de valorar con una precisión aceptable toda la información semántica de los textos orales, eli­minando errores e incongruencias. En cambio, algo tan esencial para fabricar máquinas par­lantes como la investigación fundamental en fo­nética o fonología no suele estar dirigido de for­ma específica hacia esa fascinante línea de in­vestigación.

Históricamente, el balón de la investigación sobre síntesis y reconocimiento del habla ha es­tado en el campo de los ingenieros y los infor­máticos, mientras que los lingüistas han tenido un papel más bien reducido en este terreno, li­mitándose al asesoramiento más o menos regu­lar. Sin duda, esta escasa preocupación de los estudiosos de la lengua por las máquinas par­lantes, asociada a la obsesión por los rendi­mientos que impone el desarrollo de nuevas tecnologías, han marcado profundamente toda la orientación de este novísimo campo del co­nocimiento.

 

LAS EXIGENCIAS DE UNA VISIÓN ESENCIALMENTE TECNOLÓGICA

 

El camino hacia los ordenadores parlantes se construye básicamente sobre una visión cuanti­tativa de la sustancia de trabajo que constituyen los sonidos de la voz. Con la teoría matemática de la información de Shannon y Weaver (Shan­non y Weaver: 1962) se inicia una práctica so­bre el análisis y la concepción del universo co­municacional enfrentada a la tradición lingüísti­ca. Mientras la lingüística se apoya en métodos fundamentalmente cualitativos y descriptivos, la teoría matemática de la información, en lugar de describir, mide y cuantifica. Si a la lingüística le interesa cuáles son los mecanismos que estructuran la comunicación y cómo funcionan éstos, a la teoría matemática lo que le importa es saber si la información que circula en estas comunica­ciones puede transmitirse o no por determinado canal y cuál es la forma más económica de ha­cerlo.

Consecuente con esta visión economicista se abre una nueva tradición en la que el concepto de redundancia se transforma en un principio paradigmático que ha marcado todo el desarro­llo posterior de las investigaciones sobre tecno­logía de la comunicación. Para los ingenieros de telecomunicaciones, la redundancia mide cuantitativamente la inutilidad de un símbolo, de un signo o de un mensaje. Moles, en su Teo­ría de la información y percepción estética (Moles: 1975) aplica esta forma de entender la redundancia directamente a la comunicación oral, llegando a la conclusión de que es posible eliminar hasta el 80 por ciento de la longitud de un mensaje hablado conservando su inteligibili­dad; el resto lo considera redundante y, por tanto, inútil. Esta sorprendente y rotunda afirma­ción se basa en que es suficiente efectuar un muestreo de un 10 ó un 15 por ciento de la lon­gitud total del sonido de las vocales para que éstas sean reconocibles por el oído (Moles: 1975, 132‑133). Según este estudio, los elemen­tos que llevan en sí el sentido son esencialmen­te las consonantes, y las vocales sólo sirven de soporte a éstas.

Relacionando la teoría molesiana de que las secuencias sonoras del habla pueden reducirse al 20 por ciento eliminando la redundancia, con el elevado precio de la memoria informática y la gran cantidad de ésta que necesita un orde­nador para procesar los sonidos verbales, resul­ta perfectamente lógica la gran concentración de esfuerzos que se han dirigido a desarrollar sistemas eliminadores de la redundancia, su­puestamente indeseable. El peso de este para­digma en toda la literatura técnica sobre voz es enorme; la necesidad de procesar y de trans­mitir la voz de la forma más barata posible ha conducido toda la investigación sobre el tema por una línea de trabajo que probablemente cierra otros caminos científicamente más férti­les. No obstante, a la vista del tipo de resulta­dos obtenidos hasta el momento, parece nece­sario replantearse esta orientación.

Los teóricos de las nuevas máquinas han im­puesto unas formas de trabajo profundamente marcadas por las necesidades de la tecnología que, combinadas con cierto alejamiento tradi­cional de los estudiosos de la lengua de ese universo del habla automatizada, han desembo­cado en un fuerte servilismo a las necesidades de los aparatos. Un servilismo que, probable­mente, en lugar de acercarnos nos está alejan­do de la consecución de mejores rendimientos en los sistemas de reconocimiento y síntesis au­tomática del habla.

Como investigador y estudioso de la voz, me cuesta admitir que todas las transgresiones fo­néticas o sintácticas motivadas por la expresivi­dad de un hablante, en función de su interna­cionalidad, de su estado de ánimo, o de su per­fil psicológico o sociocultural, tengan que inter­pretarse como “ruidos” y deban ser eliminadas por el sistema a modo de “redundancia inútil”. Considerar el sonido oral útil solamente en un 20 por ciento es una aproximación práctica a la realidad sonora de la voz con una importantísi­ma deficiencia asumida: la destrucción de cual­quier información verbal paralingüística, enten­diendo lo paralingüístico como toda la informa­ción expresiva que transporta la voz en sus so­nidos y que no está codificada dentro de los modelos de la fonética y la fonología clásicas.

Pero volvamos a la propuesta de Moles para reflexionar sobre ella: imaginemos, por ejem­plo, que estamos llamando por teléfono y mar­camos por segunda vez un mismo número equi­vocado; al preguntar de nuevo por la persona con la que deseamos hablar y recibir respues­ta, notamos inmediatamente que nuestro desco­nocido interlocutor está muy molesto por nues­tra insistencia, y esa sensación la experimenta­mos a pesar de que el texto de su respuesta es perfectamente educado y correcto: “No, lo sien­to, ya le dije que se ha equivocado usted de nú­mero”; evidentemente, a no ser por lo que nos cuenta el sonido de la voz, seríamos incapaces de descubrir cuál es la actitud emocional de quien nos dice tal frase solamente leyéndola. En la formulación teórica que me he atrevido a etiquetar como Paradigma de la redundancia se afirma que es suficiente con escuchar de un 10 a un 15 por ciento del tiempo durante el que se prolonga habitualmente una vocal para identifi­carla, siendo, en consecuencia, las consonantes los elementos esenciales para transportar el sentido; a pesar de que en un discurso oral las consonantes sólo representan aproximadamente una vigésima parte del tiempo total (Cfr. Moles: 1975, 132‑133). No obstante, cuando transforma­mos un texto oral en texto escrito, la relación entre consonantes y vocales pasa a ser muy cercana al 50 por ciento; por lo tanto, la reduc­ción esencial de información al pasar de lo auditivo a lo visual escrito se hace a costa de los sonidos vocálicos. No es difícil deducir que con la eliminación de la redundancia vocálica he­mos destruido una gran cantidad de informa­ción útil, toda aquella información que nos ase­soraba sobre nuestro interlocutor.

Descubríamos el enfado del contestador de nuestras llamadas porque existe una expresión prosódica de la cólera mediante el ritmo, la es­tructura tonal, la intensidad y el nivel de tensión de los sonidos articulados. La interpretación ex­presiva de los matices sonoros de la voz es esencial desde la adquisición misma del len­guaje, aprendemos a extraer información de los matices sonoros orales mucho antes que de los textos estructurados, “en el proceso de aprendi­zaje, el niño comprende “la voz” ‑la entonación, el ritmo, la mímica articulatoria‑ antes de co­nocer las palabras” (Fonagy: 1983, 149).

Es lógico que los modelos mecanicistas de la ingeniería electrónica ignoren los aspectos si­cológicos y sociológicos de lo que hay antes y después de un canal técnico de comunicación; pero cuando trabajamos sobre síntesis y reco­nocimiento automático del habla no sólo esta­mos haciendo pasar información por un canal codificándola y descodificándola mediante transductores, estamos intentando que una má­quina procese los sonidos de la voz de un modo muy similar a como los procesa el ser humano; en cambio, los modelos de escucha y habla au­tomáticas reducen la voz a una simple función de vehículo léxico, la contemplan como un mero medio de transporte sonoro de la expre­sión escrita. Este planteamiento está absoluta­mente alejado de la realidad comunicativa coti­diana. Los modelos automáticos trabajan desde acotamientos brutalmente reduccionistas de la comunicación oral, desde modelos que ignoran por completo aspectos esenciales de la comuni­cación sonora verbal.

 

¿ES ABARCABLE UNA INTERPRETACIÓN INTEGRAL DE LA VOZ?

 

Intuyo que a todos aquellos que conocen de cerca el universo de la automatización electró­nica de lo oral mi propuesta sobre la lectura in­tegral de los sonidos del habla les parecerá en el mejor de los casos extremadamente difícil de llevar a cabo; y en el peor, inabarcable o caóti­ca. No obstante, las reflexiones y las propuestas que se exponen aquí pretenden aportar algunos elementos que contribuyan a la inclusión de la expresividad acústica de lo oral dentro de los modelos de reconocimiento automático y de síntesis de la voz de un modo sistemático y des­de una perspectiva funcional y realista.

Las máquinas jamás serán capaces de reco­nocer con eficacia cada una de las palabras co­nectadas en una frase si antes no pueden iden­tificar en qué registro emocional está situado el locutor. Un sistema de reconocimiento automáti­co de voz necesita poder prever qué tipo de transgresiones formales contendrá cada fonema y cada una de las estructuras prosódicas de un texto pronunciado en determinada actitud, res­pecto á las formas estándar que el ordenador tiene en sus archivos de memoria.

El gran problema del reconocimiento auto­mático de las palabras deriva “de la gran varia­bilidad y distorsión siempre presentes en la se­ñal vocal y de la incertidumbre y ambigüedad del conocimiento que se dispone de las leyes que rigen los procesos de producción y per­cepción del habla” (Casacuberta: 1987, 160). Pero esta variabilidad no es casual, sino que responde a estructuras fisiológicas y psicológi­cas que están íntimamente relacionadas: la có­lera, la alegría, la tristeza, el malestar, influyen en la tonicidad muscular de todo el cuerpo, sin excluir la boca y la laringe, y por tanto alteran los sonidos, los distorsionan, alejándolos de los modelos que las máquinas son capaces de re­conocer; pero estas distorsiones no son aleato­rias, sino sistemáticas, susceptibles de ser iden­tificadas e incorporadas por un sistema informá­tico de reconocimiento de formas.

Es cierto que la investigación fundamental en el campo de la expresividad oral no está sufi­cientemente desarrollada, pero también es cierto que los lingüistas, los psicólogos y los co­municólogos que serían capaces de avanzar en este terreno no suelen tener sus ojos ni sus ob­jetivos puestos en el desarrollo de los sistemas parlantes. La investigación sobre el reconoci­miento y la síntesis del habla es un campo cla­ramente transdisciplinar en el que los esfuer­zos y los presupuestos de investigación se han dedicado con demasiada exclusividad al desa­rrollo tecnológico.

No entra dentro de las pretensiones ni de las posibilidades de este artículo dar la solución definitiva a los problemas que hemos plantea­do; no obstante, sí que cabe en esta reflexión en torno a las máquinas parlantes establecer y definir algunos de los conceptos metodológicos que podrían conducir una línea de investiga­ción que contemple la información de la voz desde un punto de vista integral.

La comprensión del habla suele afrontarse por los diseñadores de sistemas desde una es­tructura de cuatro niveles básicos que interac­cionan dinámicamente entre sí:

 

1.      Nivel acústico

2.      Nivel fonético.

3.      Nivel léxico‑sintáctico.

4.      Nivel semántico‑pragmático.

 

Cada uno de estos niveles se superpone al si­guiente, aportando una cantidad de información sobre el lenguaje que, al integrarse con la que proporcionan los otros, articula la comprensión global. Pero entremos más a fondo en los dos primeros niveles, concretamente en los niveles acústico y fonético.

El reconocimiento electrónico de los fonemas se basa en el análisis de formantes acústicos en las partes más estacionarias del sonido. El perfil acústico de la voz humana está constituido por una frecuencia fundamental (F0), generada en la laringe, y cuatro formantes (resonancias pro­ducidas por las cavidades bucales), centrados en sendas frecuencias; de estas frecuencias centrales: F1, F2, F3 y F4, las máquinas solamen­te suelen utilizar F1 y F2 para el reconocimiento de las vocales; a la frecuencia fundamental pro­ducida en la laringe por las cuerdas vocales, F0, se le asigna en los sistemas la función de leer la altura tonal de la voz y sus variaciones (entonación), prescindiendo del resto, puesto que presentan normalmente una fuerte disper­sión. Sin embargo, los estudiosos de la voz acos­tumbran a reconocer que tanto FO como F3 y F4 transportan información esencial sobre el locu­tor. Josep Martí, por ejemplo, afirma que a lo largo de su experiencia ha podido observar que tanto la frecuencia fundamental y el tercer y cuarto formantes como las antirresonancias (caídas sistemáticas de intensidad a determina­das frecuencias) son puntos muy significativos en la identificación de personas (Cfr. Martí: 1984, 41‑42). En esta misma línea, Quilis dice que los formantes más altos son producto del timbre individual de cada hablante (Quilis: 1982).

Tras esta interpretación acústica y fonética del habla, los sistemas electrónicos saltan al ni­vel léxico‑sintáctico en el que se aplican reglas gramaticales a los conjuntos de sonidos y se ex­traen símbolos elementales que, más tarde, serán interrelacionados y depurados de interpre­taciones absurdas en el nivel semántico‑prag­mático.

Globalmente este planteamiento es demasia­do esquemático para cubrir toda la capacidad expresiva de los sonidos orales. Existe un vacío profundo entre los dos primeros niveles y los dos últimos. Si la dificultad esencial para las máquinas está en la distorsión que sufre regu­larmente la señal vocal, y esta distorsión no es aleatoria sino motivada y sistemática, la estruc­tura que gobierna la interpretación automática del habla adolece de un nivel que valore y dé sentido a las distorsiones expresivas.

Esas distorsiones de las formas acústicas es­tándar, a las que prefiero llamar transgresiones, se organizan en un nivel de expresión que co­munica al oyente información sobre el gesto, la actitud, el carácter, el aspecto físico, el contexto del emisor; o bien sobre la forma, el tamaño, el color, el tipo de movimiento, etc. de aquello que describe oralmente el emisor. Son trans­gresiones que en realidad constituyen rasgos sonoros interpretables, y que no pertenecen a las formas léxicas ni a las formas gramaticales, ni son tampoco definitorios de la estructura acústica estándar de los fonemas. A este nivel de la comunicación oral se le debería llamar expresión fonoestésica. El vocablo fonoestésica me parece adecuado en tanto que recoge en una palabra dos conceptos fundamentales: la raíz fono proveniente del griego “phoneo”, que significa emitir la voz; y la raíz “áisthesis”, que expresa sensación, tener la percepción de.

Lógicamente, el nivel de interpretación que proponemos es el nivel fonoestésico, y estaría situado entre el fonético y el léxico‑sintáctico, siendo su función la de interpretar expresiva­mente las transgresiones acústicas de los están­dares pre‑existentes en la memoria de la má­quina.

Este nivel aportaría al ordenador la informa­ción necesaria para prever el tipo de distorsio­nes acústicas que aparecen en la voz de un in­dividuo irónico, o de un tipo colérico. Tras el primer muestreo acústico la máquina debería elegir un código adecuado en función de la ac­titud psíquica del locutor, de su personalidad, su ritmo etc. Disponer de este tipo de códigos en las bibliotecas de memoria permitiría a los ordenadores parlantes no sólo reconocer for­mas acústicas que han sido fuertemente modifi­cadas, sino confrontar semánticamente los valo­res de esta expresividad pre‑verbal con el sen­tido resultante de la estructura morfosintáctica, matizándolo o incluso modificándolo profunda­mente.

Soy consciente de que desarrollar este nuevo nivel de reconocimiento de formas dentro de los sistemas informáticos representa el estable­cimiento de una nueva línea de investigación especialmente dependiente del desarrollo de estudios sobre los aspectos de la voz que he definido más arriba como expresión fonoestésica, y de que la investigación fundamental sobre este campo es limitadísima. No obstante, tam­bién es cierto que las máquinas no serán capa­ces de hablar y de entender el sonido del len­guaje natural con cierta soltura hasta que sepa­mos establecer protocolos que orienten al siste­ma parlante sobre los modos de transgresión habituales.

 

REFERENCIAS BIBLIOGRÁFICAS

 

Casacuberta, Francisco; Vidal, Enrique, y otros: Reconocimiento automático del habla. Marcombo, Barcelona, 1987.

Fonagy, Ivan: La vive voix. Payot, París, 1983.

Guía de la investigación en las comunidades europeas: Ministerio de Educación y Ciencia, C.A.I.C.Y.T., Servicio de Publicaciones del M.E.C., Madrid, 1985,

Golderos, Antonio: “Modelos para el reconocimiento de palabras con independencia del locutor”, en Mundo Electrónico, n.° 144, pp. 67‑81, Boixareu Editores, Barcelona, octubre de 1984

Lanau, Javier: “Síntesis vocal y técnicas de muestreo”, en Música y Tecnología, n.° 2, pp. 60‑66, Barcelona, marzo/abril de 1986.

Levinson, Stephen y Liberman, Mark: “Reconocimiento del habla por medio de ordenadores”, en Scientific American, n.° 57, pp. 38‑51, Ed. Prensa Científica, S.A., junio de 1981.

Martí, Josep: “Parametres vocàlics del català”, en Folia Fonética: revista del Laboratori de FonèticaPere Barnils”, Estudi General de Lleida, Universitat de Barcelona, 1984,

Moles, Abraham: Teoría de la información y percepción estética. Ediciones Júcar, Madrid, 1975. (C. Editions Denoel, París, 1972).

Quilis, Antonio: Curso de fonética y fonología españolas. C.S.I.C., Madrid, 1982.

Rodríguez, M; Olabe, J. C., y otros: “Visión panorámica de la res­puesta oral de las máquinas”, en Mundo Electrónico, n.° 144, pp. 57-­67, Boixareu Editores, Barcelona, octubre de 1984.

Shannon, C., y Weaver, M.: The mathematical Theory of Commu­nications. University of Illinois Press, Urbana, 1962.