Máquinas que hablan y escuchan
Hacia una interpretación integral de la
expresión sonora
Ángel A. Rodríguez Bravo
Los avances en las máquinas automáticas oyentes o
parlantes son aún limitados. En este ensayo se critica el reduccionismo
dominante en la investigación, basado en el paradigma de la redundancia, y se
propone una nueva vía a través de la incorporación de las transgresiones.
“La máquina de copiar al
dictado, o mecanógrafa automática... experimentada, capaz de aceptar texto
continuo sin restricciones de cualquier locutor, puede ser una meta
inalcanzable en este siglo, si es que alguna vez se llega a alcanzar”.
Liberman, 1976
A pesar de haber transcurrido más de una década, y de la ya casi mítica evolución de la tecnología electrónica en los últimos años, nada hace pensar a corto o medio plazo en previsiones más optimistas que las sugeridas en esta frase.
Es cierto que ya hay en funcionamiento numerosas
máquinas capaces de emitir sonidos asimilables lingüísticamente a los que
articula el ser humano, o de entender algunas secuencias verbales, pero el
estado de desarrollo actual de estos sistemas está en realidad muy alejado de
lo que suele proponer el gran espectáculo masmediático.
Al mencionar el gran espectáculo masmediático,
no me estoy refiriendo al famoso HAL‑9000 de Arthur
C. Clarke, popularizado por Kubrick
en su odisea espacial, o al dorado robot multilingüe de “La Guerra de las
Galaxias”. Hablo de la información cotidiana, de artículos y programas
habituales en prensa, radio y televisión. Es fácil, por ejemplo, leer en los
diarios titulares como: “Mister Macintosh, El locutor informático” (El País,
12/11/87), “Maquinas con ojos y oídos” (La Vanguardia, 17/3/85), “El
ordenador que habla en castellano” (El País, 22/6/84), que echan las
campanas al vuelo anunciando vertiginosos saltos neo‑tecnológicos, y tras
los que sólo hay, en realidad, diminutos, lentos y laboriosos avances sobre la
síntesis de un número limitado de sonidos similares a los que articula el ser
humano en determinada lengua, o sobre el reconocimiento de algunas de las
complicadísimas estructuras sonoras que utilizamos habitualmente en la
comunicación oral.
Sin embargo, es cierto que una de las corrientes de
investigación a la que se han dedicado más esfuerzos económicos y humanos en
todo el mundo en los últimos 20 años es al diseño de sistemas automáticos
oyentes, parlantes o traductores. En Estados Unidos, por ejemplo, se puso en
marcha en 1971 el proyecto “ARPA-SUR” (Advanced Research Projects Agency-Speech Understanding Research), de una duración de cinco años, que disfrutó de
un presupuesto de quince millones de dólares. Actualmente, la Comunidad
Europea está financiando el programa de investigación “EUROTRA”, sobre
traducción automática, que tiene un presupuesto global estimado de 16 millones
de ecus para un período de cinco años y medio. Empresas
privadas como ITT en la sede de Harlow en el Reino
Unido, o como Fujitsu‑Secoinsa
en su centro japonés de Kawasaki, están intentando desarrollar sus propios sistemas
de traducción automática.
En España trabajan también varios grupos de
investigadores dedicados a síntesis de voz y reconocimiento automático del
habla. Es el caso de equipos como el que dirige Elías Muñoz Merino en el
Departamento de Electrónica de la Escuela Superior de Telecomunicaciones de
Madrid, que presentó en 1984 un sistema de conversión texto‑voz en
castellano de entrada por teclado; actualmente este grupo está trabajando en
el programa ESPRIT, (European Strategic
Programme for Research and Development
in Information Tecnologies);
o el del Grupo de Reconocimiento de Formas e Inteligencia Artificial que
conduce Francisco Casacuberta en la Universidad
Politécnica de Valencia, y que está desarrollando varios proyectos enmarcados
en un plan general denominado “Reconocimiento automático del habla”,
subvencionado por la Comisión Asesora de Investigación Científica y Técnica
(CAICYT). En el Departamento de Acústica de la Escuela Universitaria de Telecomunicaciones
de la Salle Bonanova, en Barcelona, el equipo que
dirige Josep Martí ha puesto a punto hace pocos meses
un conversor texto‑voz en catalán, con entrada desde teclado. Hay
también grupos de científicos investigando en estos temas en la Universidad
Politécnica de Barcelona, en la Universidad de Santiago y en la Facultad de
Ciencias de Granada.
En la República Federal de Alemania, la síntesis y
el reconocimiento de la voz están desarrollándose bajo los auspicios de la
compañía telefónica.
Creo que tanto el lector como yo nos aburriríamos
seriamente si siguiera alagando la lista de empresas,
instituciones y equipos universitarios que batallan con los traductores
automáticos y los ordenadores parlantes. Pero, en cualquier caso, es evidente
que el interés por el tema es algo generalizado.
SISTEMAS OYENTES Y SISTEMAS PARLANTES
Los trabajos en esta línea de investigación suelen
desarrollar bien sistemas oyentes o bien sistemas parlantes, que, obviamente,
por separado están considerablemente lejos de reconstruir el proceso total de
la comunicación humana mediante el habla. Se han desarrollado también algunos
sistemas integrados que escuchan y contestan con un vocabulario entre 100 y 200
palabras, capaces de trabajar en contextos informativos muy limitados, como,
por ejemplo, expendiendo billetes en una línea aérea. Hace siete años una
pregunta de 10 segundos formulada a este tipo de máquinas tardaba unos 50
segundos en obtener respuesta (Cfr. Lervison y Liberman: 50, 1981). En 1985 los laboratorios de IBM en Yorktown Hiegs (Nueva York) daban a conocer un sistema de reconocimiento de voz
con un vocabulario de unas 5.000 palabras habituales en. la correspondencia
comercial; este sistema trabajaba con un solo locutor, sólo entendía palabras
separadas por pausas, y necesitaba una sesión de adiestramiento inicial de
unos 20 minutos cada vez que se cambiaba de voz. Actualmente existen
procesadores especializados capaces de reconocer palabras aisladas de
vocabularios de más de 200 palabras, prácticamente en tiempo real.
Éste es esencialmente el tipo de mejoras que se han
conseguido en los últimos 20 años en el campo del reconocimiento automático del
habla. La mayor parte de los esfuerzos investigadores han sido de tipo
tecnológico, con lo que se ha logrado que las máquinas reconozcan más deprisa,
pero no que reconozcan mejor. Las tasas de error que se alcanzan en las
lecturas automáticas de la voz siguen siendo muy similares a las de los años
60 (en torno al 5 por ciento).
Al comenzar este apartado se hablaba de sistemas
oyentes y sistemas parlantes, separándolos a pesar de su proximidad funcional
porque plantean algunos problemas profundamente distintos. La máquina parlante
puede trabajar a partir de un único código de traducción texto-sonidos, basado en la gramática y la fonética de
determinada lengua, con la garantía de que sus mensajes sonoros serán
entendidos por cualquier persona que conozca el idioma. En cambio, a la
máquina escuchante no le basta con disponer en la memoria de su sistema del
código gramático‑fonético del idioma “X” para reconocer secuencias
sonoras pronunciadas por cualquier hablante. La señal vocal es absolutamente
variable y sufre sistemáticamente múltiples distorsiones: el sonido de una
misma palabra se altera en función de la fisiología de cada individuo, de cada
contexto socio‑cultural, de cada ambiente sonoro, de cada estado de ánimo,
de cada estilo personal, de cada carácter. Por otra parte, en las secuencias
sonoras del habla las palabras no están separadas; en realidad, al hablar
articulamos un continuum acústico organizado
esencialmente por el tono y la intensidad, con pausas que sólo se limitan a
separar entre sí grupos de palabras asociados a ideas distintas, o, en muchas
ocasiones, con pausas que ni siquiera llegan a tener sentido sintáctico o
expresivo, sino puramente fisiológico. El ordenador tiene serios problemas
para diferenciar entre las distintas palabras y, por supuesto, para trabajar a
partir del reconocimiento y la articulación de los elementos sonoros que
propone la lingüística clásica. Todo este cúmulo de dificultades para el
reconocimiento automático de formas verbales ha hecho que los sistemas oyentes
suelan depender de un solo locutor. Para evitar esa dependencia, es decir,
para que el ordenador entienda cualquier voz, es necesario utilizar métodos
estadísticos que definan prototipos adecuados a partir de muestras vocales
pronunciadas por muchos locutores.
Los investigadores que trabajan en reconocimiento
automático del habla han tenido también la necesidad de crear nuevos conceptos
sobre los sonidos del lenguaje oral que se adaptasen mejor a sus necesidades.
Así, se han definido, por ejemplo, conceptos como los de Microfonema,
Difonema, Pseudofonema,
etc., de cara a desarrollar una metodología de segmentación sonora que fuese
más adecuada a los oyentes electrónicos.
En suma, tras 20 años de trabajo sobre el tema, las
máquinas sólo pronuncian con soltura palabras aisladas y frases cortas, estas
últimas ya con serios problemas de ritmo, estructura melódica y acentuación expresiva.
Y sólo entienden con facilidad palabras sueltas, frases cortas pronunciadas
cuidadosamente, o secuencias lingüísticas de vocabularios limitados.
Tras esta apretada síntesis sobre el estado de la
cuestión parece adecuado recuperar, aun en contra del habitual triunfalismo
tecnológico de los mass‑media en torno a estos temas, la línea desmitificadora y realista que proponía la cita de Liberman al principio de este artículo. Tal y como declara Casacuberta, “el reconocimiento del habla es un
campo de investigación con objetivos, métodos y aplicaciones bien definidos,
en el que hay mucho trabajo a realizar a distintos niveles y en distintas
materias” (Casacuberta: 4, 1987).
Existen dos problemas fundamentales que dificultan
el aprendizaje verbal de las máquinas: a) los modelos aportados por la
investigación fundamental aún no son capaces de abarcar toda la capacidad
expresiva de la comunicación oral, b) la cantidad de memoria electrónica necesaria
para este tipo de tareas es muy grande, y, por tanto, el proceso extremadamente
caro.
Hoy, los equipos de investigadores que se dedican a
la síntesis o al reconocimiento automático del habla trabajan fundamentalmente
sobre vertientes claramente técnicas, centradas en el desarrollo informático y
muy especialmente en el rendimiento económico. Es el caso de todas las
investigaciones sobre el procesamiento de la señal, el reconocimiento de
formas o la inteligencia artificial.
La orientación lingüística de los estudios que
persiguen que las máquinas hablen tiende casi exclusivamente al desarrollo de
modelos automáticos de análisis sintáctico, que sean capaces de valorar con
una precisión aceptable toda la información semántica de los textos orales, eliminando
errores e incongruencias. En cambio, algo tan esencial para fabricar máquinas
parlantes como la investigación fundamental en fonética o fonología no suele
estar dirigido de forma específica hacia esa fascinante línea de investigación.
Históricamente, el balón de la investigación sobre
síntesis y reconocimiento del habla ha estado en el campo de los ingenieros y
los informáticos, mientras que los lingüistas han tenido un papel más bien
reducido en este terreno, limitándose al asesoramiento más o menos regular.
Sin duda, esta escasa preocupación de los estudiosos de la lengua por las
máquinas parlantes, asociada a la obsesión por los rendimientos que impone el
desarrollo de nuevas tecnologías, han marcado profundamente toda la orientación
de este novísimo campo del conocimiento.
LAS EXIGENCIAS DE UNA VISIÓN ESENCIALMENTE
TECNOLÓGICA
El camino hacia los ordenadores parlantes se
construye básicamente sobre una visión cuantitativa de la sustancia de trabajo
que constituyen los sonidos de la voz. Con la teoría matemática de la
información de Shannon y Weaver
(Shannon y Weaver: 1962)
se inicia una práctica sobre el análisis y la concepción del universo comunicacional
enfrentada a la tradición lingüística. Mientras la lingüística se apoya en
métodos fundamentalmente cualitativos y descriptivos, la teoría matemática de
la información, en lugar de describir, mide y cuantifica. Si a la lingüística
le interesa cuáles son los mecanismos que estructuran la comunicación y cómo
funcionan éstos, a la teoría matemática lo que le importa es saber si la información
que circula en estas comunicaciones puede transmitirse o no por determinado
canal y cuál es la forma más económica de hacerlo.
Consecuente con esta visión economicista
se abre una nueva tradición en la que el concepto de redundancia se
transforma en un principio paradigmático que ha marcado todo el desarrollo
posterior de las investigaciones sobre tecnología de la comunicación. Para los
ingenieros de telecomunicaciones, la redundancia mide cuantitativamente la
inutilidad de un símbolo, de un signo o de un mensaje. Moles, en su Teoría
de la información y percepción estética (Moles: 1975) aplica esta forma de
entender la redundancia directamente a la comunicación oral, llegando a la
conclusión de que es posible eliminar hasta el 80 por ciento de la longitud de
un mensaje hablado conservando su inteligibilidad; el resto lo considera
redundante y, por tanto, inútil. Esta sorprendente y rotunda afirmación se
basa en que es suficiente efectuar un muestreo de un 10 ó un 15 por ciento de
la longitud total del sonido de las vocales para que éstas sean reconocibles
por el oído (Moles: 1975, 132‑133). Según este estudio, los elementos
que llevan en sí el sentido son esencialmente las consonantes, y las vocales
sólo sirven de soporte a éstas.
Relacionando la teoría molesiana
de que las secuencias sonoras del habla pueden reducirse al 20 por ciento
eliminando la redundancia, con el elevado precio de la memoria informática y la
gran cantidad de ésta que necesita un ordenador para procesar los sonidos
verbales, resulta perfectamente lógica la gran concentración de esfuerzos que
se han dirigido a desarrollar sistemas eliminadores de la redundancia, supuestamente
indeseable. El peso de este paradigma en toda la literatura técnica sobre voz
es enorme; la necesidad de procesar y de transmitir la voz de la forma más
barata posible ha conducido toda la investigación sobre el tema por una línea
de trabajo que probablemente cierra otros caminos científicamente más fértiles.
No obstante, a la vista del tipo de resultados obtenidos hasta el momento,
parece necesario replantearse esta orientación.
Los teóricos de las nuevas máquinas han impuesto
unas formas de trabajo profundamente marcadas por las necesidades de la
tecnología que, combinadas con cierto alejamiento tradicional de los
estudiosos de la lengua de ese universo del habla automatizada, han desembocado
en un fuerte servilismo a las necesidades de los aparatos. Un servilismo que,
probablemente, en lugar de acercarnos nos está alejando de la consecución de
mejores rendimientos en los sistemas de reconocimiento y síntesis automática
del habla.
Como investigador y estudioso de la voz, me cuesta
admitir que todas las transgresiones fonéticas o sintácticas motivadas por la
expresividad de un hablante, en función de su internacionalidad, de su estado
de ánimo, o de su perfil psicológico o sociocultural, tengan que interpretarse
como “ruidos” y deban ser eliminadas por el sistema a modo de “redundancia
inútil”. Considerar el sonido oral útil solamente en un 20 por ciento es una
aproximación práctica a la realidad sonora de la voz con una importantísima
deficiencia asumida: la destrucción de cualquier información verbal paralingüística, entendiendo lo paralingüístico
como toda la información expresiva que transporta la voz en sus sonidos y que
no está codificada dentro de los modelos de la fonética y la fonología
clásicas.
Pero volvamos a la propuesta de Moles para
reflexionar sobre ella: imaginemos, por ejemplo, que estamos llamando por
teléfono y marcamos por segunda vez un mismo número equivocado; al preguntar
de nuevo por la persona con la que deseamos hablar y recibir respuesta,
notamos inmediatamente que nuestro desconocido interlocutor está muy molesto
por nuestra insistencia, y esa sensación la experimentamos a pesar de que el
texto de su respuesta es perfectamente educado y correcto: “No, lo siento, ya
le dije que se ha equivocado usted de número”; evidentemente, a no ser por lo
que nos cuenta el sonido de la voz, seríamos incapaces de descubrir cuál es la
actitud emocional de quien nos dice tal frase solamente leyéndola. En la
formulación teórica que me he atrevido a etiquetar como Paradigma de la
redundancia se afirma que es suficiente con escuchar de un 10 a un 15 por
ciento del tiempo durante el que se prolonga habitualmente una vocal para
identificarla, siendo, en consecuencia, las consonantes los elementos
esenciales para transportar el sentido; a pesar de que en un discurso oral las
consonantes sólo representan aproximadamente una vigésima parte del tiempo
total (Cfr. Moles: 1975, 132‑133). No obstante, cuando transformamos un
texto oral en texto escrito, la relación entre consonantes y vocales pasa a ser
muy cercana al 50 por ciento; por lo tanto, la reducción esencial de información
al pasar de lo auditivo a lo visual escrito se hace a costa de los sonidos
vocálicos. No es difícil deducir que con la eliminación de la redundancia
vocálica hemos destruido una gran cantidad de información útil, toda aquella
información que nos asesoraba sobre nuestro interlocutor.
Descubríamos el enfado del contestador de nuestras
llamadas porque existe una expresión prosódica de la cólera mediante el ritmo,
la estructura tonal, la intensidad y el nivel de tensión de los sonidos
articulados. La interpretación expresiva de los matices sonoros de la voz es
esencial desde la adquisición misma del lenguaje, aprendemos a extraer
información de los matices sonoros orales mucho antes que de los textos
estructurados, “en el proceso de aprendizaje, el niño comprende “la voz” ‑la
entonación, el ritmo, la mímica articulatoria‑ antes de conocer las
palabras” (Fonagy: 1983, 149).
Es lógico que los modelos mecanicistas de la
ingeniería electrónica ignoren los aspectos sicológicos y sociológicos de lo
que hay antes y después de un canal técnico de comunicación; pero cuando
trabajamos sobre síntesis y reconocimiento automático del habla no sólo estamos
haciendo pasar información por un canal codificándola y descodificándola
mediante transductores, estamos intentando que una máquina procese los sonidos
de la voz de un modo muy similar a como los procesa el ser humano; en cambio,
los modelos de escucha y habla automáticas reducen la voz a una simple función
de vehículo léxico, la contemplan como un mero medio de transporte sonoro de la
expresión escrita. Este planteamiento está absolutamente alejado de la
realidad comunicativa cotidiana. Los modelos automáticos trabajan desde
acotamientos brutalmente reduccionistas de la
comunicación oral, desde modelos que ignoran por completo aspectos esenciales
de la comunicación sonora verbal.
¿ES ABARCABLE UNA INTERPRETACIÓN INTEGRAL DE LA VOZ?
Intuyo que a todos aquellos que conocen de cerca el
universo de la automatización electrónica de lo oral mi propuesta sobre la
lectura integral de los sonidos del habla les parecerá en el mejor de los
casos extremadamente difícil de llevar a cabo; y en el peor, inabarcable o
caótica. No obstante, las reflexiones y las propuestas que se exponen aquí
pretenden aportar algunos elementos que contribuyan a la inclusión de la
expresividad acústica de lo oral dentro de los modelos de reconocimiento
automático y de síntesis de la voz de un modo sistemático y desde una
perspectiva funcional y realista.
Las máquinas jamás serán capaces de reconocer con
eficacia cada una de las palabras conectadas en una frase si antes no pueden
identificar en qué registro emocional está situado el locutor. Un sistema de
reconocimiento automático de voz necesita poder prever qué tipo de
transgresiones formales contendrá cada fonema y cada una de las estructuras
prosódicas de un texto pronunciado en determinada actitud, respecto á las
formas estándar que el ordenador tiene en sus archivos de memoria.
El gran problema del reconocimiento automático de
las palabras deriva “de la gran variabilidad y distorsión siempre presentes en
la señal vocal y de la incertidumbre y ambigüedad del conocimiento que se
dispone de las leyes que rigen los procesos de producción y percepción del
habla” (Casacuberta: 1987, 160). Pero esta
variabilidad no es casual, sino que responde a estructuras fisiológicas y
psicológicas que están íntimamente relacionadas: la cólera, la alegría, la
tristeza, el malestar, influyen en la tonicidad muscular de todo el cuerpo, sin
excluir la boca y la laringe, y por tanto alteran los sonidos, los
distorsionan, alejándolos de los modelos que las máquinas son capaces de reconocer;
pero estas distorsiones no son aleatorias, sino sistemáticas, susceptibles de
ser identificadas e incorporadas por un sistema informático de reconocimiento
de formas.
Es cierto que la investigación fundamental en el
campo de la expresividad oral no está suficientemente desarrollada, pero
también es cierto que los lingüistas, los psicólogos y los comunicólogos que
serían capaces de avanzar en este terreno no suelen tener sus ojos ni sus objetivos
puestos en el desarrollo de los sistemas parlantes. La investigación sobre el
reconocimiento y la síntesis del habla es un campo claramente transdisciplinar en el que los esfuerzos y los
presupuestos de investigación se han dedicado con demasiada exclusividad al
desarrollo tecnológico.
No entra dentro de las pretensiones ni de las
posibilidades de este artículo dar la solución definitiva a los problemas que
hemos planteado; no obstante, sí que cabe en esta reflexión en torno a las
máquinas parlantes establecer y definir algunos de los conceptos metodológicos
que podrían conducir una línea de investigación que contemple la información
de la voz desde un punto de vista integral.
La comprensión del habla suele afrontarse por los
diseñadores de sistemas desde una estructura de cuatro niveles básicos que
interaccionan dinámicamente entre sí:
1.
Nivel
acústico
2.
Nivel
fonético.
3.
Nivel
léxico‑sintáctico.
4.
Nivel
semántico‑pragmático.
Cada uno de estos niveles se superpone al siguiente,
aportando una cantidad de información sobre el lenguaje que, al integrarse con
la que proporcionan los otros, articula la comprensión global. Pero entremos
más a fondo en los dos primeros niveles, concretamente en los niveles acústico
y fonético.
El reconocimiento electrónico de los fonemas se basa
en el análisis de formantes acústicos en las partes más estacionarias del
sonido. El perfil acústico de la voz humana está constituido por una frecuencia
fundamental (F0), generada en la laringe, y cuatro formantes (resonancias producidas
por las cavidades bucales), centrados en sendas frecuencias; de estas
frecuencias centrales: F1, F2, F3 y F4, las máquinas solamente suelen utilizar
F1 y F2 para el reconocimiento de las vocales; a la frecuencia fundamental producida
en la laringe por las cuerdas vocales, F0, se le asigna en los sistemas la
función de leer la altura tonal de la voz y sus variaciones (entonación),
prescindiendo del resto, puesto que presentan normalmente una fuerte dispersión.
Sin embargo, los estudiosos de la voz acostumbran a reconocer que tanto FO
como F3 y F4 transportan información esencial sobre el locutor. Josep Martí, por ejemplo, afirma que a lo largo de su
experiencia ha podido observar que tanto la frecuencia fundamental y el tercer
y cuarto formantes como las antirresonancias (caídas
sistemáticas de intensidad a determinadas frecuencias) son puntos muy
significativos en la identificación de personas (Cfr. Martí: 1984, 41‑42).
En esta misma línea, Quilis dice que los formantes
más altos son producto del timbre individual de cada hablante (Quilis: 1982).
Tras esta interpretación acústica y fonética
del habla, los sistemas electrónicos saltan al nivel léxico‑sintáctico
en el que se aplican reglas gramaticales a los conjuntos de sonidos y se extraen
símbolos elementales que, más tarde, serán interrelacionados y depurados de
interpretaciones absurdas en el nivel semántico‑pragmático.
Globalmente este planteamiento es demasiado
esquemático para cubrir toda la capacidad expresiva de los sonidos orales.
Existe un vacío profundo entre los dos primeros niveles y los dos últimos. Si
la dificultad esencial para las máquinas está en la distorsión que sufre regularmente
la señal vocal, y esta distorsión no es aleatoria sino motivada y sistemática,
la estructura que gobierna la interpretación automática del habla adolece de
un nivel que valore y dé sentido a las distorsiones expresivas.
Esas distorsiones de las formas acústicas estándar,
a las que prefiero llamar transgresiones, se organizan en un nivel de expresión
que comunica al oyente información sobre el gesto, la actitud, el carácter, el
aspecto físico, el contexto del emisor; o bien sobre la forma, el tamaño, el
color, el tipo de movimiento, etc. de aquello que describe oralmente el emisor.
Son transgresiones que en realidad constituyen rasgos sonoros interpretables,
y que no pertenecen a las formas léxicas ni a las formas gramaticales, ni son
tampoco definitorios de la estructura acústica estándar de los fonemas. A este
nivel de la comunicación oral se le debería llamar expresión fonoestésica. El vocablo fonoestésica
me parece adecuado en tanto que recoge en una palabra dos conceptos
fundamentales: la raíz fono proveniente del griego “phoneo”,
que significa emitir la voz; y la raíz “áisthesis”,
que expresa sensación, tener la percepción de.
Lógicamente, el nivel de interpretación que
proponemos es el nivel fonoestésico, y estaría
situado entre el fonético y el léxico‑sintáctico, siendo su función la de
interpretar expresivamente las transgresiones acústicas de los estándares pre‑existentes en la memoria de la máquina.
Este nivel aportaría al ordenador la información
necesaria para prever el tipo de distorsiones acústicas que aparecen en la voz
de un individuo irónico, o de un tipo colérico. Tras el primer muestreo
acústico la máquina debería elegir un código adecuado en función de la actitud
psíquica del locutor, de su personalidad, su ritmo etc. Disponer de este tipo de
códigos en las bibliotecas de memoria permitiría a los ordenadores parlantes no
sólo reconocer formas acústicas que han sido fuertemente modificadas, sino
confrontar semánticamente los valores de esta expresividad pre‑verbal
con el sentido resultante de la estructura morfosintáctica,
matizándolo o incluso modificándolo profundamente.
Soy consciente de que desarrollar este nuevo nivel
de reconocimiento de formas dentro de los sistemas informáticos representa el
establecimiento de una nueva línea de investigación especialmente dependiente
del desarrollo de estudios sobre los aspectos de la voz que he definido más
arriba como expresión fonoestésica, y de que
la investigación fundamental sobre este campo es limitadísima. No obstante, también
es cierto que las máquinas no serán capaces de hablar y de entender el sonido
del lenguaje natural con cierta soltura hasta que sepamos establecer
protocolos que orienten al sistema parlante sobre los modos de transgresión habituales.
Casacuberta, Francisco; Vidal, Enrique, y otros: Reconocimiento
automático del habla. Marcombo, Barcelona, 1987.
Fonagy, Ivan: La vive voix. Payot, París, 1983.
Guía de la investigación en las comunidades
europeas: Ministerio de Educación y Ciencia, C.A.I.C.Y.T.,
Servicio de Publicaciones del M.E.C., Madrid, 1985,
Golderos, Antonio: “Modelos para el reconocimiento de
palabras con independencia del locutor”, en Mundo Electrónico, n.° 144, pp. 67‑81,
Boixareu Editores, Barcelona, octubre de 1984
Lanau, Javier: “Síntesis vocal y técnicas de muestreo”,
en Música y Tecnología, n.° 2, pp. 60‑66, Barcelona, marzo/abril de 1986.
Levinson, Stephen y Liberman, Mark: “Reconocimiento
del habla por medio de ordenadores”, en Scientific American, n.° 57, pp. 38‑51, Ed.
Prensa Científica, S.A., junio de 1981.
Martí, Josep: “Parametres vocàlics del català”, en Folia Fonética: revista del Laboratori
de Fonètica “Pere Barnils”, Estudi General de Lleida, Universitat de Barcelona,
1984,
Moles, Abraham: Teoría de la información y
percepción estética. Ediciones Júcar, Madrid, 1975. (C. Editions Denoel, París, 1972).
Quilis, Antonio: Curso de fonética y fonología españolas. C.S.I.C., Madrid, 1982.
Rodríguez, M; Olabe, J.
C., y otros: “Visión panorámica de la respuesta oral de las máquinas”, en
Mundo Electrónico, n.° 144, pp. 57-67, Boixareu
Editores, Barcelona, octubre de 1984.
Shannon, C., y Weaver, M.: The mathematical Theory of
Communications. University of Illinois Press, Urbana, 1962.