Este científico le dio a Stephen Hawking su voz y luego perdió la suya

"¿Puedes oírme bien?" Le pregunto a Brad Story al comienzo de una videollamada. Pronunciar una frase simple como esta, aprendería más tarde, es realizar lo que podría decirse que es el acto motor más intrincado conocido por cualquier especie: el habla.

Pero cuando Story, un científico del habla, se señala la oreja y niega con la cabeza, este acto de habla en particular no parece tan impresionante. Una falla tecnológica nos ha dejado virtualmente mudos. Cambiamos a otro sistema moderno de entrega de voz, el teléfono inteligente, y comenzamos una conversación sobre la evolución de las máquinas parlantes, un proyecto que comenzó hace un milenio con cuentos mágicos de cabezas de bronce parlantes y continúa hoy con tecnología que, para muchos de nosotros, bien podría ser magia: Siri y Alexa, IA de clonación de voz y todas las demás tecnologías de síntesis de voz que resuenan a lo largo de nuestra vida diaria.

Un breve período de mutismo inducido por la tecnología podría ser lo más cerca que muchas personas estén de perder la voz. Eso no quiere decir que los trastornos de la voz sean raros. Alrededor de un tercio de las personas en los EE. UU. sufren una anomalía del habla en algún momento de sus vidas debido a un trastorno de la voz, conocido como disfonía. Pero perder la voz de forma completa y permanente es mucho más raro, generalmente causado por factores como una lesión traumática o una enfermedad neurológica.

Para Stephen Hawking, fue lo último. En 1963, el estudiante de física de 21 años fue diagnosticado con esclerosis lateral amiotrófica (ELA), una rara patología neurológica que erosionaría su control muscular voluntario durante las próximas dos décadas hasta el punto de una parálisis casi total. Para 1979, la voz del físico se había vuelto tan arrastrada que solo las personas que lo conocían bien podían entender su discurso.

"La voz de uno es muy importante", escribió Hawking en sus memorias. "Si tienes dificultad para hablar, es probable que la gente te trate como un deficiente mental".

En 1985, Hawking desarrolló un caso grave de neumonía y se sometió a una traqueotomía. Le salvó la vida pero le quitó la voz. Después, solo podía comunicarse a través de un tedioso proceso de dos personas: alguien señalaba letras individuales en una tarjeta y Hawking levantaba las cejas cuando encontraban la correcta.

"Es bastante difícil mantener una conversación como esa, y mucho menos escribir un artículo científico", escribió Hawking. Cuando su voz se desvaneció, también lo hizo cualquier esperanza de continuar su carrera o terminar su segundo libro, el éxito de ventas que convertiría a Stephen Hawking en un nombre familiar: Una breve historia del tiempo: del Big Bang a los agujeros negros.

Pero pronto Hawking volvió a producir discursos, esta vez no con el acento inglés de la BBC que había adquirido al crecer en los suburbios al noroeste de Londres, sino uno que era vagamente estadounidense y decididamente robótico. No todos estuvieron de acuerdo en cómo describir el acento. Algunos lo llamaron escocés, otros escandinavo. Nick Mason de Pink Floyd lo llamó "positivamente interestelar".

Sin importar la descripción, esta voz generada por computadora se convertiría en una de las inflexiones más reconocibles del planeta, conectando la mente de Hawking con innumerables audiencias que estaban ansiosas por escucharlo hablar sobre las preguntas más importantes: agujeros negros, la naturaleza del tiempo y el origen de nuestro universo.

A diferencia de otros oradores famosos a lo largo de la historia, la voz característica de Hawking no era del todo suya. Era una reproducción de la voz de la vida real de otro científico pionero, Dennis Klatt, quien en las décadas de 1970 y 1980 desarrolló sistemas informáticos de última generación que podían transformar prácticamente cualquier texto en inglés en voz sintética.

Los sintetizadores de voz de Klatt y sus derivados tenían varios nombres: MITalk, KlatTalk, DECtalk, CallText. Pero la voz más popular que produjeron estas máquinas, la que Hawking usó durante las últimas tres décadas de su vida, tenía un solo nombre: Perfect Paul.

"Se hizo tan conocido y encarnado en Stephen Hawking, en esa voz", me dice Story, profesora del Departamento de Ciencias del Habla, el Lenguaje y la Audición de la Universidad de Arizona. "Pero esa voz era realmente la voz de Dennis. Basó la mayor parte de ese sintetizador en sí mismo".

Los diseños de Klatt marcaron un punto de inflexión en la síntesis de voz. Las computadoras ahora podían tomar el texto que ingresabas en una computadora y convertirlo en voz de una manera altamente inteligible. Estos sistemas lograron capturar de cerca las formas sutiles en que pronunciamos no solo palabras, sino oraciones completas.

Mientras Hawking aprendía a vivir y trabajar con su nueva voz en la segunda mitad de la década de 1980, la propia voz de Klatt se estaba volviendo cada vez más áspera, como consecuencia del cáncer de tiroides que lo había afectado durante años.

"Hablaba con una especie de susurro ronco", dice Joseph Perkell, científico del habla y colega de Klatt cuando ambos trabajaban en el Speech Communications Group del MIT durante las décadas de 1970 y 1980. "Fue una especie de ironía suprema. Aquí hay un hombre que ha estado trabajando para reproducir el proceso del habla y no puede hacerlo por sí mismo".

Mucho antes de que aprendiera a construir el habla con las computadoras, Klatt vio a los trabajadores de la construcción construir edificios cuando era niño en los suburbios de Milwaukee, Wisconsin. El proceso lo fascinaba.

"Empezó como una persona realmente curiosa", dice Mary Klatt, quien se casó con Dennis después de que ambos se conocieron en el laboratorio de Ciencias de la Comunicación de la Universidad de Michigan, donde tenían oficinas contiguas a principios de la década de 1960.

Dennis llegó a Michigan después de obtener una maestría en ingeniería eléctrica de la Universidad de Purdue. Trabajó duro en el laboratorio. Sin embargo, es posible que no todos lo hayan notado, dado su profundo bronceado, su hábito de jugar tenis todo el día y su tendencia a realizar múltiples tareas.

"Cuando iba a su apartamento, él hacía tres cosas a la vez", dice Mary. "Tenía los auriculares puestos, escuchando ópera. Estaba viendo un partido de béisbol. Y al mismo tiempo, estaba escribiendo su tesis".

Cuando el jefe del laboratorio de Ciencias de la Comunicación, Gordon Peterson, leyó la disertación de Dennis, que trataba sobre teorías de la fisiología auditiva, se sorprendió de lo buena que era, recuerda Mary.

"Dennis no era pesado. Trabajaba muchas horas, pero era como si fuera divertido, y eso es un verdadero científico curioso".

Después de obtener un Ph.D. en ciencias de la comunicación de la Universidad de Michigan, Dennis se unió a la facultad del MIT como profesor asistente en 1965. Fue dos décadas después de la Segunda Guerra Mundial, un conflicto que había provocado que las agencias militares estadounidenses comenzaran a financiar la investigación y el desarrollo de tecnología de punta. tecnologías de síntesis de voz y encriptación, un proyecto que continuó en tiempos de paz. También fue aproximadamente una década después de que el lingüista Noam Chomsky arrojara su bomba sobre el conductismo con su teoría de la gramática universal: la idea de que todos los lenguajes humanos comparten una estructura subyacente común, que es el resultado de mecanismos cognitivos integrados en el cerebro.

En el MIT, Klatt se unió al grupo interdisciplinario de comunicación del habla, que Perkell describe como un "semillero de investigación sobre la comunicación humana". Incluyó a estudiantes de posgrado y científicos que tenían diferentes antecedentes pero un interés común en estudiar todo lo relacionado con el habla: cómo lo producimos, percibimos y sintetizamos.

En aquellos días, dice Perkell, había una idea de que podías modelar el habla a través de reglas específicas, "y que podías hacer que las computadoras imitaran [esas reglas] para producir y percibir el habla, y tenía que ver con la existencia de fonemas. "

Los fonemas son los componentes básicos del habla, de forma similar a como las letras del alfabeto son las unidades básicas de nuestro lenguaje escrito. Un fonema es la unidad más pequeña de sonido en un idioma que puede cambiar el significado de una palabra. Por ejemplo, "pen" y "pin" son fonéticamente muy similares, y cada uno tiene tres fonemas, pero se diferencian por sus fonemas medios: /ɛ/ y /ɪ/, respectivamente. El inglés americano tiene 44 fonemas clasificados en términos generales en dos grupos: 24 sonidos de consonantes y 20 sonidos de vocales, aunque los sureños pueden hablar con un sonido de vocal menos debido a un fenómeno fonológico llamado fusión pin-pen: "¿Me prestas un alfiler para escribir algo ?"

Para construir sus sintetizadores, Klatt tuvo que descubrir cómo hacer que una computadora convirtiera las unidades básicas del lenguaje escrito en los componentes básicos del habla, y hacerlo de la manera más inteligible posible.

¿Cómo hacer que una computadora hable? Un enfoque sencillo pero aturdidor sería grabar a alguien hablando cada palabra en el diccionario, almacenar esas grabaciones en una biblioteca digital y programar la computadora para reproducir esas grabaciones en combinaciones particulares correspondientes al texto de entrada. En otras palabras, estaría juntando fragmentos como si estuviera elaborando una carta de rescate acústica. Pero en la década de 1970 hubo un problema fundamental con este llamado enfoque concatenativo: una oración hablada suena muy diferente a una secuencia de palabras pronunciadas de forma aislada.

"El habla es continuamente variable", explica Story. "Y la vieja idea de que 'haremos que alguien produzca todos los sonidos en un idioma y luego podamos unirlos' simplemente no funciona".

Klatt señaló varios problemas con el enfoque concatenativo en un artículo de 1987:

Así que Klatt adoptó un enfoque diferente: uno que trataba la síntesis de voz no como un acto de ensamblaje, sino como uno de construcción. En el centro de este enfoque había un modelo matemático que representaba el tracto vocal humano y cómo produce los sonidos del habla, en particular, los formantes.

Si hubiera asomado la cabeza por la oficina de Dennis en el MIT a fines de la década de 1970, podría haberlo visto, un hombre delgado, de 1,80 m, de unos cuarenta años con una barba canosa, sentado cerca de una mesa que contenía volúmenes del tamaño de una enciclopedia llenos de con espectrogramas. Estos pedazos de papel fueron clave para su enfoque de la síntesis. Como representaciones visuales de la frecuencia y amplitud de una onda de sonido a lo largo del tiempo, fueron la estrella polar que guió a sus sintetizadores hacia una voz cada vez más natural e inteligible.

Perkell lo expresa de manera simple: "Él hablaría al micrófono y luego analizaría el discurso y luego haría que su máquina hiciera lo mismo".

Que Dennis usara su propia voz como modelo era una cuestión de conveniencia, no de vanidad.

"Tenía que intentar imitar a alguien", dice Perkell. "Era el orador más accesible".

En estos espectrogramas, Dennis pasó mucho tiempo identificando y analizando formantes.

"Dennis hizo muchas mediciones con su propia voz sobre dónde deberían estar los formantes", dice Patti Price, especialista en reconocimiento de voz y lingüista, y ex colega de Dennis en el MIT en la década de 1980.

Los formantes son concentraciones de energía acústica alrededor de frecuencias específicas en una onda del habla. Cuando pronuncia la vocal en "cat", por ejemplo, produce un formante cuando baja la mandíbula y mueve la lengua hacia adelante para pronunciar el sonido de la vocal "a", representado fonéticamente como /æ/. En un espectrograma, este sonido aparecería como varias bandas oscuras que ocurren en frecuencias específicas dentro de la forma de onda. (Al menos un científico del habla, uno que Perkell dice que conoció en el MIT, puede mirar un espectrograma y decirle qué palabras dijo un orador sin escuchar una grabación).

"Lo que sucede, para un [sonido de vocal o consonante] particular, es que hay un conjunto de frecuencias a las que se les permite pasar fácilmente a través de esa configuración particular [del tracto vocal], debido a las formas en que las ondas se propagan a través de estas constricciones y expansiones. , dice la historia.

¿Por qué algunas frecuencias pasan fácilmente? Tomemos el ejemplo de un cantante de ópera que rompe una copa de vino al emitir una nota aguda. Este fenómeno raro pero real ocurre porque las ondas de sonido del cantante excitan la copa de vino y hacen que vibre muy rápidamente. Pero esto solo ocurre si la onda sonora, que transporta múltiples frecuencias, transporta una en particular: una frecuencia resonante de la copa de vino.

Cada objeto en el Universo tiene una o más frecuencias resonantes, que son las frecuencias en las que un objeto vibra de manera más eficiente cuando se lo somete a una fuerza externa. Como alguien que solo bailará con una determinada canción, los objetos prefieren vibrar a determinadas frecuencias. El tracto vocal no es una excepción. Contiene numerosas frecuencias resonantes, llamadas formantes, y estas son las frecuencias dentro de una onda de sonido que "le gusta" al tracto vocal.

Los modelos de computadora de Dennis simularon cómo el tracto vocal produce formantes y otros sonidos del habla. En lugar de depender de sonidos pregrabados, su sintetizador calcularía los formantes necesarios para crear cada sonido del habla y los ensamblaría en una forma de onda continua. Dicho de otra manera: si la síntesis concatenativa es como usar Legos para construir un objeto ladrillo a ladrillo, su método era como usar una impresora 3D para construir algo capa por capa, basado en cálculos precisos y especificaciones del usuario.

El producto más famoso que surgió de este enfoque fue DECtalk, una caja del tamaño de un maletín de $ 4,000 que se conectaría a una computadora como si fuera una impresora. En 1980, Dennis autorizó su tecnología de síntesis a Digital Equipment Corporation, que en 1984 lanzó el primer modelo DECtalk, el DTC01.

DECtalk sintetizó el habla en un proceso de tres pasos:

DECtalk podría ser controlado por computadora y teléfono. Al conectarlo a una línea telefónica, era posible realizar y recibir llamadas. Los usuarios podían recuperar información de la computadora a la que estaba conectado DECtalk presionando ciertos botones en el teléfono.

Lo que finalmente la convirtió en una tecnología histórica fue que DECtalk podía pronunciar prácticamente cualquier texto en inglés y podía modificar estratégicamente su pronunciación gracias a modelos informáticos que representaban la oración completa.

"Esa es realmente su principal contribución: poder llevar literalmente el texto al discurso", dijo Story.

Perfect Paul no fue la única voz que desarrolló Dennis. El sintetizador DECtalk ofreció nueve: cuatro voces masculinas adultas, cuatro voces femeninas adultas y una voz infantil femenina llamada Kit the Kid. Todos los nombres eran aliteraciones divertidas: Rough Rita, Huge Harry, Frail Frank. Algunos se basaron en las voces de otras personas. Beautiful Betty se basó en la voz de Mary Klatt, mientras que Kit the Kid se basó en la de su hija Laura. (Puede escuchar algunos de ellos, así como otros clips de sintetizadores de voz más antiguos, en este archivo alojado por la Acoustical Society of America).

Pero "cuando llegó al fondo de lo que estaba haciendo", dice Perkell, "fue un ejercicio solitario". De las voces de DECtalk, Dennis pasó la mayor parte del tiempo en Perfect Paul. Parecía pensar que era posible, bueno, perfeccionar a Perfect Paul, o al menos acercarse a la perfección.

"De acuerdo con las comparaciones espectrales, me estoy acercando bastante", dijo a Popular Science en 1986. "Pero queda algo que es esquivo, que no he podido capturar. […] Es simplemente una cuestión de encontrar el modelo correcto".

Encontrar el modelo correcto fue cuestión de encontrar los parámetros de control que simularan mejor el tracto vocal humano. Dennis abordó el problema con modelos informáticos, pero los investigadores de síntesis del habla que llegaron mucho antes que él tuvieron que trabajar con herramientas más primitivas.

La síntesis de voz nos rodea hoy en día. Di "Hola, Alexa" o "Siri" y pronto escucharás que la inteligencia artificial sintetiza el habla similar a la humana a través de técnicas de aprendizaje profundo casi instantáneamente. Mire un éxito de taquilla moderno como Top Gun: Maverick, y es posible que ni siquiera se dé cuenta de que la voz de Val Kilmer fue sintetizada: la voz de la vida real de Kilmer se dañó después de una traqueotomía.

En 1846, sin embargo, tomó un chelín y un viaje al Salón Egipcio de Londres para escuchar la síntesis de voz de última generación. Ese año, el Salón mostraba "La maravillosa máquina parlante", una exhibición producida por PT Barnum que presentaba, como describió el asistente John Hollingshead, un "monstruo científico de Frankenstein" parlante y su inventor alemán "de cara triste".

El alemán sombrío era Joseph Faber. Faber, un agrimensor convertido en inventor, pasó dos décadas construyendo lo que entonces era la máquina parlante más sofisticada del mundo. De hecho, construyó dos, pero destruyó el primero en un "ataque de trastorno temporal". Este no fue el primer informe de la historia de violencia contra una máquina parlante. Se dice que el obispo alemán del siglo XIII, Albertus Magnus, construyó no solo una cabeza parlante de latón, un dispositivo que supuestamente otros artesanos medievales habían construido, sino un hombre de metal parlante de pleno derecho "que respondía preguntas con mucha facilidad y sinceridad cuando se le pedía". Según los informes, el teólogo Tomás de Aquino, que fue alumno de Magnus, destrozó al ídolo porque no se callaba.

La máquina de Faber se llamaba Euphonia. Parecía algo así como una fusión entre un órgano de cámara y un ser humano, que poseía una cara de madera "misteriosamente vacía", una lengua de marfil, fuelles para los pulmones y una mandíbula articulada. Su cuerpo mecánico estaba unido a un teclado de 16 teclas. Cuando se presionaban las teclas en ciertas combinaciones junto con un pedal que empujaba aire a través del fuelle, el sistema podía producir prácticamente cualquier sonido de consonante o vocal y sintetizar oraciones completas en alemán, inglés y francés. (Curiosamente, la máquina hablaba con toques del acento alemán de su inventor, sin importar el idioma).

Bajo el control de Faber, el autómata de Euphonia comenzaba los espectáculos con líneas como: "Disculpen mi pronunciación lenta... Buenos días, damas y caballeros... Es un día cálido... Es un día lluvioso". Los espectadores le harían preguntas. Faber presionaba teclas y pedales para que respondiera. Un espectáculo de Londres terminó con Faber haciendo que su autómata recitara God Save the Queen, lo que hizo de una manera fantasmal que, según Hollingshead, sonaba como si viniera de las profundidades de una tumba.

Esta máquina fue uno de los mejores sintetizadores de voz de lo que podría llamarse la era mecánica de la síntesis de voz, que abarcó los siglos XVIII y XIX. Los científicos e inventores de esta época, en particular Faber, Christian Gottlieb Kratzenstein y Wolfgang von Kempelen, pensaron que la mejor manera de sintetizar el habla era construir máquinas que replicaran mecánicamente los órganos humanos involucrados en la producción del habla. Esta no fue una hazaña fácil. En ese momento, la teoría acústica estaba en sus primeras etapas y la producción del habla humana aún desconcertaba a los científicos.

"Gran parte de [la era mecánica] realmente estaba tratando de entender cómo hablan realmente los humanos", dice Story. "Al construir un dispositivo como lo hizo Faber, o los demás, rápidamente se aprecia lo complejo que es el lenguaje hablado, porque es difícil hacer lo que hizo Faber".

¿Recuerda la afirmación de que el habla es la acción motora más compleja realizada por cualquier especie en la Tierra? Fisiológicamente, eso bien podría ser cierto. El proceso comienza en tu cerebro. Un pensamiento o intención activa vías neuronales que codifican un mensaje y desencadenan una cascada de actividad muscular. Los pulmones expulsan aire a través de las cuerdas vocales, cuyas rápidas vibraciones cortan el aire en una serie de soplos. A medida que esas bocanadas viajan a través del tracto vocal, las moldeas estratégicamente para producir un habla inteligible.

"Movemos la mandíbula, los labios, la laringe, los pulmones, todo en una coordinación muy exquisita para que estos sonidos salgan, y salen a una velocidad de 10 a 15 [fonemas] por segundo", dice Perkell.

Acústicamente, sin embargo, el habla es más directa. (Perkell señala la diferencia técnica entre el habla y la voz, donde la voz se refiere al sonido producido por las cuerdas vocales en la laringe, y el habla se refiere a las palabras, frases y oraciones inteligibles que resultan de los movimientos coordinados del tracto vocal y los articuladores. "Voz" se usa coloquialmente en este artículo). Como una analogía rápida, imagina que soplas aire en una trompeta y escuchas un sonido. ¿Lo que está sucediendo? Una interacción entre dos cosas: una fuente y un filtro.

Puede aplicar el modelo de filtro de fuente a cualquier sonido: tocar una cuerda de guitarra, aplaudir en una cueva, pedir una hamburguesa con queso en el autoservicio. Esta idea acústica llegó en el siglo XX y permitió a los científicos reducir la síntesis del habla a sus componentes necesarios y saltarse la tediosa tarea de replicar mecánicamente los órganos humanos involucrados en la producción del habla.

Faber, sin embargo, todavía estaba atascado en su autómata.

El Euphonia fue principalmente un fracaso. Después de la temporada en el Egypt Hall, Faber abandonó Londres en silencio y pasó sus últimos años actuando en la campiña inglesa con, como describió Hollingshead, "su único tesoro: su hijo del trabajo infinito y el dolor inconmensurable".

Pero no todos pensaron que el invento de Faber era un extraño espectáculo secundario. En 1845, cautivó la imaginación del físico estadounidense Joseph Henry, cuyo trabajo sobre el relé electromagnético ayudó a sentar las bases del telégrafo. Después de escuchar Euphonia en una demostración privada, una visión surgió en la mente de Henry.

"La idea que vio", dice Story, "fue que podía sintetizar el habla sentado aquí, en [una máquina Euphonia], pero transmitiría las pulsaciones de teclas a través de electricidad a otra máquina, que produciría automáticamente esas mismas pulsaciones de teclas para que alguien muy, muy lejos escucharía ese discurso".

En otras palabras, Henry imaginó el teléfono.

No es de extrañar, entonces, que varias décadas después, Henry ayudara a animar a Alexander Graham Bell a inventar el teléfono. (El padre de Bell también había sido fanático de Euphonia de Faber. Incluso alentó a Alexander a construir su propia máquina parlante, lo que Alexander hizo; podía decir "Mamá").

La visión de Henry fue más allá del teléfono. Después de todo, el teléfono de Bell convirtió las ondas sonoras del habla humana en señales eléctricas y luego volvió a convertirlas en ondas sonoras en el extremo receptor. Lo que Henry previó fue una tecnología que pudiera comprimir y luego sintetizar señales de voz.

Esta tecnología llegaría casi un siglo después. Como explicó Dave Tompkins en su libro de 2011, How to Wreck a Nice Beach: The Vocoder from World War II to Hip-Hop, The Machine Speaks, se produjo después de que un ingeniero de Bell Labs llamado Homer Dudley tuviera una epifanía sobre el habla mientras estaba acostado en un Cama de hospital de Manhattan: Su boca era en realidad una estación de radio.

La idea de Dudley no era que su boca pudiera transmitir el juego de los Yankees, sino que la producción del habla podía conceptualizarse bajo el modelo fuente-filtro, o un modelo similar al que llamó naturaleza portadora del habla. ¿Por qué mencionar una radio?

En un sistema de radio, se genera una onda portadora continua (fuente) y luego se modula mediante una señal de audio (filtro) para producir ondas de radio. De manera similar, en la producción del habla, las cuerdas vocales dentro de la laringe (fuente) generan un sonido puro a través de la vibración. Luego, este sonido es moldeado y modulado por el tracto vocal (filtro) para producir un habla inteligible.

Sin embargo, a Dudley no le interesaban las ondas de radio. En la década de 1930, estaba interesado en transmitir voz a través del Océano Atlántico, a lo largo del cable telegráfico transatlántico de 2.000 millas. Un problema: estos cables de cobre tenían limitaciones de ancho de banda y solo podían transmitir señales de aproximadamente 100 Hz. La transmisión del contenido del habla humana a través de su espectro requería un ancho de banda mínimo de alrededor de 3000 Hz.

Resolver este problema requería reducir el habla a lo esencial. Afortunadamente para Dudley y para el esfuerzo de guerra aliado, los articuladores que usamos para dar forma a las ondas de sonido (nuestra boca, labios y lengua) se mueven lo suficientemente lento como para pasar por debajo del límite de ancho de banda de 100 Hz.

"La gran idea de Dudley fue que gran parte de la información fonética importante en una señal de voz se superponía a la portadora de voz mediante la muy lenta modulación del tracto vocal por el movimiento de los articuladores (a frecuencias de menos de 60 Hz)", Story explica. "Si de alguna manera pudieran extraerse de la señal de voz, podrían enviarse a través del cable telegráfico y usarse para recrear (es decir, sintetizar) la señal de voz al otro lado del Atlántico".

El sintetizador eléctrico que hizo esto se llamó vocoder, abreviatura de codificador de voz. Usó herramientas llamadas filtros de paso de banda para dividir el habla en 10 partes o bandas separadas. Luego, el sistema extraería parámetros clave como la amplitud y la frecuencia de cada banda, encriptaría esa información y transmitiría el mensaje codificado a lo largo de líneas telegráficas a otra máquina codificadora de voz, que luego decodificaría y finalmente "hablaría" el mensaje.

A partir de 1943, los aliados utilizaron el codificador de voz para transmitir mensajes de guerra encriptados entre Franklin D. Roosevelt y Winston Churchill como parte de un sistema llamado SIGSALY. Alan Turing, el criptoanalista inglés que descifró la máquina alemana Enigma, ayudó a Dudley y a sus colegas ingenieros de Bell Labs a convertir el sintetizador en un sistema de cifrado de voz.

"Al final de la guerra", escribió el filósofo Christoph Cox en un ensayo de 2019, "se instalaron terminales SIGSALY en lugares de todo el mundo, incluso en el barco que transportaba a Douglas MacArthur en su campaña por el Pacífico Sur".

Aunque el sistema hizo un buen trabajo al comprimir el habla, las máquinas eran enormes, ocupaban habitaciones enteras y el habla sintética que producían no era especialmente inteligible ni parecida a la humana.

"El vocoder", escribió Tompkins en How to Wreck a Nice Beach, "redujo la voz a algo frío y táctico, metálico y seco como latas de sopa en una caja de arena, deshumanizando la laringe, por así decirlo, para algunos de los momentos más deshumanizantes del hombre. : Hiroshima, la crisis de los misiles en Cuba, los gulags soviéticos, Vietnam. Churchill lo tenía, FDR lo rechazó, Hitler lo necesitaba. Kennedy estaba frustrado por el vocoder. Mamie Eisenhower lo usó para decirle a su marido que volviera a casa. Nixon tenía uno en su limusina. . Reagan, en su avión. Stalin, en su mente que se desintegra".

El timbre zumbante y robótico del vocoder encontró una bienvenida más cálida en el mundo de la música. Wendy Carlos usó un tipo de codificador de voz en la banda sonora de la película La naranja mecánica de Stanley Kubrick de 1971. Neil Young usó uno en Trans, un álbum de 1983 inspirado en los intentos de Young de comunicarse con su hijo Ben, quien no podía hablar debido a una parálisis cerebral. Durante las siguientes décadas, podría haber escuchado un vocoder al escuchar algunos de los nombres más populares de la música electrónica y el hip-hop, incluidos Kraftwerk, Daft Punk, 2Pac y J Dilla.

Para la tecnología de síntesis de voz, el próximo gran hito vendría en la era de las computadoras con la practicidad y la inteligibilidad del sistema de texto a voz de Klatt.

"La introducción de las computadoras en la investigación del habla creó una nueva y poderosa plataforma para generalizar y generar nuevas declaraciones, hasta ahora no registradas", dice Rolf Carlsson, quien fue amigo y colega de Klatt y actualmente es profesor en el KTH Royal Institute of de Suecia. Tecnología.

Las computadoras permitieron a los investigadores de síntesis del habla diseñar patrones de control que manipulaban el habla sintética de maneras específicas para que sonara más humano, y superponer estos patrones de control de manera inteligente para simular más de cerca cómo el tracto vocal produce el habla.

"Cuando estos enfoques basados en el conocimiento se volvieron más completos y las computadoras se volvieron más pequeñas y rápidas, finalmente se hizo posible crear sistemas de texto a voz que podrían usarse fuera del laboratorio", dijo Carlsson.

Hawking dijo que le gustaba Perfect Paul porque no lo hacía sonar como un Dalek, una raza alienígena en la serie Doctor Who que hablaba con voces computarizadas.

No estoy seguro de cómo suenan los Daleks, pero para mi oído, Perfect Paul suena bastante robótico, especialmente en comparación con los programas modernos de síntesis de voz, que pueden ser difíciles de distinguir de un hablante humano. Pero sonar como un humano no es necesariamente lo más importante en un sintetizador de voz.

Price dice que debido a que muchos usuarios de sintetizadores de voz eran personas con discapacidades comunicativas, Dennis estaba "muy concentrado en la inteligibilidad, especialmente en la inteligibilidad bajo estrés: cuando otras personas están hablando o en una habitación con otros ruidos, o cuando lo aceleras, ¿es así? todavía inteligible?"

Perfect Paul puede sonar como un robot, pero al menos es fácil de entender y es relativamente poco probable que pronuncie mal una palabra. Esta fue una gran comodidad, no solo para las personas con discapacidades comunicativas, sino también para quienes utilizaban DECtalk de otras maneras. La empresa Computers in Medicine, por ejemplo, ofrecía un servicio telefónico donde los médicos podían llamar a un número y hacer que una voz de DECtalk leyera los registros médicos de sus pacientes, pronunciando medicamentos y condiciones, en cualquier momento del día o de la noche.

"DECtalk hizo un mejor trabajo al hablar estos [términos médicos] que la mayoría de los legos", dijo Popular Mechanics citando a un ejecutivo de una compañía de computadoras en un artículo de 1986.

Alcanzar este nivel de inteligibilidad requería elaborar un sofisticado conjunto de reglas que capturaran las sutilezas del habla. Por ejemplo, intente decir: "Joe comió su sopa". Ahora hazlo de nuevo, pero observa cómo modificas la /z/ en "his". Si hablas inglés con fluidez, probablemente combinarías la /z/ de "his" con la vecina /s/ de "soup". Hacerlo convierte la /z/ en un sonido sordo, lo que significa que las cuerdas vocales no vibran para producir el sonido.

El sintetizador de Dennis no solo podía hacer modificaciones como convertir la /z/ de "Joe comió su sopa" en un sonido sordo, sino que también podía pronunciar las palabras correctamente según el contexto. Un anuncio de DECtalk de 1984 ofrecía un ejemplo:

“Considere la diferencia entre $1,75 y $1,75 millones. Los sistemas primitivos leerían esto como 'dólares-uno-período-siete-cinco' y 'dólares-uno-período-siete-cinco-millones'. El sistema DECtalk considera el contexto e interpreta estas cifras correctamente como 'un dólar y setenta y cinco centavos' y 'uno punto siete cinco millones de dólares'".

DECtalk también tenía un diccionario que contenía pronunciaciones personalizadas para palabras que desafían las reglas fonéticas convencionales. Un ejemplo: "calíope", que se representa fonéticamente como /kəˈlaɪəpi/ y se pronuncia "kuh-LYE-uh-pee".

El diccionario de DECtalk también contenía algunas otras excepciones.

"Me dijo que puso algunos huevos de Pascua en su sistema de síntesis de voz para que si alguien lo copiaba pudiera decir que era su código", dice Price, y agrega que, si recuerda correctamente, escribir "suanla chaoshou", que era uno de los platos chinos favoritos de Klatt, haría que el sintetizador dijera "Dennis Klatt".

Algunas de las reglas más importantes de DECtalk para la inteligibilidad se centraron en la duración y la entonación.

"Klatt desarrolló un sistema de texto a voz en el que las duraciones naturales entre palabras estaban preprogramadas y también eran contextuales", dice Story. "Tuvo que programar: si necesita una S pero cae entre un sonido Ee y Ah, va a hacer algo diferente que si cae entre un Ooo y un Oh. Así que tenía que tener todas esas reglas contextuales incorporado allí también, y también para incorporar pausas entre palabras, y luego tener todas las características prosódicas: para una pregunta, el tono sube, para una afirmación, el tono sube".

La capacidad de modular el tono también significaba que DECtalk podía cantar. Después de escuchar a la máquina cantar New York, New York en 1986, TA Heppenheimer de Popular Science concluyó que "no era una amenaza para Frank Sinatra". Pero incluso hoy en día, en YouTube y en foros como /r/dectalk, sigue existiendo un pequeño pero entusiasta grupo de personas que usan el sintetizador, o emulaciones de software del mismo, para hacerlo cantar canciones, desde Así habló Zaratustra de Richard Strauss hasta Internet. -la famosa canción "Trololo" de Happy Birthday to You, que Dennis hizo cantar a DECtalk para el cumpleaños de su hija Laura.

DECtalk nunca fue un cantante elegante, pero siempre ha sido inteligible. Una razón que es importante se centra en cómo el cerebro percibe el habla, un campo de estudio al que también contribuyó Klatt. Se necesita mucho esfuerzo cognitivo para que el cerebro procese correctamente el habla de mala calidad. Escucharlo durante el tiempo suficiente puede incluso causar fatiga. Pero DECtalk era "una especie de hiperarticulado", dice Price. Era fácil de entender, incluso en una habitación ruidosa. También tenía características que eran particularmente útiles para personas con problemas de visión, como la capacidad de acelerar la lectura de texto.

En 1986, el sintetizador DECtalk había estado en el mercado durante dos años y había tenido cierto éxito comercial. Mientras tanto, la salud de Dennis estaba empeorando. Este giro del destino se sintió como un "negocio con el diablo", le dijo a Popular Science.

El diablo debe haber estado de acuerdo con los resultados más benévolos del comercio. Como se promocionaba en un anuncio: "[DECtalk] puede brindarle a una persona con problemas de visión una manera efectiva y económica de trabajar con computadoras. Y puede brindarle a una persona con problemas de habla una forma de verbalizar sus pensamientos en persona o por teléfono. "

Dennis no comenzó su carrera científica con la misión de ayudar a las personas discapacitadas a comunicarse. Más bien, tenía una curiosidad natural por los misterios de la comunicación humana.

"Y luego evolucionó a, 'Oh, esto realmente podría ser útil para otras personas'", dice Mary. "Eso fue realmente satisfactorio".

En 1988, Hawking se estaba convirtiendo rápidamente en uno de los científicos más famosos del mundo, en gran parte gracias al sorprendente éxito de Una breve historia del tiempo. Mientras tanto, Dennis sabía que Hawking había comenzado a usar la voz Perfect Paul, dice Mary, pero siempre fue modesto con su trabajo y "no se lo recordaba a todo el mundo".

No es que todos necesitaran un recordatorio. Cuando Perkell escuchó por primera vez la voz de Hawking, dice que fue "inconfundible para mí que se trataba de KlattTalk", la voz que había escuchado regularmente saliendo de la oficina de Dennis en el MIT.

Mary prefiere no insistir en la ironía de que Dennis pierda la voz cerca del final de su vida. Él siempre fue optimista, dice ella. Era un científico que marcaba tendencias al que le encantaba escuchar a Mozart, preparar la cena para su familia y trabajar para iluminar el funcionamiento interno de la comunicación humana. Siguió haciendo exactamente eso hasta una semana antes de su muerte en diciembre de 1988.

Perfect Paul anotó todo tipo de papeles oradores a lo largo de las décadas de 1980 y 1990. Entregó el pronóstico en NOAA Weather Radio, proporcionó información de vuelos en aeropuertos, expresó el personaje de televisión Mookie en Tales from the Darkside y la chaqueta robótica en Back to the Future Part II. Habló en episodios de Los Simpson, apareció en la canción Keep Talking de Pink Floyd, inspiró bromas internas en el videojuego en línea Moonbase Alpha y soltó líneas en pistas de rap de MC Hawking como All My Shootings Be Drivebys. (El Hawking real dijo que se sintió halagado por las parodias).

Hawking pasó a utilizar la voz de Perfect Paul durante casi tres décadas. En 2014, todavía estaba produciendo Perfect Paul a través del hardware de sintetizador CallText de 1986, que usaba la tecnología de Klatt y la voz de Perfect Paul, pero presentaba reglas prosódicas y fonológicas diferentes a las de DECtalk. El hardware retro se convirtió en un problema: el fabricante había quebrado y solo quedaba un número finito de chips en el mundo.

Así comenzó un esfuerzo concertado para salvar la voz de Hawking. ¿La captura?

"Quería sonar exactamente igual", dice Price. "Solo lo quería en el software, porque una de las placas originales había muerto. Y luego se puso nervioso por no tener placas de repuesto".

Hubo intentos anteriores de replicar el sonido del sintetizador de Hawking a través del software, pero Hawking los rechazó todos, incluido un intento de aprendizaje automático y los primeros intentos del equipo con el que trabajó Price. Para Hawking, ninguno sonaba del todo bien.

"Lo usó durante tantos años que se convirtió en su voz y no quería una [nueva]", dice Price. "Tal vez pudieron simular su vieja voz a partir de viejas grabaciones de él, pero él no quería eso. Esto se había convertido en su voz. De hecho, quería obtener un derecho de autor o una patente o alguna protección para que nadie más pudiera hacerlo". Usa esa voz".

Hawking nunca patentó la voz, aunque se refirió a ella como su marca registrada.

"No lo cambiaría por una voz más natural con acento británico", le dijo a la BBC en una entrevista de 2014. "Me han dicho que los niños que necesitan una voz de computadora quieren una como la mía".

Después de años de arduo trabajo, comienzos en falso y rechazos, el equipo con el que colaboró Price finalmente logró realizar ingeniería inversa y emular el hardware antiguo para producir una voz que, al oído de Hawking, sonaba casi idéntica a la versión de 1986.

El avance se produjo solo unos meses antes de que Hawking muriera en marzo de 2018.

"Íbamos a hacer el gran anuncio, pero estaba resfriado", dice Price. "Él nunca mejoró".

La síntesis de voz hoy en día es prácticamente irreconocible en comparación con la década de 1980. En lugar de intentar replicar el tracto vocal humano de alguna manera, la mayoría de los sistemas modernos de conversión de texto a voz utilizan técnicas de aprendizaje profundo en las que una red neuronal se entrena en cantidades masivas de muestras de voz y aprende a generar patrones de voz basados en los datos que obtuvo. expuesto a.

Eso está muy lejos de la Eufonía de Faber.

"La forma en que [los sintetizadores de voz modernos] producen el habla", dice Story, "no está relacionada de ninguna manera con la forma en que un humano produce el habla".

Algunas de las aplicaciones más impresionantes de la actualidad incluyen IA de clonación de voz como VALL-E X de Microsoft, que puede replicar la voz de alguien después de escucharla hablar durante solo unos segundos. La IA puede incluso imitar la voz del orador original en un idioma diferente, capturando también la emoción y el tono.

No todos los científicos del habla aman necesariamente la verosimilitud de la síntesis moderna.

"Esta tendencia de conversar con máquinas es muy preocupante para mí, en realidad", dice Perkell, y agrega que prefiere saber que está hablando con una persona real cuando está en una llamada telefónica. "Deshumaniza el proceso de comunicación".

En un artículo de 1986, Dennis escribió que era difícil estimar cómo las computadoras cada vez más sofisticadas que pueden escuchar y hablar afectarían a la sociedad.

"Las máquinas parlantes pueden ser solo una moda pasajera", escribió, "pero el potencial de servicios nuevos y poderosos es tan grande que esta tecnología podría tener consecuencias de gran alcance, no solo en la naturaleza de la recopilación y transferencia normal de información, sino también en nuestras actitudes hacia la distinción entre el hombre y la computadora".

Al pensar en el futuro de las máquinas parlantes, Dennis probablemente pensó que las tecnologías más nuevas y más sofisticadas eventualmente dejarían obsoleta la voz de Perfect Paul, un destino que en gran medida se ha cumplido. Sin embargo, lo que habría sido virtualmente imposible de predecir para Dennis fue el destino de Perfect Paul alrededor del siglo 55. Entonces es cuando un agujero negro se tragará una señal de Perfect Paul.

Como tributo a Hawking después de su muerte, la Agencia Espacial Europea en junio de 2018 emitió una señal de Hawking hablando hacia un sistema binario llamado 1A 0620–00, que alberga uno de los agujeros negros conocidos más cercanos a la Tierra. Cuando la señal llegue allí, después de transmitirse a la velocidad de la luz a través del espacio interestelar durante unos 3.400 años, cruzará el horizonte de sucesos y se dirigirá hacia la singularidad del agujero negro.

La transmisión será la primera interacción de la humanidad con un agujero negro.

Construyendo una máquina parlante Perfeccionando a Perfect Paul Cabezas parlantes La cadena del habla John Henry y las visiones del futuro El vocoder y la naturaleza portadora del habla DECtalk llega a la corriente principal La voz de Perfect Paul en el mundo El destino de Perfect Paul

Blog