Inteligencia artificial y clonación de voz: ejemplos y usos de un futuro que ya está aquí y que escuelas como ISDI enseñan en sus aulas

Podemos caer en la trampa de pensar que el uso principal de la inteligencia artificial recae en la robótica. Imágenes extraídas de películas de ciencia ficción inundan nuestra cabeza con humanoides de acero, inteligentes e inasequibles al desaliento, realizando tareas que eran exclusivas del ser humano y haciéndonos cuestionar, cada día, dónde están los límites.

Ahora, hagamos una prueba. Coge tu móvil y di “Ok, Google” —si es Android— o “Siri” —si usas un iPhone—. A partir de ese momento, podremos pedirle que nos busque vídeos de gatos, la edad de una actriz famosa, que abra la app de WhatsApp o que llame a nuestra madre. Eso también es inteligencia artificial. Y de esto saben mucho en ISDI.

En ISDI quieren formar al mejor profesional digital a través de programas como su Master Internet Business (MIB). Compuesto por 17 módulos, cinco de ellos están dedicados exclusivamente a la inteligencia artificial, la revolución tecnológica que ha estado acompañando —y acompañará— nuestras vidas desde hace un tiempo y que expande sus tentáculos desde la domótica hasta la clonación de voz.

«La voz es una de las tecnologías protagonistas de esta década y sin duda ha venido para quedarse. Cada vez que hay un cambio de interfaz hay una tecnología que se consolida. En los últimos 20 años, hemos pasado del ‘click’ (‘Desktop’) al ‘touch’ (‘Mobile’) y ahora a la voz (conversacional)»

En este artículo vamos a centrarnos en el papel que está jugando la inteligencia artificial para que el audio se convierta en el nuevo vídeo. Una herramienta que puede tener un papel primordial en la manera que tenemos de comunicamos, tanto social como profesionalmente.

Jokin Urraza, director de Innovación y transformación digital en Grupo Planeta y mentor en el programa Master Internet Business (MIB) de ISDI en Barcelona, lo tiene claro: “La voz es una de las tecnologías protagonistas de esta década y sin duda ha venido para quedarse. Cada vez que hay un cambio de interfaz hay una tecnología que se consolida. En los últimos 20 años, hemos pasado del click (Desktop) al touch (Mobile) y ahora a la voz (conversacional). Es el gran hito de la IA y supone un cambio de paradigma donde, por primera vez, humano y máquina pueden conversar y entenderse”.

El audio, además, también es un campo con un prometedor panorama laboral que precisa de una formación a la altura, como la que plantea la escuela ISDI con sus másteres especializados, como es el caso del Master Marketing Automation (MMA).

De los audios de WhatsApp a la clonación de voz

Han pasado ya ocho años desde que WhatsApp decidiera incorporar una funcionalidad que cambiaría la manera de comunicarnos a distancia a través de una app: los audios de voz. Y su incuestionable influencia puede verse ahora en la irrupción de redes sociales tan atípicas como Clubhouse.

Clubhouse: ¿el futuro de las redes sociales?

Clubhouse fue lanzada en abril de 2020 —exclusivamente en iPhone— y prometía, esta vez sí, algo nuevo: una red social basada, exclusivamente, en el formato audio. Una especie de podcast global al que, de momento, solo se puede acceder con invitación y que ofrece atractivos tales como el aumento de la privacidad. Aquí la tentación de subir fotos propias y alimentar el ego se han quedado fuera: solo encontramos un puñado de personas compartiendo impresiones a través de la charla distendida. Solo eso.

La presencia en Clubhouse de personalidades como el magnate Elon Musk, la presentadora Oprah Winfrey o el músico Drake no han hecho más que disparar la popularidad de una red social que tiene en el audio su único atractivo. Según apuntaba el CEO de Clubhouse, Paul Davison, en enero podíamos encontrar dos millones de usuarios activos a la semana.

Pero Clubhouse no solo tiene su encanto porque elimine el componente visual —asociado al ego— de otras redes sociales como Instagram. También se carga de un plumazo el algoritmo basado en pulsar el botón de “Me gusta”. Clubhouse se compone de salas de charla. Es audio en su esencia más pura. Una red social, además, que puede usarse de manera pasiva. Podemos escuchar una charla interesante mientras, por ejemplo, fregamos los platos.

El resto de redes sociales, por supuesto, quieren su parte del pastel. Twitter planea lanzar sus propias rooms —espacios en los que el audio sea el protagonista—, con especial hincapié en liberarlas de amenazas y trolls a través de herramientas específicas para los creadores de las mismas. Y Facebook hará lo propio con sus Live Audio Rooms, en las que el usuario, además, tendrá a su disposición herramientas de edición de audio.

Aflorithmic: clonación de voz con infinitas posibilidades

Y ahora pasamos a hablar de Aflorithmic, una startup que nace en 2019 con un propósito muy marcado: convertir la producción de audio en una herramienta al alcance de todos. Quiere que la creación de audio sea tan sencilla como escribir en un blog y que además sirva de herramienta para hacer de este mundo un lugar mejor.

Un ejemplo para clarificar las cosas: ¿podemos imaginar una clase de ciencia impartida por el propio Albert Einstein? O tirando hacia algo más prosaico: ¿entrenar con la voz de nuestro habitual personal de gimnasio? O un uso más doméstico: ¿relajar a un niño con la voz de su abuelo, a 100 kilómetros de distancia, mientras este le cuenta un cuento?

El trabajo de Aflorithmic pasa por clonar la voz de una persona, ya sea un actor o cualquier otra, a la que se le aplica un proceso de masterización automatizado en la nube. Todo para personalizar productos de marca. Tras este paso, se introduce el texto y este se convierte en audio.

#DarthVader talking about his upcoming presidential campaign: https://t.co/f4409hLwId
🤖😂 Made with https://t.co/sK6IaOAqLV #StarWarsDay #MayThe4thBeWithYou #StarWars #StarWarsDay2021 #developer21 #aflorithmic pic.twitter.com/vCSZv6qQ0g

— aflorithmic (@aflorithmic) May 4, 2021

Para hablarnos de sus proyectos más inmediatos y de corte más humano, hablamos con Matt Lehmann, Chief Operating Officer:

“Estamos trabajando en proyectos concretos usando la clonización de voces para combatir la soledad de personas que no tienen acceso a contacto social con sus familias al estar en residencias o vivir en pueblos pequeños. Un proyecto se llama EEVA (Electronic Elderly Virtual Assistant) y lo estamos desarrollando con el gobierno del Reino Unido. Es un servicio que permite a las personas clonar su voz y con ella programar llamadas telefónicas automáticas a sus familiares que viven, por ejemplo, en residencias. La tecnología permite enviar un mensaje de audio diferente cada día, por ejemplo un recordatorio para tomar los medicamentos o mensajes de buenos días”.

Y prosigue en este sentido: “La misma tecnología se puede usar para crear compañeros virtuales. Estos pueden ayudar a enfermos con alzhéimer o demencia, recordando al paciente detalles importantes y contando historias de familiares, historia o noticias”.

Una tecnología que nos une de verdad. Urraza de Grupo Planeta e ISDI asegura que, “gracias a los continuos avances del procesamiento del lenguaje natural y la inteligencia artificial, las interfaces conversacionales facilitan cada vez más nuestra relación con la tecnología, convirtiendo la capacidad técnica en utilidad. El hacerlo de forma conversacional, en una sociedad cada vez más desconectada de los demás, lo hace más humano, eficiente, natural e inclusivo”.

En la vía más comercial de la clonación por voz, Lehmann explica: “Mantener una conversación con un humano digital da la posibilidad de ser asesorado en productos para comprar. Un ejemplo sería un arquitecto de interiores en IKEA. Podrías mantener una conversación en tiempo real hablando con él sobre cómo planificar tu cocina o qué tipo de almohadas deberías comprar. Este tipo de aplicaciones son casi ilimitadas y los vendedores podrían ser famosos: Cristiano Ronaldo asesora en botas de fútbol, Rafa Nadal en un coche de KIA, etc”.

Una empresa, por ejemplo, puede clonar la voz de alguno de sus empleados para que este comunique la información deseada sin que tenga que grabar el texto. El proceso es automático, lo que ahorra costes implícitos a la producción de audio. De momento, Aflorithmic trabaja con los idiomas español, inglés y alemán.

Un ejemplo de esto lo puedes ver en el contenido de arriba. Se trata de un vídeo de una empresa inmobiliaria que ofrece recorridos guiados —y personalizados— a través de las casas que vende. Te llama por su nombrey te informa de aspectos que te pueden interesar, como ubicación, presupuesto, lugares cercanos que pueden ser atractivos, etc.

Y otro más: Baobub, una app desarrollada por Aflorithmic que se basa en una colección de diez audiojuegos para niños —de entre diez meses a la edad preescolar— con la que intentan que los pequeños establezcan lazos con la vida real. Juegos sin pantalla con instrucciones verbales que guían al niño a través de actividades educativas.

El ahorro en costes en la producción de audio personalizado es evidente. Al fin y al cabo, es inviable contratar a una persona para que grabe mensajes personalizados para cada cliente. Esta es la solución que ofrece Aflorithmic: que cualquiera, a través de su tecnología basada en inteligencia artificial, pueda crear un texto en audio con mezcla de música sin conocimientos de producción.

Aflorithmic no es la única empresa en utilizar la inteligencia artificial para clonar la voz. Vicomtech, centro tecnológico especializado en IA, clonó la voz de Franco para que leyese una carta que él redactó para Don Juan, proponiendo a su hijo Juan Carlos como sucesor de Jefe de Estado.

¿Es el audio el nuevo vídeo?

Hay varios factores que inclinan a responder afirmativamente la pregunta del encabezado. Por un lado, el vídeo consume una gran cantidad de datos y, como consecuencia de ello, almacenamiento de nuestros dispositivos. Además, el audio ofrece mayor privacidad: un contenido en video puede ser visto por personas que estén a nuestro alrededor… Sin embargo, el audio es personal e intrasferible si se escucha a través de auriculares.

Por supuesto, la clonación de voz plantea debates éticos similares a los que ya están produciendo tecnologías como el deepfake, que hicieron posible, por ejemplo, el anuncio de la última campaña de Cruzcampo, en el que una ‘rediviva’ Lola Flores nos contaba las bondades del acento andaluz.

Fernando Asenjo, antiguo alumno de ISDI y Voice Project Manager en Grupo Planeta, apuesta por la convivencia de vídeo y audio: “Creo que son [tecnologías] complementarias y el sentido darwiniano hará que el usuario prefiera consumir audio en vez de vídeo según el caso de uso: en digital se usa muchas veces de forma errónea el concepto ‘sustituir’ como indicio de que algo va a desaparecer y no estoy del todo de acuerdo con ello. Todo parte de un nuevo consumidor que está demandando nuevos formatos de consumo en nuevos canales, donde la parte contextual tiene una gran relevancia”.

En relación con Clubhouse, Lehmann no se muestra tan optimista: “El de Clubhouse ha sido un éxito efímero, porque un foro de audio per se no añade valor a las personas. La ventaja del audio tiene que ser la personalización. Si el audio es capaz de transmitir la información que a mí me interesa, tanto para aprender como entretener, me da valor”.

Ejemplos como el de Clubhouse o el futuro que presenta la clonación de voz para el marketing digital parecen ser solo la base de un paisaje en el que va a haber mucho que hablar… y escuchar. ISDI quiere prepararnos para que emprendamos el viaje de la mejor manera posible, otorgándonos las herramientas esenciales —sus másteres especializados—para responder a un mercado laboral que evoluciona permanentemente.

¿Una imagen vale más que mil palabras? Quizás este dicho popular tenga los días contados. Casos como los que hemos visto aquí aportan nuevas vías de comunicación que, a su vez, plantean distintos retos laborales.

Fotos | Unsplash: Malte Helmold, Soundtrap, Erin Kwon, Gianandrea Villa, Daniela Mota | Aflorithmic