Capítulo 177 en el que doy un repaso a las formas en las que la IA ha entrado en el podcasting haciendo hincapié en los podcasts doblados con IA, poniendo algún ejemplo reciente del a mi juicio pobre resultado que se obtiene.
Transcripción
Esto es Promopodcast, de Emilcar FM, en su capítulo 177, del 23 de abril de 2024. Yo soy Emilcar y este es un podcast donde vamos a hablar de podcasting. Porque no hay nada que le guste más a un podcaster que hablar de podcasting. La inteligencia artificial ha irrumpido en el podcasting como un elefante en una cacharrería y desde mi punto de vista a dos niveles distintos. Tenemos por un lado lo que yo llamaría el nivel bajo, es decir, una entrada para tratar de ayudarnos en nuestras tareas habituales de podcasters. Principalmente a través de la transcripción, digamos de una doble manera, por un lado la transcripción en sí, es decir, el valor que tiene en sí la transcripción para ofrecer la transcripción a los oyentes. Y por otro lado, la transcripción como base para un nuevo método de edición, que es borrando palabras. Es decir, tenemos muchas herramientas ya como Decrypt, que ya existía de antes, en escritorio Hindenburg Pro y también creo que ya lo hace Riverside, donde te hace la transcripción y luego tú vas sobre la transcripción, pinchas una palabra, le das a la tecla de borrar y se ha borrado esa palabra del podcast. Hay otros niveles, ya hay algunas aplicaciones que lo hacen, que son incluso capaces de rellenarte la palabra que falta, es decir, analizar tu voz y todo eso. Pero bueno, eso todavía no está tan extendido en el audio y tan a mano de todo el mundo. Pero la edición, borrando palabras, sí que está ahí. Y fíjate, no solo borrando palabras, muchas veces haciendo una búsqueda en ese texto, en esa transcripción, en tu herramienta de edición de audio, para ver dónde dije tal cosa y a partir de ahí, pues hacer tu edición, hacer un corte, a lo mejor separar, poner una cortinilla, es decir, tiene muchísima autoridad, utilidad, perdón. Aparte, las transcripciones, una vez hechas, también te permiten extraer clips para redes sociales también usando la inteligencia artificial. Son capaces de leer el texto que han transcrito y deducir qué trozo puede ser más interesante o puede ser más llamativo para un corte en redes sociales. No tenemos que pensar en los cortes solo como clips con vídeo. No, yo es que no grabo mi podcast en vídeo, entonces no puedo generar clips. Sí, sí puedes generar clips. El clip se genera en audio, reversa y te lo hace sin ningún problema. Y luego tú le pones una imagen fija o una sucesión de imágenes o lo que te dé la gana para publicarlo en las redes sociales de vídeo, que son las que, digamos, se alimentan más de este tipo de cosas. Todo esto sería, digamos, la inteligencia artificial a un nivel bajo. ¿A un nivel alto? Pues aquí ya hablamos de las tareas de creación de inteligencia artificial capaz de desarrollar, por ejemplo, un guión a partir de una idea e incluso locutarlo directamente. Erramientas donde tú le das unas cuantas indicaciones y se crea el guión completo y encima, pues con una voz femenina, madura, no sé qué, te crea el podcast entero. Una cosa que está ahí y, bueno, pues que no lo sé. No te digo yo que no puedas usar la inteligencia artificial para hacer esto, ¿no? Pero yo qué sé, yo lo veo como un poco raro. Pero bueno, otra de las utilidades, por ejemplo, de la inteligencia artificial es la traducción de podcast y asistentes. Es decir, transcripción, traducción y recreación de la voz del podcaster original en el nuevo idioma. Si ya he dicho que me parece un poco raro usar la inteligencia artificial para crear desde cero algo con la voz incluida, bueno, en realidad para todo lo que supone la participación de la inteligencia artificial en este nivel alto yo soy muy escéptico. ¿Por qué? Pues porque yo creo, sigo pensando, llámame anciano, que la personalidad y la conexión con el presentador o con la presentadora siempre ha sido clave en el éxito de un podcast. No te digo yo que no puedas usar una inteligencia artificial para crear un podcast de noticias cortas de deporte, por ejemplo. Pero yo creo que va a triunfar mucho más un podcast igual hecho por un tío o una tía que te van a leer el mismo guión, pero con otra alma, con otra historia, mismo guión que ha hecho la inteligencia artificial. Pero siempre esa persona va a aportar algo personal, una opinión, una vivencia, incluso un acento, ¿sabes? O sea, el acento suyo de él de su pueblo, un chiste malo de vez en cuando, algo así, no lo sé, algo distinto. El mundo del podcasting evidentemente ve todas estas cosas como una oportunidad. Siempre que aparece una nueva tecnología pues a todos nos llama la atención. Una oportunidad en este caso para conquistar nuevos mercados, para llevar podcasts originales en un idioma a otros idiomas. Y la inteligencia artificial se ve como una vía para hacer esto porque ya se ha intentado hacerlo de otra forma. Es decir, las grandes productoras ya han cogido un podcast de éxito, se han buscado un presentador nativo de otro idioma, le han dado el mismo guión, todo el mismo nivel de producción y no ha funcionado. ¿Por qué, chicos? Porque parte de lo que seguramente gustaba mucho del podcast original era precisamente la persona que lo presentaba, las voces originales, las personalidades originales. Aquí en España tenemos una gran tradición de doblaje de películas, pero estamos hablando de profesionales de altísimo nivel. De altísimo nivel que juegan en otra dimensión. No es lo mismo doblar películas que doblar otro tipo de producciones. Y en este caso, en el tema de los podcasts, esto no ha funcionado. Entonces, las nuevas técnicas de inteligencia artificial están ahí y consiguen resultados muy encomiables. Usando la voz de alguien para clonarla en otro idioma, imitando su color original, pero pues con el acento, un poco con la articulación, con el ritmo, con la musiquilla que esa voz podría tener en dicho idioma. Un amigo, Andrés Freise, me mandó algunas pruebas que hizo con mi voz hablando en inglés y en alemán. Te voy a poner un corte en inglés del comienzo de un capítulo de mi podcast diario, Emil Cardaily. El 9 de enero de 2023, y este es el episodio 2451. Soy Emil Cardaily, y hoy voy a explicarles dónde estamos con el Apple Watch en los Estados Unidos. Ayer, Tim Cook, a través de Twitter y la compañía y de otras maneras, pero lo vi en un tuit de Tim Cook, anunció el lanzamiento del Apple Vision Pro en febrero de 2021. Creo que es, sin duda, el lanzamiento más valioso de Apple desde el iPhone, con todo el respeto a todos los dispositivos que han sido lanzados desde entonces. Creo que sí, el iPad es muy importante, el Apple Watch que amo, no olvides, es el foco de este capítulo. Hoy es martes, 25, o sea, ese tipo de inflexiones que se pierden completamente. Es decir, tú compara mi buenos días, esto es Emil Cardaily, con esto. Good morning, this is Emil Cardaily, a podcast about technology in general. No es que esté mal, pero no soy yo, ¿vale? Este ejemplo y otros que me mandó, que insisto, son muy impresionantes porque te oyes a ti mismo hablar en otro idioma, todo esto está hecho con Rask.ai, que es una de las herramientas más populares y que consigue resultados realmente sorprendentes. A mí, estas voces mías y otros ejemplos que he escuchado, y también me envió de Pedro Sánchez de Balaestra, me suena todo esto como apagado, como un poquito sin alma, porque, pues eso, lo que acabo de decir, tratar de traducir mi timbre a la entonación del idioma, está bien, lo consigue, ¿vale? Pero de alguna forma, aunque esté sonando mi voz, creo que dejo de ser yo, precisamente porque ha matado muchas de mis entonaciones, muchas de mis cosas, muchas de mis pausas, muchas de mis inflexiones. Hay momentos en los que el cómo hablas puede hacer que una cosa suene más irónica y esto, se carga automáticamente todo eso, claro. Aparte de Rask.ai, hay muchas herramientas que hacen cosas prodigiosas y hay estudios que le están metiendo a esto dinero y que se están metiendo en esto de lleno, como ya he dicho antes, por el fracaso de intentarlo de otra manera. O sea, hemos contratado gente de allí, les hemos dado el guión y el podcast no ha funcionado como ha funcionado aquí en Estados Unidos. Vamos a intentarlo de otra forma. A lo mejor no funciona porque es que no va a funcionar nunca. Porque es que para que un podcast, para cualquier tipo de producción, tenga éxito en un sitio o en otro, también hay unos factores culturales y hay otro tipo de factores que están ahí, ¿no? Es decir, yo muchas veces he contado, fíjate, una cosa tan tonta como noticias de tecnología, hay grandes psicodramas de la escena de tecnología que aquí en España no se entienden. Como por ejemplo, hablando de Apple, por ejemplo, como en Estados Unidos el iPhone es el teléfono mayoritario, cuando se escribe mensaje de texto desde la aplicación por defecto del iPhone, las burbujitas de las palabras son azules, pero si alguien te envía un mensaje desde un Android, entonces es verde. Bueno, pues eso allí es un estigma cultural. Por ese mismo tipo de cosas, a lo mejor grandes podcasts. Generalmente estamos hablando siempre de podcast narrativos, no de podcast de actualidad, no, no. Estamos hablando de audios seriales o como los queráis llamar. A lo mejor es un caso muy chulo, lo mismo la serie de Netflix hubiera triunfado, pero en podcast pues aquí no nos encaja. Yo qué sé. Bueno, ACAST ha dicho que va con todo y ha anunciado el lanzamiento en español del podcast de True Crime, One Minute Remaining, que aquí se llamará, ¿cómo era? Ok, bien, me lo pongo en inglés y no me lo pongo en español. Un minuto restante, ¿vale? El un minuto restante hace referencia a la llamada de teléfono que haces a la cárcel y cuando la operadora te avisa de que te queda un minuto, ¿no? Son historias de reclusos, ¿no? El presentador, Jock Lawrence, pues llama a las cárceles para escuchar y para hablar con recursos, ya con recursos, no con reclusos, y pues escuchar, le dar su versión de la historia y todo este tipo de movidas, ¿no? Es un podcast que ha tenido mucho éxito en el año pasado, en 2023, y han pensado que ¿por qué no llegar a otros mercados? Entonces, pues han usado la inteligencia artificial para escuchar la voz del propio Jock y del resto de participantes del podcast hablando un español supuestamente neutro. Voy ahora a ponernos un corte inicial del primer capítulo y voy a ir comentando, a ver si lo hago bien en lo de play-pause, y voy a ir comentando algunas cosas raras que escucho, ¿vale? Venga, vamos. Hola, esa es Didi. Quiero hablar con Didi, por favor. Hola, sí, espera. Estoy intentando ponerla al teléfono para ti. Hola, esa es Didi. ¿Cómo que esa es Didi? Y luego, ¿estoy intentando ponerla al teléfono para ti? A ver, yo asumo que aquí están intentando hacerlo en un español neutro. Hay algunas cosas que a lo mejor para mí como español no tienen sentido, pero para alguien de algún país de Latinoamérica sí lo pueden tener. Pero yo creo que esa es Didi, y estoy intentando ponerla al teléfono para ti. Es como muy raro todo eso. Gracias. Eres el único ahí. ¿Eres el único ahí? No sé eso a qué obedece. O sea, no puedo imaginar, lo podría haber buscado, pero he preferido no buscarlo. No puedo imaginar cuál es la frase en inglés que han traducido mal. No sé si es que la persona, esta voz que he escuchado femenina, es la operadora. Escucha ruido en la línea y se piensa que junto con Jack hay más personas, pero a ti, ¿qué más te da? No, no lo sé. Venga, seguimos. Hola. Hola, mi nombre es Jack Lawrence, locutor de radio y amante de los podcasts de crímenes. Me gustan tanto que dejé mi trabajo para hacer uno. Sin embargo, admitiré que esto es más difícil de lo que esperaba. Lo que he aprendido a lo largo de los últimos años al montar. Esto es que cuando tratas con el sistema penitenciario de… Dice, lo que he aprendido en los últimos años al montar. Y por la entonación hay como un punto y final. Y luego sigue. Esto es que cuando tratas, cuando la entonación correcta es, lo que he aprendido en los últimos años al montar, es que cuando tratas, pero claro, cuando traduces del inglés y cuando intentas darle una entonación y no sé qué pasa, pues al final esto no suena bien. Esto no es español de España ni es español de ninguna parte. Seguimos. Estados Unidos. Las cosas no siempre salen como supone. Desde el primer día tuvo un comienzo tambaleante cuando intentaba entrevistar a mi primer invitado y parecía que ese día en particular la prisión había decidido implementar un nuevo sistema telefónico y la señora de la centralita no estaba segura de cómo funcionaba. No, la tenía en la otra línea. Es que intento a ponerla en la misma llamada. Por alguna razón no puedo. Ah, está bien. Sé que para nosotros aquí es un fin de semana. Bueno, la conjugancia de los tiempos verbales ya tal, ¿vale? Pero, ¿sé que para nosotros aquí es un fin de semana? ¿Esto qué significa? Oiga. ¿Sigo? No sé si podemos intentar esto el martes para que tenga tiempo de revisar este teléfono, porque de algún modo no puedo tenerla en la misma línea. Ella me está llamando, así que cuando me llamó la puse en espera y marco tu número para ver si puedo conseguir que ambos estén. Ella me está llamando, así que cuando me llamó la puse en espera y marcó tu número para ver si puedo conseguir que ambos estén en la misma línea. Insisto, ¿de verdad? Eycast presentando en nota de prensa que un minuto restante por fin está en español para que podamos disfrutar ¿de qué? ¿de un dolor de cabeza? ¿Sigo? En la misma línea. ¿Pero no está funcionando? Pues este es un teléfono nuevo para mí justo aquí, pues este es un teléfono nuevo para mí justo aquí. Insisto, ¿de verdad? Venga, ya no os hago más sufrir. Lo vamos a escuchar terminar. …consultar el manual y averiguar cómo hacerlo. Tienes un minuto restante. ¿De qué trata este podcast? Porque sé lo que… Bueno, ya está. Como veis, no es solo cuestión de cierta deshumanización, que creo que no es el problema de estos cortes. Estas voces yo las veo más vivas de lo que yo he escuchado a las mías, porque no conozco a Jack, al locutor este, a Jack Lawrence. Lo mismo alguien que está cansado de escucharlo ya en inglés y que lo conoce perfectamente lo escucha aquí en español traducido y doblado por la inteligencia artificial y piensa que Jack va hasta arriba de esos níferos, que también podría ser. Entonces yo aquí lo que veo es que hay muchas cosas que no se pueden dejar solo la inteligencia artificial. O sea, la sensación que tengo es que aquí esto no lo ha revisado nadie. Han confiado mucho en el sistema, mucha inversión, mucha programación, mucho tal, y han dicho, chicos, esto tiene que ser darle un botón y publicar. No nos merece la pena hacer otra cosa, porque por caro que sea hacer esto de esta forma, es más caro todavía contratar a alguien. No lo sé, debe de ser eso, porque yo entiendo que aquí lo que habría que hacer es una traducción asistida. Es decir, tú coges la IA, perfecto, que haga la traducción, vale, magnífico, pero que lo vea alguien. Que lo vea alguien, porque si esto lo vea alguien, lo de, pues este es un teléfono nuevo para mí justo aquí, eso no pasa. Y lo de, esa es Didi, esa es Didi, no se dice en ningún español. Lo de, estoy intentando poner el teléfono para ti, bueno, hay tantas cosas que podemos dejar pasar que, pues esta podría ser una más, pero hay cosas que no se pueden dejar pasar. Esto no ha pasado por un filtro humano ni de coña. Insisto, no es ya que no sea español de España el que yo quiero yo aquí en Europa. No, esto no es español de ningún sitio. Fíjate que creo que en cuestiones de vídeo es distinto. Es decir, aunque vamos a tener estos mismos problemas, porque al final las herramientas son las mismas, pero tengo la sensación de que la presencia de la imagen da un contexto que soluciona muchas de las disonancias de percepción que he estado indicando. Aparte, al vídeo se le permiten muchas más excentricidades. Es decir, tú ves un vídeo doblado por inteligencia artificial, incluso con lipsync de inteligencia artificial. Es decir, que la inteligencia artificial ha editado el vídeo para intentar encajar en los labios o modificar los labios. Cosas absolutamente terroríficas. Hay inteligencias artificiales que te corrigen los ojos, para cuando estás mirando a Cuenca, leyendo el guión no sé dónde. Pues fíjate los labios. Tú ves todo eso y aunque te queda raro, lo aceptas. Sin embargo, tú vas por la calle escuchando un minuto restante y a los cinco minutos como mucho lo quitas. Lo quitas porque es que no te enteras. Literalmente no te enteras de lo que te están diciendo. Hay un momento que, y yo lo he hecho, que todas estas cosas tan raras, porque aquí he puesto un minuto y poco y he ido parando, pero si tú escuchas de seguido, te das cuenta de que necesitas ponerle mucha concentración a lo que estás escuchando para realmente entenderlo. Guardad este capítulo para arrastrármelo por la cara en un futuro, ¿vale? Pero yo creo que de momento… No siento que usar la inteligencia artificial para traer, digamos, de alto nivel en el podcasting sea una buena idea. Se habla de aprovechar esto para tener tu contenido en otros idiomas, salir a más mercados, pero mira, yo soy tan pequeño que me queda mucho de mi propio mercado por abarcar. O sea, no me preocupa conquistar el mercado de habla inglesa. Ya me va bien intentando conquistar el mercado de habla hispana, que por cierto está compuesto por 500 millones de personas, ¿no? Y en definitiva, pues, llamadme viejuno, llamadme retrógrado. Cuando suceden, lo he dicho muchas veces en mis podcasts de tecnología, cuando suceden este tipo de movimientos tecnológicos, de este tipo de avances, la inteligencia artificial, la realidad aumentada, la realidad mixta, los teclados virtuales en pantalla en vez de los teclados físicos en los teléfonos, cuando todas estas cosas pasan, las personas que no creen también forman parte de la evolución. Es decir, hace falta todo en ese sentido para que en un deporte un equipo gane y hay otro que tiene que perder. Y aquí pasa lo mismo. Y mi papel ahora mismo es este. Yo creo que pasar nuestro contenido de podcasting por una inteligencia artificial le quita mucho de lo que lo hace realmente único. Muchas gracias por el tiempo que has dedicado a escuchar este capítulo. Espero tus comentarios en el canal de Discord de Promopodcast, al cual puedes acceder a través de emilcar.fm.discord. También me puedes encontrar en Mastodon, arroba emilcar, arroba emilcar.social y en otras redes sociales. Suscríbete a mi newsletter de podcasting, Sujétame el micro, entrando a su web sujetameelmicro.com. Un saludo y no olvides recomendar Promopodcast, porque no hay nada que le guste más a un podcaster que hablar de podcasting.