Inteligencia Artificial y audio. ¿Es posible crear un contenido relevante con este sistema en una hora?

6 min readSep 9, 2023

Los algoritmos forman parte de nuestra vida cotidiana y cada vez son más sofisticados. Ya se apunta a que “el 90% del contenido online será generado por IA para 2025” (Nina Schick). Los algoritmos de la recomendación musical, de personas y temas de tu interés mediante precarias acciones como el “me gusta” o las recompensas para animarte a hacer más ejercicio “Que no decaiga” resultan primitivos. La Inteligencia Artificial se emplea en sectores como educación, sanidad, domótica, justicia, ecommerce y decenas de áreas relacionadas relacionadas directamente con la tecnología o no, como por ejemplo, la moda. Resulta curioso que cuando nos descubre un nuevo artista, nos activa la calefacción en el momento clave o detecta los correos spam sí que es una herramienta que nos compensa emplear o al menos, no nos parece que invade nuestra privacidad y tampoco nos plantea cuestiones éticas. Pero si es capaz de crear un texto, una imagen, una melodía o [escribe aquí lo que quieras], la perspectiva cambia. ¿Por qué la creación iba a quedarse fuera de este sistema?

Creo que ya he comentado en alguna ocasión que durante el confinamiento de 2020 me inscribí a un curso online de Machine Learning, del que solo constaté que soy “demasiado de letras” y de lo poco que aprendí fue que para crear Inteligencia Artificial (IA) hay dos fundamentos básicos: los algoritmos y los datos para configurarlos. Antes de enzarzanos en el debate sobre los peligros y la ética, primero es necesario saber sobre los datos sintéticos, los que son útiles y representativos y se recopilan de una cantidad ingente de datos (imágenes, textos, sonidos) que están etiquetados de forma automática o humana [siempre he pensado que los trabajos laboriosos y mecánicos que pueda hacer una máquina es preferible a que lo hagan personas]. Estos datos sirven para entrenar un modelo (aprendizaje supervisado) y de ahí, permitirán a los algoritmos automáticos (aprendizaje no supervisado) crear los resultados deseados. Por tanto, la calidad de los datos y el desarrollo del modelo son la base para la inteligencia artificial.

La ingenierización de la IA es la que está planteando verdaderos riesgos a los que nos enfrentamos y que impactan en temas clave como los derechos humanos, la democracia y nuestros valores éticos. Hay proyectos que han supuesto un atentado a esto. Por mencionar el algoritmo COMPAS, por el que se generaban predicciones sobre la posibilidad de reincidir en delitos con un prejuicio para las personas negras; cuando Amazon tuvo que dejar de seguir seleccionado personal con IA por el sesgo contra las mujeres; o el software que se creó para una hipotética guerra bioquímica investigado en Dual use of artificial intelligence powered drug discovery.

Immoral Code es un documental que contempla el impacto de Killer Robots en un mundo cada vez más automatizado, en el que las máquinas toman decisiones sobre a quién matar o qué destruir.

Mientras las empresas y la economía invierten millones de dólares por el impacto y el potencial de negocios que supone la IA, también surgen movimientos, sobre todo en el ámbito de la cultura, que promueven una resistencia a este sistema tecnológico. “Los historiadores tecnológicos han argumentado que la resistencia es una fuerza para dar forma a la tecnología, y que la resistencia es un factor clave para impulsar el avance en la dirección correcta, para desarrollar procesos sostenibles a largo plazo” (Dr. Loubna Bouarfa).

El diluvio de contenido que ya se genera por diferentes herramienas de OpenIA, ChatGPT, GPT4, etc. es proporcional el descontento de los perfiles creativos. Y han comenzado a organizarse y buscar amparo, con demandas colectivas o por gremios como los novelistas y artistas gráficos. De los casos más mediáticos y del que empezaremos a ver pronto sus consecuencias está la huelga de guionistas en Hollywood, sus demandas colectivas incluyen el uso de IA para la construcción de las historias. En el periodismo, Jeff Jarvis acaba de publicar “On Copyright and AI”, donde ve enormes ventajas como en temas de traducción o herramientas como , NotebookLM, pero sobre el copyright, “sugeriría un marco diferente para considerar tanto la entrada como la salida de la IA generativa: como un bien común intelectual, cultural e informativo, cuyo uso y beneficios no podemos predecir”. Es decir, legislar y poner de manifiesto una idea que ya tenía en 2015, el “creditright”: “Este no es el derecho a copiar texto, sino el derecho a recibir crédito por contribuciones a una cadena de inspiración colaborativa, creación y recomendación de trabajo creativo (…) Las recompensas podrían ser el pago o simplemente el crédito como su propia recompensa”.

Mi interés por el audio me hace explorar toda esta tecnología aplicada. Por ahora los datos sintéticos sobre voz y música no son muy buenos y el proceso para crear contenidos decentes y en español tienen aún limitaciones, por decirlo suavemente.

He hecho un pequeño experimento para crear un estribillo de una canción de música urbana latina de cero a través de softwares abiertos con IA y en el mínimo tiempo posible. Los resultados solo con softwares ni siquiera los voy a mostrar, robots apenas inteligibles en formato MIDI. Después he empleando diferentes herramientas para el texto, la voz y la música, sí he logrado hacer este estribillo, en 53 minutos y 0 euros. [Lo sé, no me voy a ganar la vida como productora musical]:

Lo primero ha sido pedirle a ChatGPT que me cree el estribillo de una canción con dos ideas. ¿Brillante? Tal vez no, pero he tardado 10 segundos.

Después he creado dos bases instrumentales de música urbana realizadas por IA sin derechos de autor.
Con mi nuevo divertimento de voz IA, https://elevenlabs.io/ he puesto el texto y el español aún no lo domina, así que he buscado un vídeo de Quevedo en “Acappela” y lo he procesado con una herramienta para conseguir la voz.
Teniendo la base y la voz, desde GarageBand, montar con autone el estribillo.

Finalmente, desde https://leonardo.ai/ he creado una carátula con IA.

El resultado

¿Se puede hacer un estribillo de 30 segundos sin alma en menos de una hora? Se puede. ¿Tiene interés? ¿Marca una diferencia? ¿Es algo disruptivo o va a generar interés? NO. De hecho la mayor parte del tiempo la he pasado registrándome en páginas con nulo resultado. Si no lo hubiese hecho para este experimento y con un interés de investigación jamás hubiese publicado este engendro, porque no sé calificarlo de otra forma.

Si bien la IA está experimentando avances exponenciales y en temas de voz son sorprendentes, en el instante que incluyes el componente más creativo se vuelve más inestable y burda. Algunas ideas que me surgen tras este experimento:

Revelarnos a etiquetar el contenido creativo o susceptible de derechos de autor que distribuimos en Internet para hacer menos eficientes los datos sintéticos.
Aparecerá una nueva vanguardia digital de meta formatos difícil de copiar al 100% y con proyectos de colaboración global y diversa frente a la programación. Al menos leer “The Work of Art in the Age of Mechanical Reproduction” para entender cómo se puede producir “la fusión directa e íntima del disfrute visual y emocional con la orientación del experto”.
Neo-romanticismo digital: si a principios del siglo XIX se produjo el movimiento romántico como contrapeso y sentimiento crítico a los modelos mecanicistas y materialistas, ¿esta creación ilimitada a golpe de comandos no nos volverá al realismo o al naturalismo?.
La reivindicación de la imperfección, los errores y las anomalías, algo que los perfectos algoritmos no están programados para apreciar/replicar.
Y sinceramente, espero que la IA no nos vuelva locos o ininteligibles, como le preocupa a Jaron Lanier.

Inteligencia Artificial y audio. ¿Es posible crear un contenido relevante con este sistema en una hora?

Written by Lourdes Moreno Cazalla