Tels: 5552735451 – 5544816687
Stable Audio: crea música con IA

Stable Audio es una herramienta basada en IA para generar extractos de música y efectos de sonido, creada por Stability AI. Descubre cómo funciona.
La inteligencia artificial fue la gran novedad este año. Apenas apareció ChatGPT se desató la competencia, y en poco tiempo se desarrollaron y lanzaron plataformas de generación de texto e imágenes. Con Midjourney o DALL-E, sin olvidar la generación de video (Gen-2), todos los ámbitos de la creación se están viendo afectados, y el audio no es una excepción. Stable Audio es una herramienta basada en IA para generar extractos de música y efectos de sonido, creada por Stability AI. Veamos cómo funciona.
El precio de Stable Audio
Stable Audio te permite generar hasta 20 extractos de forma gratuita al mes y un máximo de 45 segundos por cada audio. Con la versión gratuita, no te da chance de usar ese audio de manera comercial. Para ello tendrás que pagar 11.99 dólares al mes, plan que te permite generar audios de 90 segundos y 500 extractos.
¿Cómo funciona la creación de música y audio?
Ya registrado a Stable Audio, puedes empezar a generar música o efectos de sonido. El proceso es el mismo que con otro generador de AI. Escribes tu petición en el cuadro de diálogo y esperas el resultado. Haz tu petición pidiendo a Stable Audio que genere un tema musical o un efecto de sonido, como el canto de un pájaro o un solo de batería.
Con Stable Audio, puedes generar tres tipos de contenido, explica la plataforma:
- Versiones instrumentales completas: generas secuencias de audio mediante instrucciones como “trance, ibiza, beach, sun, 4 AM, progressive, synthesizer, 909, dramatic chords, choir, euphoric, nostalgic, dynamic, flowing”. La plataforma te anima a incluir tantos detalles como sea posible.
- Stems (samples de instrumentos): puedes generar un “stem” (sample de un solo instrumento o grupo de instrumentos), como “percusión de samba”, “solo de batería” o “solo instrumental de guitarra eléctrica, sin batería, rock clásico, 105 BPM”.
- Efectos de sonido: creas efectos de sonido ambientales, como el timbre de un teléfono, el sonido de una explosión, el paso de un coche por la calle, el canto de los pájaros y más.
Cómo redactar tu petición
Por el momento, las consultas se hacen sólo en inglés. La plataforma te comparte una guía para ayudarte a escribir tus prompts de la mejor manera posible. Stable Audio te anima a que experimentes con la herramienta y descubras lo que te funciona a ti. He aquí el proceso sugerido por Stable Audio:
- Añade detalles: los géneros musicales, las frases descriptivas y los instrumentos. Ejemplo de una consulta detallada: “cinematic, soundtrack, wild west, high noon shoot out, percussion, whistles, horses, action scene, SFX, shaker, guitar, bass, timpani, strings, tense, climactic, atmospheric, moody”.
- Define el estado de ánimo: para ello, puedes combinar términos musicales y emocionales. Por ejemplo, una secuencia de audio podría ser “groovy” o ” rhythmic “, y la emoción emitida podría ser “sad” o “beautiful”.
- Elege tus instrumentos: Stable Audio considera útil añadir adjetivos a los nombres de los instrumentos, como ” reverberated guitar”, “powerful choir” o “swelling strings”.
- Define el tempo: estableces los BPM (beats por minuto) para que Stable Audio determine el tempo de tu extracto musical. La clave es elegir BPMs que sean apropiados para el estilo musical que estás generando. Por ejemplo, para una muestra instrumental de hip hop, dile a la IA que quieres un BPM de 90; si estás generando una pista de “drum and bass”, puedes añadir 170 BPM a tu prompt.
Una vez generado tu audio, lo puedes descargar en formato MP3 de manera gratuita. Si lo quieres de mejor calidad en formato WAV, tendrás que pagar.
El resultado
Probamos la plataforma con el prompt “new age, ambient, calm, wind, korg MS-20, forest, saxofon”. Aquí el resultado:
Otra prueba para una rola de rock: “post-rock, guitars, drum kit, bass, strings, euphoric, up-lifting, moody, flowing, raw, epic, sentimental, 125 BPM”.
Terminamos probando los efectos de sonido “people talking in a bar”:
Para entrenar un modelo de audio se utiliza un conjunto de datos compuesto por más de 800,000 archivos de audio con música, efectos de sonido y derivaciones de un solo instrumento, así como los metadatos de texto correspondientes, proporcionados a través de un acuerdo con el proveedor de música de archivo AudioSparx. Este conjunto de datos suma más de 19,500 horas de audio.
Jean-Luc Lenoble
https://www.linkedin.com/in/jeanluclenoble