Guía Completa de Ingeniería de Prompts para Video AI en 2025
Domina el arte de crear prompts que producen videos impresionantes generados por IA. Aprende el framework de seis capas, terminología cinematográfica y técnicas específicas por plataforma.

La ingeniería de prompts para video AI es como perfeccionar una receta: los mismos ingredientes producen resultados completamente diferentes según la técnica. Después de pasar incontables horas generando videos en todas las plataformas principales, he destilado lo que realmente funciona en un framework práctico. Vamos a ir directo al grano y enfocarnos en técnicas que producen resultados consistentes y profesionales.
Por Qué los Prompts de Video Son Diferentes
Si has trabajado con generadores de imágenes como Midjourney o DALL-E, podrías pensar que los prompts de video funcionan igual. No es así. El video añade una dimensión temporal—movimiento, ritmo, transiciones—que transforma la ingeniería de prompts de una simple instrucción a orquestar una secuencia.
Piénsalo como la diferencia entre tomar una fotografía y dirigir una escena. Para una foto, preparas el encuadre. Para video, necesitas coreografiar qué sucede a lo largo del tiempo:
- ¿Cómo se mueve la cámara?
- ¿Qué acciones se desarrollan?
- ¿Cuánto dura cada elemento?
- ¿Cuál es el arco emocional?
Estas preguntas requieren vocabulario y estructura que van más allá de los prompts de imágenes estáticas.
El Framework de Seis Capas
Los prompts de video profesionales siguen un enfoque estructurado. Lo llamo el framework de seis capas—cada capa añade especificidad que guía a la IA hacia tu visión:
Capa 1: Sujeto y Acción
Define tu enfoque con precisión. Sujetos vagos producen resultados vagos.
Débil: "Una mujer en un jardín" Fuerte: "Una mujer con un vestido rojo fluido caminando lentamente entre rosales, tocando suavemente los pétalos mientras pasa"
La versión fuerte especifica la ropa, velocidad de movimiento e interacción con el entorno. Cada detalle limita la interpretación de la IA hacia tu intención.
Capa 2: Tipo de Toma y Encuadre
Los cinematógrafos han pasado un siglo desarrollando gramática visual. Úsala.
| Tipo de Toma | Caso de Uso |
|---|---|
| Plano general | Establecer ubicación, escala |
| Plano medio | Interacción de personajes, diálogo |
| Primer plano | Emoción, detalle, intimidad |
| Primerísimo plano | Énfasis dramático |
Ejemplo: "Plano medio de seguimiento, cámara posicionada a altura de cintura, siguiendo desde el costado"
Capa 3: Movimiento de Cámara
Las tomas estáticas se sienten amateurs. El movimiento crea energía y guía la atención.
| Movimiento | Efecto |
|---|---|
| Paneo | Revela espacio horizontalmente |
| Tilt | Revela espacio verticalmente |
| Dolly/tracking | Crea profundidad, sigue al sujeto |
| Grúa | Establece escala, drama |
| Cámara en mano | Urgencia, sensación documental |
| Steadicam | Seguimiento suave, inmersión |
Ejemplo: "Dolly lento hacia adelante a través del umbral, manteniendo perspectiva a nivel de ojos"
Capa 4: Iluminación y Atmósfera
La iluminación establece el estado de ánimo más poderosamente que cualquier otro elemento.
| Término | Efecto Visual |
|---|---|
| Hora dorada | Cálido, romántico, nostálgico |
| Hora azul | Fresco, contemplativo, misterioso |
| Clave alta | Brillante, optimista, limpio |
| Clave baja | Dramático, atmosférico, suspenso |
| Luz volumétrica | Rayos a través de niebla/polvo, etéreo |
| Luz de contorno | Separación, drama, borde de silueta |
Ejemplo: "Iluminación de hora dorada con rayos volumétricos filtrándose por ventanas polvorientas, gradación de color cálida"
Capa 5: Especificaciones Técnicas
Nombra parámetros técnicos específicos cuando quieras control preciso:
- Lente: 35mm (natural), 50mm (retrato), 85mm (compresión), 24mm (angular)
- Profundidad de campo: Superficial (fondo bokeh) vs. profunda (todo nítido)
- Cuadros por segundo: 24fps (cinematográfico), 60fps (suave), 120fps (cámara lenta)
- Relación de aspecto: 16:9 (estándar), 2.39:1 (cinematográfico), 9:16 (vertical)
Ejemplo: "Filmado con lente 85mm, profundidad de campo superficial con bokeh cremoso, ligero grano de película"
Capa 6: Duración y Ritmo
El video se desarrolla a lo largo del tiempo. Especifica el ritmo:
- Duración de escena (típicamente 3-10 segundos)
- Estilo de transición (corte, fundido, barrido)
- Ritmo (lento/contemplativo vs. rápido/enérgico)
- Sincronización de tiempos para música
Ejemplo: "Toma de 6 segundos con movimiento lento y deliberado, sosteniendo el cuadro final por 1 segundo"
Juntando Todo: Ejemplos de Prompts Completos
Así es como las capas se combinan en prompts profesionales:
Retrato Cinematográfico:
Primer plano medio del rostro de un pescador curtido, hora azul de la mañana,
filmado con lente 85mm con profundidad de campo superficial. Suaves micromovimientos
de cámara en mano, luz de contorno suave desde atrás creando efecto de halo en su
cabello gris. Expresión contemplativa, ojos mirando ligeramente fuera de cámara.
Gradación de color fresca con sombras levantadas, duración de 5 segundos.Secuencia de Acción:
Plano general de seguimiento siguiendo a un atleta de parkour corriendo por techos
urbanos al atardecer. Movimiento dinámico de steadicam manteniendo distancia constante,
iluminación a contraluz de hora dorada creando silueta dramática. Movimiento
cinematográfico a 24fps, ligera cámara lenta a velocidad 0.8x. Alto contraste,
gradación de color teal-naranja. 8 segundos con intensidad creciente.Exhibición de Producto:
Órbita lenta de 360 grados alrededor de un reloj de lujo sobre superficie de
terciopelo negro. Lente macro capturando detalles intrincados del dial, iluminación
de estudio controlada con luz principal suave y relleno sutil. Profundidad de campo
superficial aislando el sujeto, reflejos suaves en el cristal. Sensación premium
con movimiento de cámara lento y deliberado. Duración de 10 segundos.Prompts Negativos: Diciéndole a la IA Qué Evitar
Igualmente importante es especificar lo que no quieres. Cada plataforma maneja esto de manera diferente:
Prompts negativos comunes:
- Metraje borroso, artefactos de desenfoque de movimiento
- Rostros distorsionados, errores anatómicos
- Marcas de agua, superposiciones de texto
- Movimientos antinaturales, transiciones bruscas
- Baja resolución, artefactos de compresión
Sintaxis específica por plataforma:
| Plataforma | Método |
|---|---|
| Veo 3 | Campo dedicado de prompt negativo |
| Kling | Incluir "evitar" o "sin" en el prompt |
| Runway | Parámetro separado de prompt negativo |
| Sora | Exclusiones basadas en peso |
Ejemplo: "Evitar: metraje borroso, rasgos faciales distorsionados, marcas de agua, movimiento brusco de cámara, colores sobresaturados"
Combinación de Referencias de Estilo
¿Quieres una estética distintiva? Combina 2-3 referencias cinematográficas:
Fórmula: gradación de color de [Película A] + atmósfera de [Película B] + movimiento de cámara de [Película C]
Ejemplos:
- "Gradación de color de Blade Runner 2049 más atmósfera de Se7en más movimiento de cámara de Heat"
- "Simetría de Wes Anderson más paleta de color de Studio Ghibli más iluminación natural de Terrence Malick"
- "Energía de Mad Max: Fury Road más iluminación de Roger Deakins más bloqueo de Spielberg"
Limítate a 3 referencias. Más crea señales conflictivas.
Optimización Específica por Plataforma
Cada modelo tiene fortalezas. Adapta tu estilo de prompt a la plataforma:
| Modelo | Fortalezas | Enfoque del Prompt |
|---|---|---|
| Kling 2.5 | Movimiento atlético, animación de personajes | Verbos de acción, movimiento físico |
| Sora 2 | Narrativa multi-toma, consistencia espacial | Transiciones de escena, arco narrativo |
| Veo 3 | Control de precisión, formato JSON | Especificaciones técnicas, sintaxis estructurada |
| Runway Gen-3 | Estilización, interpretación artística | Referencias estéticas, descriptores de atmósfera |
| WAN 2.5 | Diálogo, sincronización labial | Acciones de habla, expresiones faciales |
Ejemplo JSON para Veo 3:
{
"subject": "mujer en vestido rojo",
"action": "caminando por el jardín",
"shot_type": "seguimiento medio",
"camera_movement": "dolly de derecha a izquierda",
"lighting": "hora dorada, volumétrico",
"lens": "35mm",
"duration": "6 segundos"
}La Regla de Optimización de Costos 5-10-1
Los renders premium son costosos. Usa este flujo de trabajo:
- 5 variaciones en modelos de menor costo (40-60 créditos cada uno)
- 10 iteraciones refinando el mejor candidato
- 1 render final en nivel premium (~350 créditos)
Esto reduce costos de miles a alrededor de 1,000 créditos mientras mantienes la calidad.
Errores Comunes a Evitar
Después de revisar cientos de prompts, estos errores aparecen más frecuentemente:
| Error | Problema | Solución |
|---|---|---|
| Descripciones casuales | La IA interpreta libremente | Usa terminología cinematográfica |
| Desajuste de duración | La acción no cabe en el tiempo | Ajusta complejidad a la duración |
| Sobrecarga de estilos | Señales estéticas conflictivas | Limita a máximo 3 referencias |
| Falta de movimiento | Sensación estática, amateur | Siempre especifica movimiento de cámara |
| Iluminación vaga | Estado de ánimo inconsistente | Nombra configuraciones de luz específicas |
| Sin prompts negativos | Artefactos no deseados | Excluye problemas explícitamente |
Construyendo Tu Biblioteca de Prompts
Crea plantillas para escenarios comunes:
Configuración de Entrevista:
Plano medio, sujeto posicionado regla de tercios izquierda, cámara a nivel de ojos,
[CONFIGURACIÓN_ILUMINACIÓN], profundidad de campo superficial difuminando fondo,
sutiles micromovimientos de cámara en mano para sensación natural, [DURACIÓN].B-Roll de Naturaleza:
[TIPO_TOMA] de [SUJETO], iluminación de [HORA_DÍA],
[MOVIMIENTO_CÁMARA] lento, lente [LENTE]mm, foco profundo,
paleta de [GRADACIÓN_COLOR], [DURACIÓN].Producto Héroe:
Órbita [DIRECCIÓN_ÓRBITA] alrededor de [PRODUCTO] sobre [SUPERFICIE],
iluminación de estudio con luz principal en [POSICIÓN_LUZ_PRINCIPAL] y relleno sutil,
momentos de detalle macro, [LENTE]mm, reflejos prístinos, [DURACIÓN].Llena los corchetes según necesidades específicas. Construye una biblioteca organizada por caso de uso.
Estrategia de Iteración
Los prompts perfectos emergen a través de refinamiento sistemático:
- Empieza simple: Solo sujeto y acción principales
- Añade un elemento: Prueba adiciones individuales
- Documenta lo que funciona: Mantén un registro de frases efectivas
- Prueba A/B de redacción: Mismo concepto, palabras diferentes
- Guarda los ganadores: Construye tu biblioteca de prompts
Formato de registro:
Prompt: [prompt completo]
Modelo: [plataforma usada]
Resultado: [calificación 1-5]
Notas: [qué funcionó/no funcionó]Lista de Verificación de Revisión de Calidad
Antes de finalizar cualquier video AI, verifica:
- Consistencia del sujeto en todo momento
- Movimiento natural (sin brusquedad)
- Continuidad de iluminación
- Sin distorsiones faciales
- Consistencia de gradación de color
- Ritmo apropiado
- Audio limpio (si aplica)
- Sin marcas de agua o artefactos
Próximos Pasos
La ingeniería de prompts mejora con la práctica. Empieza con tomas más simples, domina cada capa y luego combínalas. El objetivo no es memorizar terminología—es desarrollar intuición para lo que hace que el video sea convincente.
Mantén un registro de generación. Revisa qué funcionó. Construye tu biblioteca. La diferencia entre video AI amateur y profesional a menudo se reduce a la precisión del prompt.
Tu cámara está esperando. Empieza a filmar.
¿Te resultó útil este artículo?

Damien
Desarrollador de IADesarrollador de IA de Lyon que ama convertir conceptos complejos de ML en recetas simples. Cuando no está depurando modelos, lo encontrarás pedaleando por el valle del Ródano.
Artículos relacionados
Continúa explorando con estos artículos relacionados

Pika 2.5: Democratizando el Video IA a través de Velocidad, Precio y Herramientas Creativas
Pika Labs lanza la versión 2.5, combinando generación más rápida, física mejorada y herramientas creativas como Pikaframes y Pikaffects para hacer el video IA accesible para todos.

Kling O1: Kuaishou se une a la carrera de video multimodal unificado
Kuaishou acaba de lanzar Kling O1, una IA multimodal unificada que piensa en video, audio y texto simultáneamente. La carrera por la inteligencia audiovisual se está calentando.

Runway Gen-4.5 Llega al #1: Cómo 100 Ingenieros Superaron a Google y OpenAI
Runway acaba de reclamar el primer lugar en Video Arena con Gen-4.5, demostrando que un equipo pequeño puede competir contra gigantes tecnológicos de billones de dólares en generación de video con IA.