El renderizado con IA ha pasado de experimento a flujo de trabajo cotidiano para la mayoría de los estudios de arquitectura, pero el vocabulario no ha seguido el mismo ritmo. Los arquitectos están usando términos como "modelo de difusión" y "ControlNet" sin una definición compartida clara, y la brecha entre lo que la tecnología hace y lo que se describe que hace se está ampliando.
Aquí hay veinte términos que vale la pena conocer. Cada uno tiene una definición en lenguaje sencillo y una oración sobre por qué realmente importa para tu flujo de trabajo.
Lo básico
1. Modelo de difusión La arquitectura de IA detrás de la mayoría de las herramientas de renderizado. Un modelo de difusión comienza con una imagen de ruido aleatorio puro y la elimina iterativamente, guiada por un prompt de texto y entradas de condicionamiento, hasta alcanzar una imagen coherente. Cada paso de la eliminación de ruido es una pequeña transformación aprendida. Por qué importa: entender que las salidas se generan a través de eliminación iterativa de ruido explica por qué la misma entrada puede producir salidas ligeramente distintas cada vez: el ruido inicial es aleatorio, y el camino a través de la eliminación de ruido es probabilístico.
2. Prompt de texto La instrucción que le das a la IA: "una cocina escandinava soleada con gabinetes de roble blanco y pisos de concreto". El prompt da forma a la salida junto con tu imagen de condicionamiento. Por qué importa: las herramientas específicas para arquitectura reducen tu dependencia de la habilidad de prompting al manejar el condicionamiento internamente: tú especificas materiales y presets de iluminación en lugar de escribir un párrafo de instrucciones.
3. Imagen de condicionamiento Tu entrada: el viewport del modelo 3D, la captura de SketchUp o la exportación de Revit. La imagen de condicionamiento ancla la salida a tu geometría. Esto es lo que separa al renderizado arquitectónico con IA de las herramientas de texto a imagen: la IA no está imaginando un espacio, está renderizando tu espacio. Por qué importa: la calidad de tu imagen de condicionamiento (modelo limpio, buen ángulo de cámara, materiales consistentes) afecta directamente la calidad del render.
4. Imagen a imagen (img2img) Generar una nueva imagen transformando una existente, en lugar de generar desde ruido puro. La mayoría del renderizado arquitectónico con IA es img2img: tú provees un viewport 3D y recibes una versión fotorrealista. Por qué importa: este es el mecanismo que convierte tu captura del modelo en un render, en oposición al texto-a-imagen que generaría un espacio arbitrario a partir de una descripción.
5. Fuerza de eliminación de ruido (denoising strength) Controla cuánto se desvía el modelo de tu imagen de entrada. Fuerza alta de eliminación de ruido: el modelo tiene más libertad creativa y la salida puede divergir significativamente de tu entrada. Fuerza baja de eliminación de ruido: la salida se mantiene muy cerca de tu entrada pero puede no alcanzar el fotorrealismo. Por qué importa: encontrar el balance correcto es la tensión central en el renderizado arquitectónico con IA: realismo vs fidelidad.
Geometría y fidelidad
6. ControlNet Una extensión de red neuronal que condiciona la salida de un modelo de difusión sobre una entrada estructural: líneas de borde, mapas de profundidad, normales de superficie extraídas de tu modelo 3D. ControlNet es lo que hace que el renderizado con IA sea arquitectónico en lugar de generativo: le da al modelo un mapa espacial de tu diseño con el cual trabajar. Por qué importa: la fuerza de condicionamiento de ControlNet es el control principal sobre la preservación de la geometría. Mayor peso = más fiel a tu diseño.
7. Preservación de geometría La capacidad de una herramienta de renderizado para reproducir tu geometría de entrada exactamente: paredes en la posición correcta, aberturas en la proporción correcta, elementos estructurales donde los colocaste, sin reinterpretación creativa. Por qué importa: para entregables al cliente, presentaciones de planificación y entregas de concursos, el render debe coincidir con el diseño. La deriva de geometría es un problema profesional, no solo estético.
8. Deriva geométrica / alucinación Cuando la IA altera tu geometría de entrada: mover paredes, agregar muebles que no modelaste, cambiar proporciones de ventanas, ajustar alturas de techo para coincidir con las expectativas de los datos de entrenamiento. Causada por baja fuerza de condicionamiento de ControlNet o por entrenamiento del modelo que priorizó la calidad visual sobre la precisión arquitectónica. Por qué importa: un render que no coincide con tu diseño engaña a los clientes y crea expectativas que no existen en el proyecto real.
9. Mapa de profundidad Una representación en escala de grises de tu escena 3D donde el brillo del píxel indica la distancia desde la cámara. Píxeles brillantes están cerca; píxeles oscuros están lejos. Se usa como entrada de ControlNet para preservar la estructura espacial tridimensional de tu modelo. Por qué importa: el condicionamiento por mapa de profundidad ayuda a la IA a entender qué elementos están delante de cuáles, evitando que las superficies se aplanen o que las relaciones espaciales se pierdan.
10. Detección de bordes (Canny/HED) Un algoritmo que extrae líneas de borde de tu viewport —límites de paredes, marcos de puertas, columnas estructurales, contornos de muebles— y las usa como condicionamiento de ControlNet. Canny y HED son dos algoritmos específicos con distintos ajustes de sensibilidad. Por qué importa: los renders condicionados por bordes preservan la geometría lineal de tu arquitectura muy de cerca. Si las líneas de pared en tu modelo son limpias, el condicionamiento por bordes produce una geometría altamente fiel en la salida.
Iluminación y materiales
11. Preset de iluminación Una condición de iluminación nombrada —hora dorada, cielo nublado, hora azul, mediodía— que configura el ángulo del sol, temperatura de color, estado del cielo y calidad de la sombra en una sola selección. Por qué importa: reemplaza la necesidad de configurar manualmente imágenes HDRI de entorno, posición solar y ajustes de exposición. Resultados consistentes y repetibles sin conocimiento de ingeniería de iluminación.
12. Hora dorada El período aproximadamente una hora después del amanecer y una hora antes del atardecer, cuando el sol está bajo y la luz es ámbar/naranja cálida. En fotografía y renderizado, la luz de la hora dorada crea sombras largas y suaves, una temperatura de color cálida (~2500–3500K) y una cualidad cinematográfica. Por qué importa: la iluminación más universalmente favorecedora para interiores residenciales y tomas exteriores arquitectónicas. Los clientes responden a la calidez.
13. Hora azul El período después del atardecer (o antes del amanecer) cuando el cielo es azul profundo y la luz interior artificial aparece cálida por contraste. La hora azul crea una división dramática de color entre el exterior frío y el interior cálido. Por qué importa: la condición de iluminación a la que recurrir para residencial de lujo, hotelería y renders comerciales de alta gama. El ambiente que crea —luz vespertina, espacio habitado— es difícil de lograr con otras condiciones.
14. Temperatura de color Medida en Kelvin (K). Kelvin bajo (~2700K) = luz cálida, naranja/ámbar, como una bombilla incandescente o el sol al ponerse. Kelvin alto (~6500K) = luz fría, azul/blanca, como la luz del día nublado. Por qué importa: la temperatura de color es la variable más significativa en el tono emocional de un render. La misma habitación se siente acogedora a 2700K y clínica a 6500K.
15. HDRI (High Dynamic Range Image) Una fotografía panorámica de 360° de un entorno real, usada como fuente de iluminación en renderizado tradicional. El HDRI provee luz ambiente realista, color del cielo y reflejos para la escena. Por qué importa: las herramientas de renderizado con IA con condicionamiento equivalente a HDRI pueden producir luz ambiente físicamente plausible desde cualquier entorno del mundo real sin requerir que tú obtengas o configures archivos HDRI.
Términos de flujo de trabajo
16. Inpainting Editar una región específica de un render existente mientras se deja el resto sin cambios. Enmascaras un área (una silla que quieres reemplazar, un tratamiento de ventana que está mal) y el modelo regenera solo esa región de manera consistente con el entorno. Por qué importa: te permite arreglar problemas específicos en un render que de otro modo es bueno sin regenerar la imagen completa desde cero: ahorro significativo de tiempo en un flujo de trabajo de producción.
17. Upscaling (escalado) Usar IA para aumentar la resolución de una imagen más allá de su tamaño nativo sin perder detalle aparente. Los upscalers de IA (ESRGAN, Real-ESRGAN) agregan detalle aprendido en lugar de simplemente interpolar píxeles. Por qué importa: te permite renderizar a resolución moderada para iteración rápida y escalar solo la salida aprobada, en lugar de correr cada iteración a 4K completo.
18. Seed (semilla) El número aleatorio usado para inicializar el ruido para una generación de difusión. La misma semilla con el mismo prompt produce aproximadamente la misma salida: es una forma de reproducir un resultado que te gustó o de hacer variaciones controladas. Semilla distinta = variación distinta, manteniendo todo lo demás igual. Por qué importa: las semillas son cómo creas conjuntos de variaciones coherentes: "muéstrame esta habitación en tres condiciones de iluminación distintas" mientras mantienes todo lo demás consistente.
19. Espacio latente El espacio matemático abstracto en el que operan los modelos de difusión. Tu prompt e imagen de condicionamiento se codifican en representaciones latentes; el modelo elimina ruido dentro de este espacio; la salida final se decodifica de vuelta al espacio de píxeles. Por qué importa: entender el espacio latente explica por qué prompts que parecen similares pueden producir salidas muy distintas: distancias pequeñas en el espacio de píxeles pueden ser distancias grandes en el espacio latente, y viceversa.
20. Granja de renderizado (render farm) Una red de servidores procesando renders en paralelo, tradicionalmente usada por estudios grandes para reducir tiempos de renderizado de horas a minutos. Las herramientas de renderizado con IA en la nube efectivamente proveen a cada usuario una granja de renderizado para cada trabajo. Por qué importa: el renderizado en la nube significa una salida consistente de ~30 segundos sin importar qué más esté corriendo en tu máquina, sin mantenimiento de hardware y costos estructurados como gasto operativo en lugar de inversión de capital.
¿Qué es un modelo de difusión en términos simples? Un modelo de difusión comienza con ruido aleatorio y aplica repetidamente pequeñas transformaciones aprendidas para convertirlo en una imagen coherente, guiado por un prompt de texto y entradas estructurales de tu modelo 3D. Piénsalo como esculpir desde el ruido en lugar de pintar desde un lienzo en blanco.
¿Qué hace ControlNet en el renderizado con IA? ControlNet condiciona la salida de un modelo de difusión sobre una representación estructural de tu modelo 3D: líneas de borde, mapas de profundidad, normales de superficie. Es el mecanismo que mantiene la salida de la IA anclada a tu geometría en lugar de generar un espacio arbitrario. Mayor peso de ControlNet significa mayor fidelidad geométrica.
¿Qué es la preservación de geometría? La preservación de geometría es la capacidad de una herramienta de renderizado para reproducir tu geometría de entrada —posiciones de paredes, proporciones de aberturas, relaciones espaciales— exactamente como las modelaste, sin agregar, eliminar o desplazar elementos. Es la prioridad principal de ingeniería para herramientas específicas para arquitectura como Maquete y el principal punto de diferencia respecto a generadores de imágenes con IA de propósito general.
¿Cuál es la diferencia entre un preset de iluminación y un prompt? Un preset de iluminación es una señal de condicionamiento preingeniería que produce de manera confiable una condición de iluminación específica: hora dorada, cielo nublado, hora azul. Una instrucción de iluminación controlada por prompt ("luz dorada cálida vespertina desde el oeste") depende de qué tan bien la frasees y produce resultados menos consistentes en distintas escenas. Los presets son más repetibles; los prompts son más flexibles.