🧠 Como os Modelos de IA "Veem"
Entenda o que acontece por trás das cortinas: espaço latente, embeddings e como suas palavras se transformam em pixels.
O Espaço Latente: O Universo Invisível
Onde todas as imagens possíveis existem
Imagine um espaço multidimensional onde cada ponto representa uma imagem possível. Este é o espaço latente — e é onde a mágica acontece. Quando você escreve um prompt, a IA navega por este espaço para encontrar o ponto exato que corresponde à sua descrição.
🗺️ Analogia: O Mapa do Tesouro Visual
Coordenadas X, Y:
Em um mapa normal, você usa duas coordenadas para achar um lugar.
Coordenadas Latentes:
No espaço latente, são centenas ou milhares de dimensões — cada uma representando um aspecto visual.
💡 Por que isso importa para você
Quando dois prompts geram imagens parecidas, é porque estão "próximos" no espaço latente. Se você quer resultados diferentes, precisa "navegar" para regiões distantes — usando palavras-chave específicas que mudam as coordenadas.
Embeddings: Transformando Palavras em Números
Como a IA entende seu prompt
A IA não entende palavras como humanos. Ela precisa converter cada palavra em um vetor numérico — uma lista de números que captura o "significado" da palavra. Este processo se chama embedding.
🔄 O Caminho do Prompt
Tokenização
Seu texto é dividido em "tokens" — pedaços de palavras ou palavras inteiras.
Embedding
Cada token vira um vetor de ~768 números que capturam seu significado.
Codificação de Posição
A ordem das palavras importa! A IA adiciona informação sobre a posição de cada token.
Vetor Final do Prompt
Todos os vetores são combinados em uma representação única que guia a geração.
⚠️ Limite de Tokens
O Nano Banana tem um limite de ~77 tokens por prompt. Prompts muito longos são cortados! Por isso, coloque as palavras mais importantes no início.
CLIP: A Ponte Entre Texto e Imagem
O modelo que conecta dois mundos
CLIP (Contrastive Language-Image Pre-training) é o modelo revolucionário da OpenAI que aprendeu a associar textos e imagens. Ele foi treinado com 400 milhões de pares texto-imagem da internet.
🎯 Como o CLIP Funciona
Encoder de Texto
Converte seu prompt em um vetor no espaço latente compartilhado.
Encoder de Imagem
Converte imagens em vetores no mesmo espaço latente.
Texto → CLIP → Espaço Latente Compartilhado ← CLIP ← Imagem
✨ O Poder do CLIP para Você
O CLIP entende conceitos, não apenas palavras isoladas. Ele sabe que "golden hour lighting" e "warm sunset glow" estão próximos semanticamente, mesmo sendo palavras diferentes. Isso significa que você pode ser criativo com suas descrições!
Atenção: Nem Todas as Palavras São Iguais
Como a IA decide o que é importante
O mecanismo de atenção permite que a IA dê pesos diferentes para cada palavra do seu prompt. Algumas palavras influenciam mais a imagem final do que outras.
✓ Alto Peso Natural
- ✓ Substantivos específicos (astronaut, castle)
- ✓ Estilos artísticos (cyberpunk, watercolor)
- ✓ Qualificadores técnicos (8K, cinematic)
- ✓ Artistas conhecidos (by Greg Rutkowski)
✗ Baixo Peso Natural
- ✗ Artigos (a, an, the)
- ✗ Preposições comuns (in, on, at)
- ✗ Adjetivos genéricos (nice, good)
- ✗ Palavras repetidas desnecessárias
💡 Dica: Ordem Importa!
Palavras no início do prompt geralmente têm mais peso. Compare:
Denoising: Do Caos à Obra-Prima
O processo iterativo de geração
A geração de imagens é um processo de denoising (remoção de ruído). A IA começa com ruído puro e, passo a passo, remove o ruído guiada pelo seu prompt.
📊 Visualizando o Processo
🎛️ CFG Scale: Quanto Seguir o Prompt
O parâmetro CFG Scale (Classifier-Free Guidance) controla o quanto a IA segue seu prompt:
✅ O que você aprendeu neste módulo
Próximo: Hora de colocar a mão na massa e criar sua primeira imagem!
Baseado em: OpenAI CLIP Paper, Stability AI Documentation, Google AI Research