1.2 Como os Modelos de IA "Veem" | Supercurso Nano Banana

🌌

O Espaço Latente: O Universo Invisível

Onde todas as imagens possíveis existem

Imagine um espaço multidimensional onde cada ponto representa uma imagem possível. Este é o espaço latente — e é onde a mágica acontece. Quando você escreve um prompt, a IA navega por este espaço para encontrar o ponto exato que corresponde à sua descrição.

🗺️ Analogia: O Mapa do Tesouro Visual

Coordenadas X, Y:

Em um mapa normal, você usa duas coordenadas para achar um lugar.

Coordenadas Latentes:

No espaço latente, são centenas ou milhares de dimensões — cada uma representando um aspecto visual.

💡 Por que isso importa para você

Quando dois prompts geram imagens parecidas, é porque estão "próximos" no espaço latente. Se você quer resultados diferentes, precisa "navegar" para regiões distantes — usando palavras-chave específicas que mudam as coordenadas.

🔤

Embeddings: Transformando Palavras em Números

Como a IA entende seu prompt

A IA não entende palavras como humanos. Ela precisa converter cada palavra em um vetor numérico — uma lista de números que captura o "significado" da palavra. Este processo se chama embedding.

🔄 O Caminho do Prompt

1

Tokenização

Seu texto é dividido em "tokens" — pedaços de palavras ou palavras inteiras.

"a beautiful sunset" → ["a", "beaut", "iful", "sun", "set"]

2

Embedding

Cada token vira um vetor de ~768 números que capturam seu significado.

"sunset" → [0.234, -0.891, 0.456, ..., 0.123] (768 dimensões)

3

Codificação de Posição

A ordem das palavras importa! A IA adiciona informação sobre a posição de cada token.

4

Vetor Final do Prompt

Todos os vetores são combinados em uma representação única que guia a geração.

⚠️ Limite de Tokens

O Nano Banana tem um limite de ~77 tokens por prompt. Prompts muito longos são cortados! Por isso, coloque as palavras mais importantes no início.

🔗

CLIP: A Ponte Entre Texto e Imagem

O modelo que conecta dois mundos

CLIP (Contrastive Language-Image Pre-training) é o modelo revolucionário da OpenAI que aprendeu a associar textos e imagens. Ele foi treinado com 400 milhões de pares texto-imagem da internet.

🎯 Como o CLIP Funciona

Encoder de Texto

Converte seu prompt em um vetor no espaço latente compartilhado.

Encoder de Imagem

Converte imagens em vetores no mesmo espaço latente.

Texto → CLIP → Espaço Latente Compartilhado ← CLIP ← Imagem

✨ O Poder do CLIP para Você

O CLIP entende conceitos, não apenas palavras isoladas. Ele sabe que "golden hour lighting" e "warm sunset glow" estão próximos semanticamente, mesmo sendo palavras diferentes. Isso significa que você pode ser criativo com suas descrições!

⚖️

Atenção: Nem Todas as Palavras São Iguais

Como a IA decide o que é importante

O mecanismo de atenção permite que a IA dê pesos diferentes para cada palavra do seu prompt. Algumas palavras influenciam mais a imagem final do que outras.

✓ Alto Peso Natural

✓ Substantivos específicos (astronaut, castle)
✓ Estilos artísticos (cyberpunk, watercolor)
✓ Qualificadores técnicos (8K, cinematic)
✓ Artistas conhecidos (by Greg Rutkowski)

✗ Baixo Peso Natural

✗ Artigos (a, an, the)
✗ Preposições comuns (in, on, at)
✗ Adjetivos genéricos (nice, good)
✗ Palavras repetidas desnecessárias

💡 Dica: Ordem Importa!

Palavras no início do prompt geralmente têm mais peso. Compare:

"cyberpunk city, rain, neon lights" → foco em cyberpunk

"rain in a city with neon lights, cyberpunk" → foco na chuva

🔄

Denoising: Do Caos à Obra-Prima

O processo iterativo de geração

A geração de imagens é um processo de denoising (remoção de ruído). A IA começa com ruído puro e, passo a passo, remove o ruído guiada pelo seu prompt.

📊 Visualizando o Processo

Passo 0: Ruído puro 100% ruído

Passo 10: Formas surgindo 70% ruído

Passo 25: Estrutura definida 40% ruído

Passo 40: Detalhes aparecendo 15% ruído

Passo 50: Imagem final 0% ruído

🎛️ CFG Scale: Quanto Seguir o Prompt

O parâmetro CFG Scale (Classifier-Free Guidance) controla o quanto a IA segue seu prompt:

CFG 1-5

Criativo, inesperado

CFG 7-9

Equilibrado ✓

CFG 12+

Literal, saturado

✅ O que você aprendeu neste módulo

✓ Espaço latente: onde as imagens "vivem"

✓ Embeddings convertem palavras em números

✓ CLIP conecta texto e imagem

✓ Atenção dá pesos diferentes às palavras

✓ Denoising: do ruído à imagem

✓ CFG Scale controla fidelidade ao prompt

Próximo: Hora de colocar a mão na massa e criar sua primeira imagem!

Módulo 1.1 Módulo 1.3

🧠 Como os Modelos de IA "Veem"