MÓDULO 1.2 - FUNDAMENTOS

🧠 Como os Modelos de IA "Veem"

Entenda o que acontece por trás das cortinas: espaço latente, embeddings e como suas palavras se transformam em pixels.

~25
Minutos
5
Conceitos
CLIP
Modelo-chave
🌌

O Espaço Latente: O Universo Invisível

Onde todas as imagens possíveis existem

Imagine um espaço multidimensional onde cada ponto representa uma imagem possível. Este é o espaço latente — e é onde a mágica acontece. Quando você escreve um prompt, a IA navega por este espaço para encontrar o ponto exato que corresponde à sua descrição.

🗺️ Analogia: O Mapa do Tesouro Visual

Coordenadas X, Y:

Em um mapa normal, você usa duas coordenadas para achar um lugar.

Coordenadas Latentes:

No espaço latente, são centenas ou milhares de dimensões — cada uma representando um aspecto visual.

💡 Por que isso importa para você

Quando dois prompts geram imagens parecidas, é porque estão "próximos" no espaço latente. Se você quer resultados diferentes, precisa "navegar" para regiões distantes — usando palavras-chave específicas que mudam as coordenadas.

🔤

Embeddings: Transformando Palavras em Números

Como a IA entende seu prompt

A IA não entende palavras como humanos. Ela precisa converter cada palavra em um vetor numérico — uma lista de números que captura o "significado" da palavra. Este processo se chama embedding.

🔄 O Caminho do Prompt

1

Tokenização

Seu texto é dividido em "tokens" — pedaços de palavras ou palavras inteiras.

"a beautiful sunset"["a", "beaut", "iful", "sun", "set"]
2

Embedding

Cada token vira um vetor de ~768 números que capturam seu significado.

"sunset" → [0.234, -0.891, 0.456, ..., 0.123] (768 dimensões)
3

Codificação de Posição

A ordem das palavras importa! A IA adiciona informação sobre a posição de cada token.

4

Vetor Final do Prompt

Todos os vetores são combinados em uma representação única que guia a geração.

⚠️ Limite de Tokens

O Nano Banana tem um limite de ~77 tokens por prompt. Prompts muito longos são cortados! Por isso, coloque as palavras mais importantes no início.

🔗

CLIP: A Ponte Entre Texto e Imagem

O modelo que conecta dois mundos

CLIP (Contrastive Language-Image Pre-training) é o modelo revolucionário da OpenAI que aprendeu a associar textos e imagens. Ele foi treinado com 400 milhões de pares texto-imagem da internet.

🎯 Como o CLIP Funciona

Encoder de Texto

Converte seu prompt em um vetor no espaço latente compartilhado.

Encoder de Imagem

Converte imagens em vetores no mesmo espaço latente.

TextoCLIPEspaço Latente CompartilhadoCLIPImagem

✨ O Poder do CLIP para Você

O CLIP entende conceitos, não apenas palavras isoladas. Ele sabe que "golden hour lighting" e "warm sunset glow" estão próximos semanticamente, mesmo sendo palavras diferentes. Isso significa que você pode ser criativo com suas descrições!

⚖️

Atenção: Nem Todas as Palavras São Iguais

Como a IA decide o que é importante

O mecanismo de atenção permite que a IA dê pesos diferentes para cada palavra do seu prompt. Algumas palavras influenciam mais a imagem final do que outras.

✓ Alto Peso Natural

  • Substantivos específicos (astronaut, castle)
  • Estilos artísticos (cyberpunk, watercolor)
  • Qualificadores técnicos (8K, cinematic)
  • Artistas conhecidos (by Greg Rutkowski)

✗ Baixo Peso Natural

  • Artigos (a, an, the)
  • Preposições comuns (in, on, at)
  • Adjetivos genéricos (nice, good)
  • Palavras repetidas desnecessárias

💡 Dica: Ordem Importa!

Palavras no início do prompt geralmente têm mais peso. Compare:

"cyberpunk city, rain, neon lights"foco em cyberpunk
"rain in a city with neon lights, cyberpunk"foco na chuva
🔄

Denoising: Do Caos à Obra-Prima

O processo iterativo de geração

A geração de imagens é um processo de denoising (remoção de ruído). A IA começa com ruído puro e, passo a passo, remove o ruído guiada pelo seu prompt.

📊 Visualizando o Processo

Passo 0: Ruído puro 100% ruído
Passo 10: Formas surgindo 70% ruído
Passo 25: Estrutura definida 40% ruído
Passo 40: Detalhes aparecendo 15% ruído
Passo 50: Imagem final 0% ruído

🎛️ CFG Scale: Quanto Seguir o Prompt

O parâmetro CFG Scale (Classifier-Free Guidance) controla o quanto a IA segue seu prompt:

CFG 1-5
Criativo, inesperado
CFG 7-9
Equilibrado ✓
CFG 12+
Literal, saturado

✅ O que você aprendeu neste módulo

Espaço latente: onde as imagens "vivem"
Embeddings convertem palavras em números
CLIP conecta texto e imagem
Atenção dá pesos diferentes às palavras
Denoising: do ruído à imagem
CFG Scale controla fidelidade ao prompt

Próximo: Hora de colocar a mão na massa e criar sua primeira imagem!

Baseado em: OpenAI CLIP Paper, Stability AI Documentation, Google AI Research