Escola da Nuvem · Aula 1 · Visual

O que é
IA de verdade
(e o que não é)?

IA, ML, Deep Learning, IA Generativa, LLMs, SLMs, Transformers, embeddings... tudo isso parece bicho de sete cabeças. Aqui ele vira gato. Você mexe nos sliders, clica nas palavras, vê os pesos da rede neural pulsando ao vivo. Sem decoreba.

Bora começar 🐾
🐈
🧠 IA🐱 ML🐾 DEEP LEARNING✨ IA GENERATIVA🔗 REDES NEURAIS💬 LLMs🐈‍⬛ SLMs🤖 TRANSFORMERS📐 DIMENSÕES🧠 IA🐱 ML🐾 DEEP LEARNING✨ IA GENERATIVA🔗 REDES NEURAIS💬 LLMs🐈‍⬛ SLMs🤖 TRANSFORMERS📐 DIMENSÕES
01 · As bonecas russas

IA, ML, DL e IA Gen: cada um dentro do outro.

A confusão clássica é misturar os 4. Olha bem: IA é o grandão, todo o resto cabe dentro dele. ML é um pedaço da IA. Deep Learning é um pedaço do ML. IA Generativa é um filhote do Deep Learning. Clica em cada anel pra ver quem é quem.

🧠 IA 🐱 Machine Learning 🐾 Deep Learning ✨ IA Generativa
👆 Clica nos anéis pra trocar a explicação
Anel selecionado

✨ IA Generativa

A criança bonita que aprendeu a desenhar, escrever, compor música, gerar voz e até vídeo. Não classifica nem prevê apenas ela cria coisa nova a partir do que aprendeu.

Apoia-se em modelos de Deep Learning de grande escala. É a base por trás do ChatGPT, do Midjourney, do Suno.

Exemplos do dia a dia
  • ChatGPT, Claude, Gemini - texto
  • Midjourney, DALL-E, Stable Diffusion - imagem
  • ElevenLabs, Suno - áudio/voz
  • Sora, Veo - vídeo
02 · Redes neurais

Cérebro de gato, só que de mentira.

Uma rede neural é um monte de "neurônios" (bolinhas) conectados por linhas (pesos). Cada bolinha soma os sinais que chegam, dá uma "esmagada" (função de ativação) e passa pra frente. Mexe nos sliders abaixo. É um detector de gato de brinquedo: 4 entradas, 1 saída ("é gato?").

🧠 Rede ao vivo

As entradas ativam neurônios da camada oculta, que produzem uma saída final. As linhas mais grossas = pesos mais fortes. Clica em "Treinar" e veja os pesos se reorganizando.

"É gato?" - Rede 4-3-1 ENTRADA OCULTA SAÍDA 0,8 orelhas pontudas 0,6 bigodes 0,9 pelo 0,7 miau - - - é gato? - linhas mais grossas = pesos maiores · linhas vermelhas = pesos negativos
Saída da rede → -

O que tá rolando aí dentro?

Cada neurônio da camada oculta recebe os 4 valores de entrada multiplicados pelos pesos das conexões que chegam nele. Soma tudo. Passa por uma função (sigmóide), que esmaga o resultado entre 0 e 1.

A saída final faz o mesmo com os 3 valores da camada oculta. Resultado: um número de 0 a 1, que a gente lê como "probabilidade de ser gato".

Treinar = mexer nos pesos até a rede acertar mais. Aqui, "treinar" só sorteia pesos novos pra você ver o jogo virar - na vida real isso seria feito por gradient descent, ajustando pesos comparando previsão vs realidade, milhões de vezes.

💡 Sacada: Uma rede com 4-3-1 tem só 4×3 + 3×1 = 15 pesos. Um LLM moderno tem bilhões. A receita é a mesma, só muda a escala.
➡️

Feedforward

Direção única

Informação flui da entrada pra saída, sem voltar. Base de tudo o resto.

📷

CNN

Convolutional

Especializada em imagens. Olha pedacinhos da foto e combina pra entender o todo.

🔁

RNN

Recurrent

Processa sequências (texto, áudio) lembrando do que veio antes. Mas esquece em textos longos.

🤖

Transformer

Atenção

A arquitetura que aposentou as RNNs e botou os LLMs no mapa. Veremos no módulo 6.

03 · Conceitos-chave

Modelo, algoritmo, treinamento, inferência: o vocabulário base.

Quatro palavras que aparecem em todo lugar de ML, e que todo mundo confunde. A boa notícia: viram um pipeline simples se você pensar como "fábrica de modelo". Clica nas etapas pra ver cada uma.

🏭 A fábrica de modelos

Dados + algoritmo entram. Treinamento acontece. Modelo sai pronto. Depois, durante a inferência, o modelo recebe perguntas novas e responde.

📚 Dados Milhares de fotos de gato e não-gato 🐈🐶📸 ⚙️ Algoritmo Rede neural + backprop 🎓 Treinamento A FÁBRICA ⚙️ ⚙️ ⚙️ resultado 🧠 Modelo Pronto pra usar 🐈 💡 Inferência Foto nova → resposta 📸→💬 ingredientes acontece UMA vez arquivo salvo cada uso = $
01

🧠 Modelo

O resultado do aprendizado. Uma função matemática salva em arquivo, que transforma entrada em saída.

02

⚙️ Algoritmo

O método. Os passos que ensinam o modelo a aprender. Regressão, árvore, rede neural...

03

🎓 Treinamento

O processo. Quando o algoritmo come os dados e ajusta o modelo. Caro, demorado, faz uma vez só.

04

💡 Inferência

O uso. Quando o modelo treinado vê algo novo e responde. Barato por chamada, mas é contínuo.

🎓 Treinamento

Quando?Antes do uso
Custo?Altíssimo (GPUs, energia)
Frequência?Pontual (1×, raramente)
Duração?Horas, dias, semanas

💡 Inferência

Quando?Durante o uso
Custo?Menor por chamada
Frequência?Contínua (milhões/dia)
Duração?Milissegundos a segundos
04 · LLMs

LLM = "adivinhador de próxima palavra" no esteróide.

Um LLM (Large Language Model) tem bilhões de parâmetros e foi treinado em trilhões de tokens de texto. Mas sabe o que ele faz na real, a cada passo? Adivinha o próximo token. Só isso. Clica nos prompts abaixo e veja quais tokens o modelo considera mais prováveis.

🔮 Simulador de next-token
O gato subiu no
Próximos tokens prováveis (clica em um pra adicionar):

🐾 Sério, é só isso?

Sério. Toda saída de LLM é uma sequência de previsões de próximo token. O modelo recebe o texto até agora, calcula a probabilidade de cada token possível no vocabulário (~50.000 tokens), e escolhe. Adiciona ao texto. Repete.

Token = pedacinho de texto (palavra, parte de palavra, pontuação). "subiu" pode ser 1 token, "carrossel" pode ser 2 (car-rossel). Cada modelo tem seu vocabulário.

Temperatura: controla quão "criativo" o modelo é. Temp 0 = sempre escolhe o mais provável (chato e repetitivo). Temp alto = aceita opções menos prováveis (criativo, mas pode viajar).

E sim, o ChatGPT, Claude, Gemini fazem exatamente isso. A "mágica" toda é que, treinados em quantidade absurda de texto, eles ficaram tão bons em prever a próxima palavra que aparentam raciocinar.

💪 O que LLMs fazem bem

  • Resumir, traduzir, reescrever textos
  • Responder perguntas em linguagem natural
  • Escrever e debugar código
  • Explicar conceitos adaptando o nível
  • Estruturar dados, gerar formatos (JSON, tabela...)

⚠️ Onde LLMs te traem

  • Alucinam: inventam fatos com tom de certeza
  • Conhecimento congela na data do treinamento
  • Não "entendem" o mundo, só padrões de texto
  • Erram em conta, lógica formal, contagem
  • Custo alto de computação e energia
  • Riscos de viés, privacidade, segurança
05 · SLMs vs LLMs

Tamanho importa? Depende do que você quer fazer.

LLMs são gigantescos (Claude Opus, GPT-5...). SLMs são modelos pequenos (Phi-3, Gemma 2B, Llama 3.2 1B...) que rodam até no seu celular. Não é "menor = pior". É "menor = diferente". Mexe no slider e veja o trade-off em tempo real.

📏 Escolhe o tamanho do modelo

De 1 bilhão (cabe no celular) até 500 bilhões de parâmetros (precisa de cluster).

1B7B70B500B+
Modelos reais nesse tamanho:
💡Para um modelo desse porte... Modelo de uso geral. Bom equilíbrio entre qualidade e custo. Roda em uma GPU média. Ideal pra projetos sérios sem queimar o orçamento.
💰
Custo de operação
Médio
Velocidade
Rápido
🧠
Capacidade / Generalização
Boa
💻
Onde roda
GPU média
🔐
Privacidade (rodar local)
Sim, dá
🎯
Quem é melhor pra...
Uso geral
🤔 Quando preferir um SLM?
🎯 Tarefa focada

Só precisa classificar tickets de suporte? SLM resolve com mais barato.

💰 Restrição de custo

Operação contínua e em escala. 100M de chamadas/mês? Cada centavo conta.

⚡ Latência baixa

Precisa responder em ms? SLM é muito mais rápido pra inferência.

🔐 Privacidade

Dados sensíveis não podem sair da rede. SLM cabe local.

📱 Hardware limitado

Roda no celular, IoT, raspberry pi? Tem que ser SLM.

🚀 Pro contrário, use LLM se...

A tarefa exige raciocínio amplo, criatividade, generalização entre domínios, ou seguir instruções complexas.

06 · Transformers

A arquitetura que tornou tudo isso possível.

Em 2017, um paper do Google chamado "Attention is All You Need" propôs uma arquitetura nova: o Transformer. Ele jogou as RNNs no lixo e virou a base de praticamente todos os LLMs modernos. A peça-chave? O mecanismo de atenção. Clica numa palavra abaixo e veja a "atenção" iluminar.

🔦 Atenção, em ação

Escolhe uma frase, depois clica numa palavra. As outras palavras vão acender com mais ou menos força - isso é a "atenção" que aquela palavra dá pra cada uma das outras quando o modelo a processa.

Palavra selecionada
Atenção alta
Atenção média
Atenção baixa

💡 No transformer real, existem várias "cabeças de atenção", cada uma aprendendo a olhar pra coisas diferentes (sintaxe, semântica, gênero, posição). Aqui simplificamos pra uma só.

🎯 Por que isso é revolucionário?

As redes recorrentes (RNN/LSTM) liam palavra por palavra, em sequência. Resultado: em textos longos, esqueciam o que tinha no começo. E não dava pra paralelizar - tinha que terminar a palavra 1 pra começar a 2.

O Transformer disse: "esquece sequência, eu olho tudo de uma vez". Cada palavra "olha" pra todas as outras simultaneamente, e o modelo aprende quais merecem mais atenção em cada contexto.

Resultado: contexto longo (LLMs hoje processam centenas de milhares de tokens) + treino em paralelo (escala absurdamente em GPU).

"O modelo dá mais peso às palavras que mais importam pra entender a próxima."
🧱

Blocos empilhados

Vários blocos idênticos em sequência. Cada um refina a representação. GPT-3 tem 96 blocos, por exemplo.

📍

Embeddings + posição

Cada token vira um vetor. Como tudo é processado em paralelo, é preciso codificar a posição manualmente.

👀

Self-attention

Cada token olha pra todos os outros. Cabeças múltiplas aprendem padrões diferentes em paralelo.

Paralelização

Tudo de uma vez = uso massivo de GPU = escala absurda = LLMs grandes possíveis.

07 · Dimensões & Embeddings

Palavras viram números num espaço.

Computador não entende palavra, só número. Então cada palavra (token) é convertida em um vetor com centenas ou milhares de números - isso é o embedding. Cada número é uma "dimensão". Palavras parecidas ficam próximas no espaço. Aqui projetamos isso em 2D pra você poder ver. Arrasta as palavras e veja as distâncias.

🌌 Espaço vetorial 2D

Cada bolinha é uma palavra. Quanto mais próximas, mais "semanticamente parecidas". Tenta agrupar os animais. Os móveis. Os reis e rainhas.

↑ dim 2 dim 1 →
🖱️ Arrasta as bolinhas. As distâncias recalculam em tempo real ao lado.

📐 O que são dimensões?

Aqui você vê 2 dimensões (X e Y) pra caber na tela. Mas os embeddings reais têm centenas ou milhares de dimensões. Cada uma captura algum aspecto sutil do significado: gênero, número, formalidade, animacidade, tempo verbal...

A mágica: palavras parecidas se posicionam próximas. E operações entre vetores fazem coisas tipo: rei - homem + mulher ≈ rainha. Sério.

Embeddings também podem ser de frases ou documentos inteiros. É a base de busca semântica ("encontra docs parecidos com isso"), recomendação e até RAG (consultar contexto pra um LLM).

📏 Distâncias agora:
gato ↔ cachorro-
rei ↔ rainha-
mesa ↔ cadeira-
gato ↔ mesa-
TL;DR · Cola final

A cola da aula.

Salva essa parte. Toda palavrinha importante da aula numa fileira só.

🧠 IA
campo amplo
"Sistemas que imitam capacidades humanas."
Inclui regras programadas à mão, ML, busca, lógica simbólica. O guarda-chuva de tudo.
🐱 Machine Learning
subárea de IA
"Aprender padrões a partir de dados."
Em vez de regras manuais, o sistema descobre relações nos dados. Supervisionado, não-supervisionado, por reforço.
🐾 Deep Learning
subárea de ML
"ML com redes neurais profundas."
Redes com muitas camadas. Forte em imagem, áudio, texto. Exige muitos dados e GPUs.
✨ IA Generativa
aplicação de DL
"Cria conteúdo novo."
Texto, imagem, áudio, vídeo, código. Diferente da IA que só classifica/prevê.
🔗 Rede Neural
arquitetura
"Neurônios conectados em camadas."
Estrutura matemática inspirada no cérebro. Pesos ajustados pelo treinamento.
🏭 Treinamento
fase de aprendizado
"Ajustar pesos com dados."
Caro, demorado, raro. Faz uma vez, salva o modelo.
💡 Inferência
fase de uso
"Usar o modelo treinado."
Mais barata por chamada, mas contínua. É o que o usuário vê.
💬 LLM
large language model
"Adivinhador de próximo token gigante."
Bilhões de parâmetros, treinado em trilhões de tokens. ChatGPT, Claude, Gemini.
🐈‍⬛ SLM
small language model
"Versão pequena, focada e barata."
Roda local, é rápido, custa pouco. Phi, Gemma, Llama pequenos.
🤖 Transformer
arquitetura, 2017
"Attention is all you need."
Substituiu RNN. Processa em paralelo, capta contexto longo. Base de todos os LLMs.
📐 Embedding
vetor de números
"Palavra virou ponto num espaço."
Captura significado. Palavras parecidas ficam próximas. Base de busca semântica.
🐾 Resumo do resumo
"O que eu levo dessa aula?"
IA é o guarda-chuva. ML aprende com dados. DL usa redes profundas. LLMs são DL gigantes pra texto, baseados em Transformers. Embeddings transformam palavras em pontos num espaço.