Balaio de Gatos · IA, ML, LLMs e Companhia

01 · As bonecas russas

IA, ML, DL e IA Gen: cada um dentro do outro.

A confusão clássica é misturar os 4. Olha bem: IA é o grandão, todo o resto cabe dentro dele. ML é um pedaço da IA. Deep Learning é um pedaço do ML. IA Generativa é um filhote do Deep Learning. Clica em cada anel pra ver quem é quem.

👆 Clica nos anéis pra trocar a explicação

Anel selecionado

✨ IA Generativa

A criança bonita que aprendeu a desenhar, escrever, compor música, gerar voz e até vídeo. Não classifica nem prevê apenas ela cria coisa nova a partir do que aprendeu.

Apoia-se em modelos de Deep Learning de grande escala. É a base por trás do ChatGPT, do Midjourney, do Suno.

Exemplos do dia a dia

ChatGPT, Claude, Gemini - texto
Midjourney, DALL-E, Stable Diffusion - imagem
ElevenLabs, Suno - áudio/voz
Sora, Veo - vídeo

02 · Redes neurais

Cérebro de gato, só que de mentira.

Uma rede neural é um monte de "neurônios" (bolinhas) conectados por linhas (pesos). Cada bolinha soma os sinais que chegam, dá uma "esmagada" (função de ativação) e passa pra frente. Mexe nos sliders abaixo. É um detector de gato de brinquedo: 4 entradas, 1 saída ("é gato?").

🧠 Rede ao vivo

As entradas ativam neurônios da camada oculta, que produzem uma saída final. As linhas mais grossas = pesos mais fortes. Clica em "Treinar" e veja os pesos se reorganizando.

👂 Orelhas pontudas?0,8

🐱 Bigodes?0,6

🧥 Pelo?0,9

🔊 Faz miau?0,7

Saída da rede → -

O que tá rolando aí dentro?

Cada neurônio da camada oculta recebe os 4 valores de entrada multiplicados pelos pesos das conexões que chegam nele. Soma tudo. Passa por uma função (sigmóide), que esmaga o resultado entre 0 e 1.

A saída final faz o mesmo com os 3 valores da camada oculta. Resultado: um número de 0 a 1, que a gente lê como "probabilidade de ser gato".

Treinar = mexer nos pesos até a rede acertar mais. Aqui, "treinar" só sorteia pesos novos pra você ver o jogo virar - na vida real isso seria feito por gradient descent, ajustando pesos comparando previsão vs realidade, milhões de vezes.

💡 Sacada: Uma rede com 4-3-1 tem só 4×3 + 3×1 = 15 pesos. Um LLM moderno tem bilhões. A receita é a mesma, só muda a escala.

➡️

Feedforward

Direção única

Informação flui da entrada pra saída, sem voltar. Base de tudo o resto.

📷

CNN

Convolutional

Especializada em imagens. Olha pedacinhos da foto e combina pra entender o todo.

🔁

RNN

Recurrent

Processa sequências (texto, áudio) lembrando do que veio antes. Mas esquece em textos longos.

🤖

Transformer

Atenção

A arquitetura que aposentou as RNNs e botou os LLMs no mapa. Veremos no módulo 6.

03 · Conceitos-chave

Modelo, algoritmo, treinamento, inferência: o vocabulário base.

Quatro palavras que aparecem em todo lugar de ML, e que todo mundo confunde. A boa notícia: viram um pipeline simples se você pensar como "fábrica de modelo". Clica nas etapas pra ver cada uma.

🏭 A fábrica de modelos

Dados + algoritmo entram. Treinamento acontece. Modelo sai pronto. Depois, durante a inferência, o modelo recebe perguntas novas e responde.

🧠 Modelo

O resultado do aprendizado. Uma função matemática salva em arquivo, que transforma entrada em saída.

⚙️ Algoritmo

O método. Os passos que ensinam o modelo a aprender. Regressão, árvore, rede neural...

🎓 Treinamento

O processo. Quando o algoritmo come os dados e ajusta o modelo. Caro, demorado, faz uma vez só.

💡 Inferência

O uso. Quando o modelo treinado vê algo novo e responde. Barato por chamada, mas é contínuo.

🎓 Treinamento

Quando?Antes do uso

Custo?Altíssimo (GPUs, energia)

Frequência?Pontual (1×, raramente)

Duração?Horas, dias, semanas

💡 Inferência

Quando?Durante o uso

Custo?Menor por chamada

Frequência?Contínua (milhões/dia)

Duração?Milissegundos a segundos

04 · LLMs

LLM = "adivinhador de próxima palavra" no esteróide.

Um LLM (Large Language Model) tem bilhões de parâmetros e foi treinado em trilhões de tokens de texto. Mas sabe o que ele faz na real, a cada passo? Adivinha o próximo token. Só isso. Clica nos prompts abaixo e veja quais tokens o modelo considera mais prováveis.

🔮 Simulador de next-token

O gato subiu no

Próximos tokens prováveis (clica em um pra adicionar):

🐾 Sério, é só isso?

Sério. Toda saída de LLM é uma sequência de previsões de próximo token. O modelo recebe o texto até agora, calcula a probabilidade de cada token possível no vocabulário (~50.000 tokens), e escolhe. Adiciona ao texto. Repete.

Token = pedacinho de texto (palavra, parte de palavra, pontuação). "subiu" pode ser 1 token, "carrossel" pode ser 2 (car-rossel). Cada modelo tem seu vocabulário.

Temperatura: controla quão "criativo" o modelo é. Temp 0 = sempre escolhe o mais provável (chato e repetitivo). Temp alto = aceita opções menos prováveis (criativo, mas pode viajar).

E sim, o ChatGPT, Claude, Gemini fazem exatamente isso. A "mágica" toda é que, treinados em quantidade absurda de texto, eles ficaram tão bons em prever a próxima palavra que aparentam raciocinar.

💪 O que LLMs fazem bem

Resumir, traduzir, reescrever textos
Responder perguntas em linguagem natural
Escrever e debugar código
Explicar conceitos adaptando o nível
Estruturar dados, gerar formatos (JSON, tabela...)

⚠️ Onde LLMs te traem

Alucinam: inventam fatos com tom de certeza
Conhecimento congela na data do treinamento
Não "entendem" o mundo, só padrões de texto
Erram em conta, lógica formal, contagem
Custo alto de computação e energia
Riscos de viés, privacidade, segurança

05 · SLMs vs LLMs

Tamanho importa? Depende do que você quer fazer.

LLMs são gigantescos (Claude Opus, GPT-5...). SLMs são modelos pequenos (Phi-3, Gemma 2B, Llama 3.2 1B...) que rodam até no seu celular. Não é "menor = pior". É "menor = diferente". Mexe no slider e veja o trade-off em tempo real.

📏 Escolhe o tamanho do modelo

De 1 bilhão (cabe no celular) até 500 bilhões de parâmetros (precisa de cluster).

Parâmetros 7B

1B7B70B500B+

Modelos reais nesse tamanho:

💰

Custo de operação

Médio

⚡

Velocidade

Rápido

🧠

Capacidade / Generalização

Boa

💻

Onde roda

GPU média

🔐

Privacidade (rodar local)

Sim, dá

🎯

Quem é melhor pra...

Uso geral

🤔 Quando preferir um SLM?

🎯 Tarefa focada

Só precisa classificar tickets de suporte? SLM resolve com mais barato.

💰 Restrição de custo

Operação contínua e em escala. 100M de chamadas/mês? Cada centavo conta.

⚡ Latência baixa

Precisa responder em ms? SLM é muito mais rápido pra inferência.

🔐 Privacidade

Dados sensíveis não podem sair da rede. SLM cabe local.

📱 Hardware limitado

Roda no celular, IoT, raspberry pi? Tem que ser SLM.

🚀 Pro contrário, use LLM se...

A tarefa exige raciocínio amplo, criatividade, generalização entre domínios, ou seguir instruções complexas.

06 · Transformers

A arquitetura que tornou tudo isso possível.

Em 2017, um paper do Google chamado "Attention is All You Need" propôs uma arquitetura nova: o Transformer. Ele jogou as RNNs no lixo e virou a base de praticamente todos os LLMs modernos. A peça-chave? O mecanismo de atenção. Clica numa palavra abaixo e veja a "atenção" iluminar.

🔦 Atenção, em ação

Escolhe uma frase, depois clica numa palavra. As outras palavras vão acender com mais ou menos força - isso é a "atenção" que aquela palavra dá pra cada uma das outras quando o modelo a processa.

Palavra selecionada

Atenção alta

Atenção média

Atenção baixa

💡 No transformer real, existem várias "cabeças de atenção", cada uma aprendendo a olhar pra coisas diferentes (sintaxe, semântica, gênero, posição). Aqui simplificamos pra uma só.

🎯 Por que isso é revolucionário?

As redes recorrentes (RNN/LSTM) liam palavra por palavra, em sequência. Resultado: em textos longos, esqueciam o que tinha no começo. E não dava pra paralelizar - tinha que terminar a palavra 1 pra começar a 2.

O Transformer disse: "esquece sequência, eu olho tudo de uma vez". Cada palavra "olha" pra todas as outras simultaneamente, e o modelo aprende quais merecem mais atenção em cada contexto.

Resultado: contexto longo (LLMs hoje processam centenas de milhares de tokens) + treino em paralelo (escala absurdamente em GPU).

"O modelo dá mais peso às palavras que mais importam pra entender a próxima."

🧱

Blocos empilhados

Vários blocos idênticos em sequência. Cada um refina a representação. GPT-3 tem 96 blocos, por exemplo.

📍

Embeddings + posição

Cada token vira um vetor. Como tudo é processado em paralelo, é preciso codificar a posição manualmente.

👀

Self-attention

Cada token olha pra todos os outros. Cabeças múltiplas aprendem padrões diferentes em paralelo.

⚡

Paralelização

Tudo de uma vez = uso massivo de GPU = escala absurda = LLMs grandes possíveis.

07 · Dimensões & Embeddings

Palavras viram números num espaço.

Computador não entende palavra, só número. Então cada palavra (token) é convertida em um vetor com centenas ou milhares de números - isso é o embedding. Cada número é uma "dimensão". Palavras parecidas ficam próximas no espaço. Aqui projetamos isso em 2D pra você poder ver. Arrasta as palavras e veja as distâncias.

🌌 Espaço vetorial 2D

Cada bolinha é uma palavra. Quanto mais próximas, mais "semanticamente parecidas". Tenta agrupar os animais. Os móveis. Os reis e rainhas.

🖱️ Arrasta as bolinhas. As distâncias recalculam em tempo real ao lado.

📐 O que são dimensões?

Aqui você vê 2 dimensões (X e Y) pra caber na tela. Mas os embeddings reais têm centenas ou milhares de dimensões. Cada uma captura algum aspecto sutil do significado: gênero, número, formalidade, animacidade, tempo verbal...

A mágica: palavras parecidas se posicionam próximas. E operações entre vetores fazem coisas tipo: rei - homem + mulher ≈ rainha. Sério.

Embeddings também podem ser de frases ou documentos inteiros. É a base de busca semântica ("encontra docs parecidos com isso"), recomendação e até RAG (consultar contexto pra um LLM).

📏 Distâncias agora:

gato ↔ cachorro-

rei ↔ rainha-

mesa ↔ cadeira-

gato ↔ mesa-

TL;DR · Cola final

A cola da aula.

Salva essa parte. Toda palavrinha importante da aula numa fileira só.

🧠 IA

campo amplo

"Sistemas que imitam capacidades humanas."

Inclui regras programadas à mão, ML, busca, lógica simbólica. O guarda-chuva de tudo.

🐱 Machine Learning

subárea de IA

"Aprender padrões a partir de dados."

Em vez de regras manuais, o sistema descobre relações nos dados. Supervisionado, não-supervisionado, por reforço.

🐾 Deep Learning

subárea de ML

"ML com redes neurais profundas."

Redes com muitas camadas. Forte em imagem, áudio, texto. Exige muitos dados e GPUs.

✨ IA Generativa

aplicação de DL

"Cria conteúdo novo."

Texto, imagem, áudio, vídeo, código. Diferente da IA que só classifica/prevê.

🔗 Rede Neural

arquitetura

"Neurônios conectados em camadas."

Estrutura matemática inspirada no cérebro. Pesos ajustados pelo treinamento.

🏭 Treinamento

fase de aprendizado

"Ajustar pesos com dados."

Caro, demorado, raro. Faz uma vez, salva o modelo.

💡 Inferência

fase de uso

"Usar o modelo treinado."

Mais barata por chamada, mas contínua. É o que o usuário vê.

💬 LLM

large language model

"Adivinhador de próximo token gigante."

Bilhões de parâmetros, treinado em trilhões de tokens. ChatGPT, Claude, Gemini.

🐈‍⬛ SLM

small language model

"Versão pequena, focada e barata."

Roda local, é rápido, custa pouco. Phi, Gemma, Llama pequenos.

🤖 Transformer

arquitetura, 2017

"Attention is all you need."

Substituiu RNN. Processa em paralelo, capta contexto longo. Base de todos os LLMs.

📐 Embedding

vetor de números

"Palavra virou ponto num espaço."

Captura significado. Palavras parecidas ficam próximas. Base de busca semântica.

🐾 Resumo do resumo

"O que eu levo dessa aula?"

IA é o guarda-chuva. ML aprende com dados. DL usa redes profundas. LLMs são DL gigantes pra texto, baseados em Transformers. Embeddings transformam palavras em pontos num espaço.