IA, ML, Deep Learning, IA Generativa, LLMs, SLMs, Transformers, embeddings... tudo isso parece bicho de sete cabeças. Aqui ele vira gato. Você mexe nos sliders, clica nas palavras, vê os pesos da rede neural pulsando ao vivo. Sem decoreba.
Bora começar 🐾A confusão clássica é misturar os 4. Olha bem: IA é o grandão, todo o resto cabe dentro dele. ML é um pedaço da IA. Deep Learning é um pedaço do ML. IA Generativa é um filhote do Deep Learning. Clica em cada anel pra ver quem é quem.
A criança bonita que aprendeu a desenhar, escrever, compor música, gerar voz e até vídeo. Não classifica nem prevê apenas ela cria coisa nova a partir do que aprendeu.
Apoia-se em modelos de Deep Learning de grande escala. É a base por trás do ChatGPT, do Midjourney, do Suno.
Uma rede neural é um monte de "neurônios" (bolinhas) conectados por linhas (pesos). Cada bolinha soma os sinais que chegam, dá uma "esmagada" (função de ativação) e passa pra frente. Mexe nos sliders abaixo. É um detector de gato de brinquedo: 4 entradas, 1 saída ("é gato?").
As entradas ativam neurônios da camada oculta, que produzem uma saída final. As linhas mais grossas = pesos mais fortes. Clica em "Treinar" e veja os pesos se reorganizando.
Cada neurônio da camada oculta recebe os 4 valores de entrada multiplicados pelos pesos das conexões que chegam nele. Soma tudo. Passa por uma função (sigmóide), que esmaga o resultado entre 0 e 1.
A saída final faz o mesmo com os 3 valores da camada oculta. Resultado: um número de 0 a 1, que a gente lê como "probabilidade de ser gato".
Treinar = mexer nos pesos até a rede acertar mais. Aqui, "treinar" só sorteia pesos novos pra você ver o jogo virar - na vida real isso seria feito por gradient descent, ajustando pesos comparando previsão vs realidade, milhões de vezes.
Informação flui da entrada pra saída, sem voltar. Base de tudo o resto.
Especializada em imagens. Olha pedacinhos da foto e combina pra entender o todo.
Processa sequências (texto, áudio) lembrando do que veio antes. Mas esquece em textos longos.
A arquitetura que aposentou as RNNs e botou os LLMs no mapa. Veremos no módulo 6.
Quatro palavras que aparecem em todo lugar de ML, e que todo mundo confunde. A boa notícia: viram um pipeline simples se você pensar como "fábrica de modelo". Clica nas etapas pra ver cada uma.
Dados + algoritmo entram. Treinamento acontece. Modelo sai pronto. Depois, durante a inferência, o modelo recebe perguntas novas e responde.
O resultado do aprendizado. Uma função matemática salva em arquivo, que transforma entrada em saída.
O método. Os passos que ensinam o modelo a aprender. Regressão, árvore, rede neural...
O processo. Quando o algoritmo come os dados e ajusta o modelo. Caro, demorado, faz uma vez só.
O uso. Quando o modelo treinado vê algo novo e responde. Barato por chamada, mas é contínuo.
Um LLM (Large Language Model) tem bilhões de parâmetros e foi treinado em trilhões de tokens de texto. Mas sabe o que ele faz na real, a cada passo? Adivinha o próximo token. Só isso. Clica nos prompts abaixo e veja quais tokens o modelo considera mais prováveis.
Sério. Toda saída de LLM é uma sequência de previsões de próximo token. O modelo recebe o texto até agora, calcula a probabilidade de cada token possível no vocabulário (~50.000 tokens), e escolhe. Adiciona ao texto. Repete.
Token = pedacinho de texto (palavra, parte de palavra, pontuação). "subiu" pode ser 1 token, "carrossel" pode ser 2 (car-rossel). Cada modelo tem seu vocabulário.
Temperatura: controla quão "criativo" o modelo é. Temp 0 = sempre escolhe o mais provável (chato e repetitivo). Temp alto = aceita opções menos prováveis (criativo, mas pode viajar).
E sim, o ChatGPT, Claude, Gemini fazem exatamente isso. A "mágica" toda é que, treinados em quantidade absurda de texto, eles ficaram tão bons em prever a próxima palavra que aparentam raciocinar.
LLMs são gigantescos (Claude Opus, GPT-5...). SLMs são modelos pequenos (Phi-3, Gemma 2B, Llama 3.2 1B...) que rodam até no seu celular. Não é "menor = pior". É "menor = diferente". Mexe no slider e veja o trade-off em tempo real.
De 1 bilhão (cabe no celular) até 500 bilhões de parâmetros (precisa de cluster).
Só precisa classificar tickets de suporte? SLM resolve com mais barato.
Operação contínua e em escala. 100M de chamadas/mês? Cada centavo conta.
Precisa responder em ms? SLM é muito mais rápido pra inferência.
Dados sensíveis não podem sair da rede. SLM cabe local.
Roda no celular, IoT, raspberry pi? Tem que ser SLM.
A tarefa exige raciocínio amplo, criatividade, generalização entre domínios, ou seguir instruções complexas.
Em 2017, um paper do Google chamado "Attention is All You Need" propôs uma arquitetura nova: o Transformer. Ele jogou as RNNs no lixo e virou a base de praticamente todos os LLMs modernos. A peça-chave? O mecanismo de atenção. Clica numa palavra abaixo e veja a "atenção" iluminar.
Escolhe uma frase, depois clica numa palavra. As outras palavras vão acender com mais ou menos força - isso é a "atenção" que aquela palavra dá pra cada uma das outras quando o modelo a processa.
💡 No transformer real, existem várias "cabeças de atenção", cada uma aprendendo a olhar pra coisas diferentes (sintaxe, semântica, gênero, posição). Aqui simplificamos pra uma só.
As redes recorrentes (RNN/LSTM) liam palavra por palavra, em sequência. Resultado: em textos longos, esqueciam o que tinha no começo. E não dava pra paralelizar - tinha que terminar a palavra 1 pra começar a 2.
O Transformer disse: "esquece sequência, eu olho tudo de uma vez". Cada palavra "olha" pra todas as outras simultaneamente, e o modelo aprende quais merecem mais atenção em cada contexto.
Resultado: contexto longo (LLMs hoje processam centenas de milhares de tokens) + treino em paralelo (escala absurdamente em GPU).
Vários blocos idênticos em sequência. Cada um refina a representação. GPT-3 tem 96 blocos, por exemplo.
Cada token vira um vetor. Como tudo é processado em paralelo, é preciso codificar a posição manualmente.
Cada token olha pra todos os outros. Cabeças múltiplas aprendem padrões diferentes em paralelo.
Tudo de uma vez = uso massivo de GPU = escala absurda = LLMs grandes possíveis.
Computador não entende palavra, só número. Então cada palavra (token) é convertida em um vetor com centenas ou milhares de números - isso é o embedding. Cada número é uma "dimensão". Palavras parecidas ficam próximas no espaço. Aqui projetamos isso em 2D pra você poder ver. Arrasta as palavras e veja as distâncias.
Salva essa parte. Toda palavrinha importante da aula numa fileira só.