Embeddings, tokenização, bancos vetoriais, rotulagem, aprendizado supervisionado, federado... toda essa salada faz sentido quando você vê o gato virar um conjunto de números numa nuvem. Mexa nos controles. Veja a teoria acontecer.
Bora começar 🐾Um embedding é a tradução de um conceito (palavra, imagem, áudio) para um vetor numérico. Coisas parecidas viram vetores parecidos. Coisas diferentes ficam longe. Simples assim.
Clique numa palavra. Veja seu vetor (versão simplificada com 8 dimensões). Repare quais ficam parecidos.
É a representação numérica de um dado em um espaço vetorial.
Cada um pega um tipo de entrada e devolve um tipo de saída diferente. É só isso.
Recebe palavras, frases ou documentos. Devolve um vetor que captura significado, sinônimos e contexto. Base do RAG.
Recebe pixels. Devolve vetor com características visuais (formas, cores, objetos). Usado em busca de imagens similares.
Coloca várias modalidades no mesmo espaço vetorial. Permite buscar imagem por texto e vice-versa.
Não só representa, cria conteúdo novo. Texto vira imagem, imagem vira descrição, áudio vira vídeo.
Texto e imagem caem no MESMO espaço vetorial. Olha como os vetores são parecidos:
É por isso que você pode pesquisar fotos digitando texto. O texto e a foto ficam próximos no espaço.
O modelo não come uma frase inteira de boca aberta. Ela é cortada em tokens, contada, recortada, encaixada na janela de contexto. Aqui estão os blocos básicos.
Digite uma frase. Veja ela ser quebrada em tokens (palavras, neste exemplo simplificado).
É a primeira etapa do processamento de linguagem natural.
💡 No mundo real, "extraordinariamente" pode virar 4 tokens: ["extra", "ordin", "aria", "mente"]. Nem sempre é uma palavra inteira.
Técnica clássica e simplíssima: conta quantas vezes cada palavra aparece. Ignora ordem.
Digite um texto. Veja o saco se encher.
| Palavra | Contagem | Frequência |
|---|
Se a palavra "modelo" aparece 5 vezes num texto, ele provavelmente é sobre modelos. Trivial, mas poderoso. É a base do BoW e do TF-IDF.
💡 Palavras raras (que aparecem pouco) muitas vezes são mais informativas que palavras comuns ("a", "de", "que").
É a quantidade máxima de tokens que o modelo consegue ver de uma vez. Entrada + resposta cabem aqui dentro.
Veja quais tokens entram, quais são descartados.
Documento maior que a janela? Quebre em pedaços. Cada um vira um vetor.
É um trecho do documento com início e fim definidos. Permite trabalhar com partes sem processar tudo.
💡 Pipelines RAG sofrem ou brilham dependendo de como você chunka os documentos. É arte.
A natureza dos seus dados decide como você guarda, busca e processa. Existem dois grandes grupos: os arrumadinhos (estruturados) e os baguncinha (não estruturados).
Estruturados → banco relacional. Não estruturados → data lake / S3 / armazenamento de objetos.
Estruturados aceitam SQL. Não estruturados precisam de busca semântica via embeddings.
Modelos clássicos preferem estruturado. IA generativa lida muito bem com não estruturado.
Pré-processamento simples no estruturado. Sofisticado (tokenização, embeddings) no não estruturado.
Você converteu mil documentos em vetores. Agora precisa guardar e buscar por similaridade rápido. Bancos relacionais clássicos não foram feitos pra isso. Entram os bancos vetoriais.
Bancos especializados em armazenar e indexar vetores em grande escala.
Você consulta "animal felino doméstico". O banco devolve os vetores mais próximos.
A Amazon Aurora PostgreSQL é o serviço gerenciado da AWS para bancos PostgreSQL. A extensão pgvector adiciona suporte a tipos vetoriais.
Modelos supervisionados aprendem com exemplos rotulados: dado e resposta. Mas rotular é caro, demorado, chato. Por isso a AWS tem serviços específicos pra isso.
Serviço gerenciado da AWS para construir datasets rotulados de alta qualidade.
Plataforma da AWS onde humanos reais executam tarefas que máquinas fazem mal.
Não existe "o" ML. Existem famílias diferentes, cada uma boa pra um problema. Clique em cada card pra ver o que muda.
"Aprende com respostas certas"
Modelo recebe dados rotulados (entrada + resposta certa). Aprende a prever a saída para entradas novas.
Spam, preço, diagnóstico, fotos"Aprende a organizar sozinho"
Modelo recebe dados sem rótulo. Descobre padrões, grupos, anomalias. Reduz dimensionalidade.
Clustering, segmentação, fraude"Aprende com tentativa e erro"
Agente interage com um ambiente, toma ações, recebe recompensas. Aprende a estratégia que maximiza ganhos no longo prazo.
Jogos, robótica, trading, RLHF"Treina sem mover os dados"
Treinamento distribuído. Dados ficam onde estão (no celular, no hospital). Só as atualizações do modelo viajam. Privacidade preservada.
Saúde, finanças, smartphones"Reaproveita o que já foi aprendido"
Pega um modelo já treinado num problema gigante e ajusta para uma tarefa nova. Pouco dado, pouco tempo, resultados ótimos.
Fine-tuning, foundation models| Tipo | Dados usados | Como aprende | Onde se aplica |
|---|---|---|---|
| Supervisionado | Rotulados | Mapeia entrada → resposta | Classificação, regressão |
| Não-supervisionado | Não rotulados | Descobre padrões sozinho | Clustering, anomalias |
| Por reforço | Interação com ambiente | Tentativa, erro, recompensa | Jogos, robótica, decisões |
| Federado | Distribuídos, locais | Treina sem centralizar dados | Privacidade, regulação |
| Por transferência | Modelo pré-treinado + ajuste | Reaproveita conhecimento | Foundation models, NLP, visão |
Tudo o que vimos aqui se encaixa nessa cadeia. Sem exceção.
Estruturados ou não estruturados
Tokenização, BoW, chunks
Vetor numérico de significado
Aurora + pgvector armazena
Treina e responde ao usuário
Cada conceito numa frase. Salva, imprime, manda no grupo.