Acurácia, Precisão, Recall, F1, AUC, MAE, ROI... tudo isso fica claro quando você troca fórmula por gato. Role pra baixo, mexe nos controles, vê os números mudarem ao vivo. Sem decoreba.
Bora começar 🐾Imagina que você foi contratado pelo app de adoção "AdoteUmaPata.com". Você treinou um modelo que olha uma foto e responde: "é gato?" ou "não é gato". Pra avaliar, separou 100 fotos novas que o modelo nunca viu:
Depois de rodar nas 100 fotos, o modelo entregou esse resultado:
👇 Esses 4 números formam o coração de tudo: a matriz de confusão. Vamos olhar.
A matriz de confusão é um quadradinho 2×2 que separa tudo que pode acontecer num classificador binário. Clica em cada quadrante pra entender o que ele significa na prática.
O modelo pode errar de dois jeitos diferentes, e acertar de dois jeitos diferentes. Em cima estão os erros e acertos com os gatos reais; embaixo, com os não-gatos. As colunas dizem o que o modelo respondeu.
💡 Cada métrica que a gente vai ver é só uma conta diferente com esses 4 quadrantes. É só isso. Sem matemática feia.
A métrica mais óbvia e mais traiçoeira. Soma todos os acertos e divide pelo total. Pronto, virou %.
Verde = modelo acertou (VP + VN). Vermelho = modelo errou (FP + FN).
Olhou. Bateu olho. 85%. Modelão, né? Calma.
A pegadinha: imagina que ao invés de 40 gatos e 60 não-gatos, fosse 2 gatos e 98 não-gatos. Eu posso fazer um modelo BURRO que sempre diz "não é gato". Ele vai acertar 98 de 100 = 98% de acurácia. E ele nunca achou um gato sequer.
Por isso a acurácia é perigosa em datasets desbalanceados. Pra clases muito raras (fraude, doenças, defeitos), ela engana legal.
Precisão olha só pra as previsões positivas. De todas as vezes que o modelo disse "é gato", quantas eram gato de verdade?
Das 100 fotos, o modelo disse "é gato" pra 45. Vamos ver quantas eram gato mesmo.
Em ~7,8 vezes. As outras 2,2 vezes ele apontou pra um cachorro e jurou que era gato. Embaraçoso.
Precisão alta = quando o modelo abre a boca pra dizer "é gato", confia. Ele não fala se não tem certeza. Mas pode ser medroso e perder gatos de verdade (vamos ver isso no Recall).
Recall vira o jogo: agora foca nos gatos reais. De todos os gatos que existiam no balaio, quantos o modelo conseguiu identificar?
Esquece os não-gatos por um momento. Existiam 40 gatos. O modelo achou quantos?
O modelo pegou 35 dos 40 gatos reais. Recall = 87,5%. 5 gatos escaparam sem ser identificados. Esses são os false negatives.
Recall alto = o modelo é "abusado", arrisca mesmo quando não tem certeza, prefere chutar gato. Não perde quase nenhum gato real. Mas, em troca, pode acabar chamando cachorros de gato (cai a precisão).
O falso positivo dói. Você não quer gritar lobo à toa.
O falso negativo dói. Não pode passar despercebido.
Precisão e Recall puxam pra lados opostos. F1 é a "média harmônica" entre os dois, uma maneira de combinar em um número só, mas punindo desequilíbrios.
Se Precisão = 77,8% e Recall = 87,5%, a média simples seria 82,6%. Mas o F1 usa média harmônica, que penaliza quando um dos dois está muito baixo.
A "graça" do F1: se você tem precisão 99% e recall 1%, a média comum dá 50% (parece ok). Mas o F1 dá ~2%. Ele denuncia que tem coisa errada.
F1 só fica alto quando os dois estão altos. Por isso ele é o padrão quando você não sabe qual erro é pior, ou quando ambos importam de verdade.
Lê assim: "0,82 de F1" = o modelo equilibra bem encontrar gatos sem chamar cachorros de gato.
Os modelos de classificação não cospem "gato" ou "não-gato" direto, eles cospem um número de 0 a 1 ("0,87 de probabilidade de ser gato"). Você escolhe um limiar (threshold). Acima dele, é gato. Mexe no slider e veja o jogo virar.
Pra cada limiar diferente (a partir de qual probabilidade chamar de gato), o modelo gera uma combinação diferente de TPR (acertos em gatos) e FPR (alarmes falsos com cachorros).
Limiar baixo (ex.: 0,2): chama quase tudo de gato → pega tudo (TPR alto) mas erra muito (FPR alto).
Limiar alto (ex.: 0,9): só chama de gato se tiver muita certeza → quase nada de erro, mas perde gatos reais.
A curva ROC mostra todas essas combinações de uma vez. Quanto mais ela se gruda no canto superior esquerdo, melhor.
Até aqui falamos de classificação (é ou não é). Mas e quando o modelo prevê um número, peso do gato pra calcular a dose do remédio, idade do gato pra estimar adoção, preço do animal de raça?
Aí entra a regressão. E a métrica mais intuitiva pra regressão é o MAE: a média de quanto seu modelo erra, em valor absoluto, em cada previsão.
Verde = peso real · Laranja = previsão do modelo · Vermelho = quanto errou
MAE = 0,32 kg significa que, em média, o modelo erra 320 gramas de cada gato. Pra cima ou pra baixo, tanto faz (é absoluto).
Vantagem do MAE: é na mesma unidade da sua variável. Se você prevê preço, MAE vem em reais. Se prevê tempo, vem em minutos. Fácil de explicar pro chefe.
Diferença pro RMSE: o RMSE eleva os erros ao quadrado, então pune erros grandes com mais força. MAE trata todo erro igualmente.
Tudo isso é lindo, mas seu chefe não quer saber de F1. Ele quer saber se vale a pena rodar esse modelo. Mexe nos valores abaixo, o impacto financeiro recalcula em tempo real.
Salva essa parte. Ou imprime. Ou tira print. Toda métrica responde a uma pergunta diferente.