Uma explicação intuitiva do raciocínio bayesiano é um trabalho extraordinário sobre o teorema de Bayes que começa com esse simples quebra-cabeça:
1% das mulheres aos 40 anos que participam de exames de rotina têm câncer de mama. 80% das mulheres com câncer de mama terão mamografias positivas. 9,6% das mulheres sem câncer de mama também terão mamografias positivas. Uma mulher nessa faixa etária teve uma mamografia positiva em uma triagem de rotina. Qual é a probabilidade de que ela realmente tenha câncer de mama?
Esse quebra-cabeça simples não é tão simples assim na prática. Apenas 15% dos médicos, quando confrontados com essa situação, chegam à resposta correta.
O senhor consegue encontrar a resposta correta? sem recorrer ao Google, aos comentários deste post ou ler a resposta fornecida no artigo?
Se sim, parabéns. O senhor é um iniciado natural da Conspiração Bayesiana. Para o restante de nós, o Teorema de Bayes é um pouco mais difícil de entender:
Embora existam alguns explicações on-line sobre o Teorema de BayesNa minha experiência ao tentar apresentar às pessoas o raciocínio bayesiano, as explicações on-line existentes são muito abstratas. O raciocínio bayesiano é muito contraintuitivo. As pessoas não empregam o raciocínio bayesiano intuitivamente, acham muito difícil aprender o raciocínio bayesiano quando recebem orientação e esquecem rapidamente os métodos bayesianos quando a orientação termina. Isso vale tanto para estudantes novatos quanto para profissionais altamente treinados em uma área. O raciocínio bayesiano é aparentemente uma daquelas coisas que, como o mecânica quântica ou o Teste de seleção da Wasoné inerentemente difícil para os seres humanos compreenderem com nossas faculdades mentais embutidas.
Em ciência da computação, é fácil demonstrar o imenso poder do teorema de Bayes: ele é a base de quase todos os filtros de spam em uso atualmente. A filtragem bayesiana de e-mail foi divulgada pela primeira vez pelo livro de Paul Graham A Plan for Spam (Um plano para o spam) em meados de 2002. A maioria dos programadores já conhece a filtragem bayesiana; ela é a principal arma em qualquer kit de ferramentas moderno de combate ao spam.
O que o senhor talvez não saiba, no entanto, é que existe algo ainda mais eficaz do que a filtragem bayesiana de spam. Isso é descrito de forma eloquente na apresentação de William Yerazunis O platô da filtragem de spam com 99,9% de precisão e como superá-lo (também disponível em formulário em papel pdf). E ele foi implementado como o Discriminador CRM114 há anos. Essa técnica é Filtragem de spam markoviana:
Como alterar um filtro de spam Bayesiano para um filtro de spam Markoviano:
- Altere o gerador de recursos de palavras únicas para várias palavras abrangentes
- Altere a ponderação para que os recursos mais longos tenham mais peso (ou seja, recursos mais longos geram probabilidades locais mais próximas de 0,0 e 1,0)
- A ponderação 2^2n significa que os pesos são 1, 4, 16, 64, 256, … para comprimentos de extensão de 1, 2, 3, 4, 5 … palavras
Em outras palavras, enquanto os filtros bayesianos examinam a relação entre palavras individuais, os filtros markovianos expandem o escopo para examinar a relação entre palavras e frases. É um ajuste, mas significativo, que amplia a precisão do já incrivelmente preciso teorema de Bayes.
Mas o verdadeiro poder do teorema de Bayes vai muito além da mera discriminação entre spam e não spam. Como o Documentação do CR114 o senhor pode usar esses modelos estatísticos avançados para discriminar entre… bem, praticamente qualquer coisa:
O spam é o grande alvo do CRM114, mas ele não é uma ferramenta especializada apenas em e-mail. O CRM114 tem sido usado para classificar páginas da Web, currículos, entradas de blog, arquivos de registro e muitas outras coisas. A precisão pode chegar a 99,9%. Em outras palavras, o CRM114 aprende, e aprende rápido.
Agora talvez o senhor possa entender por que algumas pessoas estão tão entusiasmadas com o teorema de Bayes.
Talvez o senhor veja o teorema de Bayes, entenda o teorema e possa usá-lo, mas não consegue entender por que seus amigos e/ou colegas de pesquisa parecem achar que ele é o segredo do universo. Talvez seus amigos estejam todos usando camisetas com o teorema de Bayes e o senhor se sinta excluído. Talvez a senhora seja uma garota à procura de um namorado, mas o rapaz em quem está interessada se recusa a namorar alguém que “não seja bayesiano”. O que importa é que Bayes é legal, e se a senhora não conhece Bayes, não é legal.
Por que um conceito matemático gera esse estranho entusiasmo em seus alunos? O que é a chamada Revolução Bayesiana que agora está varrendo as ciências e que pretende incluir até mesmo o próprio método experimental como um caso especial? Qual é o segredo que os adeptos de Bayes conhecem? Qual é a luz que eles viram?
Não é intuitivo para a maioria das pessoas, mas veja um pouco mais de pertoe acho que o senhor também se tornará um iniciado da conspiração bayesiana.