Citando um artigo da Wikipedia sobre estimativa de parâmetros para um classificador ingênuo de Bayes : "uma suposição típica é que os valores contínuos associados a cada classe sejam distribuídos de acordo com uma distribuição gaussiana".
Entendo que uma distribuição gaussiana é conveniente por razões analíticas. No entanto, existe alguma outra razão do mundo real para fazer essa suposição? E se a população consistir em duas subpopulações (pessoas inteligentes / burras, maçãs grandes / pequenas)?
normal-distribution
lmsasu
fonte
fonte
Respostas:
Pelo menos para mim, a suposição de normalidade surge de duas razões (muito poderosas):
O Teorema do Limite Central.
A distribuição gaussiana é uma distribuição de entropia máxima (com relação à versão contínua da entropia de Shannon).
Eu acho que você está ciente do primeiro ponto: se sua amostra é a soma de muitos processos, desde que algumas condições moderadas sejam satisfeitas, a distribuição é praticamente gaussiana (há generalizações do CLT onde você realmente não deve assumir que os rvs da soma são distribuídos de forma idêntica, veja, por exemplo, o Lyapunov CLT).
O segundo ponto é o que, para algumas pessoas (especialmente os físicos), faz mais sentido: dado o primeiro e o segundo momento de uma distribuição, a distribuição que menos informação assume (ou seja, a mais conservadora) em relação à medida contínua de entropia de Shannon (que é um tanto arbitrário no caso contínuo, mas, pelo menos para mim, totalmente objetivo no caso discreto, mas essa é outra história), é a distribuição gaussiana. Essa é uma forma do chamado "princípio da entropia máxima", que não é tão difundido porque o uso real da forma da entropia é um tanto arbitrário (consulte este artigo da Wikipedia para obter mais informações sobre essa medida ).
PD: Devo acrescentar ao princípio da entropia máxima que, de acordo com este artigo , se você conhece o intervalo de variação de sua variável, deve fazer ajustes na distribuição que obtém pelo princípio da entropia máxima.
fonte
Minha resposta concorda com o primeiro respondedor. O teorema do limite central informa que, se sua estatística for uma soma ou média, será aproximadamente normal sob certas condições técnicas, independentemente da distribuição das amostras individuais. Mas você está certo de que, às vezes, as pessoas levam isso muito longe só porque parece conveniente. Se sua estatística for uma proporção e o denominador puder ser zero ou próximo dela, a proporção será muito pesada para o normal. Gosset descobriu que, mesmo quando você coleta amostras de uma distribuição normal, uma média normalizada em que o desvio padrão da amostra é usado para a constante de normalização, a distribuição é a distribuição t com n-1 graus de liberdade quando n é o tamanho da amostra. Em suas experiências de campo na Cervejaria Guiness, ele tem tamanhos de amostra que podem estar na faixa de 5 a 10. Nesses casos, a distribuição t é semelhante à distribuição normal padrão, pois é simétrica em torno de 0, mas possui caudas muito mais pesadas. Observe que a distribuição t converge para o normal padrão à medida que n aumenta. Em muitos casos, a distribuição que você tem pode ser bimodal, pois é uma mistura de duas populações. Algumas vezes essas distribuições podem ser ajustadas como uma mistura de distribuições normais. Mas eles certamente não se parecem com uma distribuição normal. Se você olhar para um livro básico de estatística, encontrará muitas distribuições paramétricas contínuas e discretas que frequentemente surgem em problemas de inferência. Para dados discretos, temos o binômio binomial, Poisson, geométrico, hipergeométrico e negativo, para citar alguns. Exemplos contínuos incluem o quadrado do chi, lognormal, Cauchy, exponencial negativo, Weibull e Gumbel.
fonte
O uso do CLT para justificar o uso da distribuição gaussiana é uma falácia comum, porque o CLT é aplicado à média da amostra, não a observações individuais. Portanto, aumentar o tamanho da amostra não significa que a amostra esteja mais próxima da normalidade.
A distribuição gaussiana é comumente usada porque:
Obviamente, a melhor opção é usar uma distribuição que leve em consideração as características do seu contexto, mas isso pode ser um desafio. No entanto, é algo que as pessoas devem fazer
"Tudo deve ser feito o mais simples possível, mas não mais simples." (Albert Einstein)
Eu espero que isso ajude.
Muitas felicidades.
fonte