Um ex-colega uma vez me argumentou da seguinte maneira:
Geralmente aplicamos testes de normalidade aos resultados de processos que, sob o nulo, geram variáveis aleatórias que são apenas assintoticamente ou quase normais (com a parte 'assintoticamente' dependente de alguma quantidade que não podemos aumentar); Na era da memória barata, big data e processadores rápidos, os testes de normalidade devem sempre rejeitar o nulo da distribuição normal para amostras grandes (embora não insanamente grandes). E, assim, perversamente, os testes de normalidade devem ser usados apenas para amostras pequenas, quando presumivelmente eles têm menor potência e menos controle sobre a taxa do tipo I.
Esse argumento é válido? Esse é um argumento bem conhecido? Existem testes bem conhecidos para uma hipótese nula 'mais confusa' do que a normalidade?
fonte
Respostas:
Não é uma discussão. É um fato (um pouco enfatizado) que os testes formais de normalidade sempre rejeitam os enormes tamanhos de amostra com os quais trabalhamos hoje. É fácil provar que, quando n cresce, até o menor desvio da normalidade perfeita leva a um resultado significativo. E como todo conjunto de dados tem algum grau de aleatoriedade, nenhum conjunto de dados será uma amostra perfeitamente distribuída normalmente. Mas nas estatísticas aplicadas, a questão não é se os dados / resíduos ... são perfeitamente normais, mas normais o suficiente para sustentar as suposições.
Deixe-me ilustrar com o teste de Shapiro-Wilk . O código abaixo constrói um conjunto de distribuições que se aproximam da normalidade, mas não são completamente normais. Em seguida, testamos
shapiro.test
se uma amostra dessas distribuições quase normais se desvia da normalidade. Em R:A última linha verifica qual fração das simulações para cada tamanho de amostra se desvia significativamente da normalidade. Assim, em 87% dos casos, uma amostra de 5000 observações desvia significativamente da normalidade, de acordo com Shapiro-Wilks. No entanto, se você ver os gráficos de qq, nunca decidiria um desvio da normalidade. Abaixo, você vê como exemplo os gráficos de qq para um conjunto de amostras aleatórias
com valores de p
fonte
R
implementação). Mas isso é tudo - não tem relação com o escopo de utilidade dos testes de normalidade em geral. A afirmação inicial de que os testes de normalidade sempre rejeitam em amostras grandes é simplesmente incorreta.Ao pensar se o teste de normalidade é "essencialmente inútil", é preciso primeiro pensar no que ele deve ser útil. Muitas pessoas (bem ... pelo menos, muitos cientistas) entendem mal a pergunta que o teste de normalidade responde.
A pergunta que os testes de normalidade respondem: Existe evidência convincente de algum desvio do ideal gaussiano? Com conjuntos de dados reais moderadamente grandes, a resposta é quase sempre sim.
A pergunta que os cientistas geralmente esperam que o teste de normalidade responda: os dados se desviam o suficiente do ideal gaussiano para "proibir" o uso de um teste que assume uma distribuição gaussiana? Os cientistas geralmente desejam que o teste de normalidade seja o árbitro que decide quando abandonar os testes convencionais (ANOVA etc.) e, em vez disso, analisa os dados transformados ou usa um teste não paramétrico baseado em classificação ou uma abordagem de reamostragem ou bootstrap. Para esse fim, os testes de normalidade não são muito úteis.
fonte
Penso que os testes de normalidade podem ser úteis como companheiros de exames gráficos. Eles precisam ser usados da maneira certa, no entanto. Na minha opinião, isso significa que muitos testes populares, como os testes Shapiro-Wilk, Anderson-Darling e Jarque-Bera, nunca devem ser usados.
Antes de explicar meu ponto de vista, deixe-me fazer algumas observações:
(Na minha definição), um teste de normalidade é direcionado contra uma classe de alternativas se for sensível a alternativas dessa classe, mas não sensível a alternativas de outras classes. Exemplos típicos são testes que são direcionados para alternativas inclinadas ou kurtóticas . Os exemplos mais simples usam a assimetria e curtose da amostra como estatísticas de teste.
Testes dirigidos de normalidade são, sem dúvida, preferíveis a testes omnibus (como os testes de Shapiro-Wilk e Jarque-Bera), uma vez que é comum que apenas alguns tipos de não normalidade sejam motivo de preocupação para um procedimento inferencial específico .
Vamos considerar o teste t de Student como um exemplo. Suponha que tenhamos uma amostra iid de uma distribuição com assimetria e (excesso) de curtoseSe é simétrico em relação à sua média, . Ambos e são 0 para a distribuição normal.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
Sob premissas de regularidade, obtemos a seguinte expansão assintótica para o cdf da estatística de teste :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
onde é o cdf e é o pdf da distribuição normal padrão.Φ(⋅) ϕ(⋅)
Pode-se verificar usando simulações que isso também é verdade para pequenos . Portanto, o teste t de Student é sensível à assimetria, mas relativamente robusto contra caudas pesadas, e é razoável usar um teste de normalidade direcionado para alternativas de inclinação antes de aplicar o teste t .n
Como regra geral ( não uma lei da natureza), a inferência sobre meios é sensível à assimetria e a inferência sobre variações é sensível à curtose.
O uso de um teste direcionado para a normalidade tem o benefício de obter maior poder contra alternativas '' perigosas '' e menor poder contra alternativas menos '' perigosas '', o que significa que somos menos propensos a rejeitar a normalidade por causa de desvios da normalidade vencidos afeta o desempenho do nosso procedimento inferencial. A não normalidade é quantificada de maneira relevante para o problema em questão. Nem sempre é fácil fazer isso graficamente.
À medida que aumenta, a assimetria e a curtose se tornam menos importantes - e é provável que testes diretos detectem se essas quantidades divergem de 0, mesmo que em pequena quantidade. Nesses casos, parece razoável, por exemplo, testar se ou (observando o primeiro termo da expansão acima) vez de se . Isso cuida de alguns dos problemas que, de outra forma, enfrentamos à medida que aumenta.n |γ|≤1 |n−1/216γ(2z2α/2+1)ϕ(zα/2)|≤0.01 γ=0 n
fonte
Os testes de normalidade do IMHO são absolutamente inúteis pelos seguintes motivos:
Em amostras pequenas, há uma boa chance de que a verdadeira distribuição da população seja substancialmente não normal, mas o teste de normalidade não é poderoso para captá-lo.
Em amostras grandes, coisas como o teste T e ANOVA são bastante robustas à não normalidade.
Toda a ideia de uma população normalmente distribuída é apenas uma aproximação matemática conveniente. Nenhuma das quantidades tipicamente tratadas estatisticamente poderia ter distribuições plausíveis com suporte de todos os números reais. Por exemplo, as pessoas não podem ter uma altura negativa. Algo não pode ter massa negativa ou mais massa do que existe no universo. Portanto, é seguro dizer que nada é exatamente distribuído normalmente no mundo real.
fonte
Eu acho que o pré-teste de normalidade (que inclui avaliações informais usando gráficos) erra o ponto.
fonte
Antes de perguntar se um teste ou qualquer tipo de verificação aproximada da normalidade é "útil", você deve responder à pergunta por trás da pergunta: "Por que você está perguntando?"
Por exemplo, se você deseja colocar apenas um limite de confiança em torno da média de um conjunto de dados, os desvios da normalidade podem ou não ser importantes, dependendo da quantidade de dados que você possui e do tamanho dos desvios. No entanto, desvios da normalidade tendem a ser cruciais se você quiser prever qual será o valor mais extremo em observações futuras ou na população da qual você amostrou.
fonte
Deixe-me acrescentar uma pequena coisa: realizar
um teste de normalidade sem levar em consideração o erro alfa aumenta a probabilidade geral de executar um erro alfa.
Você nunca deve esquecer que cada teste adicional faz isso desde que você não controle a acumulação de erro alfa. Portanto, outro bom motivo para descartar o teste de normalidade.
fonte
As respostas aqui já abordaram vários pontos importantes. Para resumir rapidamente:
Estou adicionando uma resposta primeiramente para citar um dos meus artigos estatísticos mais acessados e lidos pessoalmente: " A Importância das Suposições de Normalidade nos Grandes Conjuntos de Dados de Saúde Pública ", de Lumley et. al. Vale a pena ler na íntegra. O resumo declara:
Resumindo: geralmente a normalidade não vale a discussão ou a atenção que recebe em contraste com a importância de responder a uma questão científica específica. Se o desejo é resumir as diferenças médias nos dados, o teste t e ANOVA ou regressão linear são justificados em um sentido muito mais amplo. Os testes baseados nesses modelos permanecem no nível alfa correto, mesmo quando as premissas de distribuição não são cumpridas, embora o poder possa ser afetado adversamente.
As razões pelas quais as distribuições normais podem receber a atenção que recebem podem ser por razões clássicas, onde testes precisos baseados em distribuições F para ANOVAs e distribuições T de Student para o teste T podem ser obtidos. A verdade é que, entre os muitos avanços modernos da ciência, geralmente lidamos com conjuntos de dados maiores do que os coletados anteriormente. De fato, se alguém está lidando com um pequeno conjunto de dados, a lógica de que esses dados são normalmente distribuídos não pode vir deles mesmos: simplesmente não há energia suficiente. Observar outras pesquisas, replicações ou mesmo a biologia ou ciência do processo de medição é, na minha opinião, uma abordagem muito mais justificada para discutir um possível modelo de probabilidade subjacente aos dados observados.
Por esse motivo, optar por um teste baseado em classificação como alternativa perde totalmente o objetivo. No entanto, concordarei que o uso de estimadores de variância robustos, como o canivete ou o bootstrap, oferece alternativas computacionais importantes que permitem a realização de testes sob uma variedade de violações mais importantes da especificação do modelo, como independência ou distribuição idêntica desses erros.
fonte
Eu costumava pensar que os testes de normalidade eram completamente inúteis.
No entanto, agora faço consultoria para outros pesquisadores. Frequentemente, a obtenção de amostras é extremamente cara e, portanto, eles querem inferir n = 8, por exemplo.
Nesse caso, é muito difícil encontrar significância estatística com testes não paramétricos, mas os testes t com n = 8 são sensíveis a desvios da normalidade. Então, o que obtemos é que podemos dizer "bem, dependendo da suposição de normalidade, encontramos uma diferença estatisticamente significativa" (não se preocupe, esses geralmente são estudos piloto ...).
Então, precisamos de uma maneira de avaliar essa suposição. Estou no meio do campo que olhar para as parcelas é o melhor caminho a percorrer, mas, verdade seja dita, pode haver muita discordância sobre isso, o que pode ser muito problemático se uma das pessoas que discorda de você é a revisor de seu manuscrito.
De muitas maneiras, ainda acho que existem muitas falhas nos testes de normalidade: por exemplo, deveríamos pensar mais no erro do tipo II do que no tipo I. Mas há uma necessidade deles.
fonte
Pelo que vale a pena, uma vez desenvolvi um amostrador rápido para a distribuição normal truncada, e o teste de normalidade (KS) foi muito útil na depuração da função. Esse amostrador passa no teste com grandes tamanhos de amostra, mas, curiosamente, o amostrador de zigurate da GSL não.
fonte
O argumento que você deu é uma opinião. Penso que a importância do teste de normalidade é garantir que os dados não se afastem severamente do normal. Às vezes, eu o uso para decidir entre usar um teste paramétrico versus um não paramétrico para o meu procedimento de inferência. Eu acho que o teste pode ser útil em amostras moderadas e grandes (quando o teorema do limite central não entra em cena). Eu costumo usar os testes Wilk-Shapiro ou Anderson-Darling, mas executando o SAS eu os pego todos e eles geralmente concordam muito bem. Em uma nota diferente, acho que procedimentos gráficos como gráficos QQ funcionam igualmente bem. A vantagem de um teste formal é que ele é objetivo. Em amostras pequenas, é verdade que esses testes de qualidade de ajuste praticamente não têm poder e isso faz sentido intuitivo, porque uma amostra pequena de uma distribuição normal pode por acaso parecer bastante normal e isso é explicado no teste. Também a alta assimetria e curtose que distinguem muitas distribuições não normais das distribuições normais não são facilmente vistas em pequenas amostras.
fonte
Eu acho que uma abordagem de entropia máxima pode ser útil aqui. Podemos atribuir uma distribuição normal porque acreditamos que os dados são "normalmente distribuídos" (o que isso significa) ou porque esperamos apenas ver desvios da mesma magnitude. Além disso, como a distribuição normal possui apenas duas estatísticas suficientes, é insensível a alterações nos dados que não alteram essas quantidades. Portanto, de certa forma, você pode pensar em uma distribuição normal como uma "média" em todas as distribuições possíveis com o mesmo primeiro e segundo momentos. isso fornece uma razão pela qual os mínimos quadrados devem funcionar tão bem quanto ele.
fonte
Eu não diria que é inútil, mas realmente depende da aplicação. Observe que você nunca sabe realmente a distribuição da qual os dados vêm e tudo o que você tem é um pequeno conjunto de realizações. Sua média da amostra é sempre finita na amostra, mas a média pode ser indefinida ou infinita para alguns tipos de funções de densidade de probabilidade. Vamos considerar os três tipos de distribuição estável de Levy, ou seja, distribuição normal, distribuição de Levy e distribuição de Cauchy. A maioria das suas amostras não possui muitas observações na cauda (ou seja, fora da média da amostra). Então, empiricamente, é muito difícil distinguir entre os três, de modo que o Cauchy (com média indefinida) e o Levy (com média infinita) poderiam facilmente disfarçar-se como uma distribuição normal.
fonte
Penso que as 2 primeiras perguntas foram completamente respondidas, mas não acho que a questão 3 foi abordada. Muitos testes comparam a distribuição empírica a uma distribuição hipotética conhecida. O valor crítico para o teste Kolmogorov-Smirnov é baseado em F sendo completamente especificado. Pode ser modificado para testar contra uma distribuição paramétrica com parâmetros estimados. Portanto, se mais nebuloso significa estimar mais de dois parâmetros, a resposta para a pergunta é sim. Esses testes podem ser aplicados nas 3 famílias de parâmetros ou mais. Alguns testes foram projetados para ter melhor poder ao testar em uma família específica de distribuições. Por exemplo, ao testar a normalidade, o teste de Anderson-Darling ou Shapiro-Wilk tem maior poder que KS ou qui-quadrado quando a distribuição hipotética nula é normal.
fonte
Testes em que "algo" importante para a análise é suportado por altos valores de p são considerados errados. Como outros salientaram, para grandes conjuntos de dados, é garantido um valor p abaixo de 0,05. Portanto, o teste "recompensa" essencialmente por conjuntos de dados pequenos e difusos e "recompensa" por falta de evidência. Algo como gráficos qq são muito mais úteis. O desejo de números concretos para decidir coisas assim sempre (sim / não normal / não normal) deixa de notar que a modelagem é parcialmente uma arte e como as hipóteses são realmente suportadas.
fonte
Um bom uso do teste de normalidade que acho que não foi mencionado é determinar se o uso de z-scores está correto. Digamos que você selecionou uma amostra aleatória de uma população e deseja encontrar a probabilidade de selecionar um indivíduo aleatório da população e obter um valor de 80 ou mais. Isso pode ser feito apenas se a distribuição for normal, porque, para usar escores z, a suposição é de que a distribuição populacional é normal.
Mas então eu acho que posso ver isso sendo discutível também ...
fonte