Como executo uma regressão em dados não normais que permanecem não normais quando transformados?

15

Eu tenho alguns dados (158 casos) que foram derivados de uma resposta da escala Likert para 21 itens do questionário. Eu realmente quero / preciso realizar uma análise de regressão para ver quais itens do questionário preveem a resposta a um item geral (satisfação). As respostas não são normalmente distribuídas (de acordo com os testes KS) e eu a transformei de todas as maneiras possíveis (inversa, log, log10, sqrt, quadrado) e se recusa teimosamente a ser normalmente distribuída. O gráfico residual parece estar em todo lugar, então eu acredito que realmente não é legítimo fazer uma regressão linear e fingir que está se comportando normalmente (também não é uma distribuição de Poisson). Eu acho que isso ocorre porque as respostas estão muito agrupadas (a média é 3,91, IC 95% 3,88 a 3,95).

Portanto, acho que preciso de uma nova maneira de transformar meus dados ou de algum tipo de regressão não paramétrica, mas não conheço nada que possa fazer no SPSS.

Rachel S
fonte
11
Considere uma transformação de Box-Cox ( en.wikipedia.org/wiki/… ). Adicionar a plotagem residual à sua pergunta pode ser útil.
22813 Berk M.
3
Sim, mostre-nos seu gráfico de resíduos. talvez também um gráfico qq.
David Marx
5
Se seus valores são discretos, especialmente se eles são esmagados em uma extremidade, pode não haver transformação que torne o resultado ainda mais ou menos normal. Porém, os testes formais de hipóteses de normalidade não respondem à pergunta correta e condicionam seus outros procedimentos condicionais à rejeição da normalidade para não ter mais suas propriedades nominais.
Glen_b -Reinstate Monica
11
a regressão logística de probabilidades proporcionais provavelmente seria uma abordagem sensata a essa pergunta, mas não sei se ela está disponível no SPSS.
quer
3
Não estou convencido de que a regressão seja correta, e não por causa das preocupações de normalidade. As respostas do seu questionário podem até não ser cardeais. Por exemplo, se você perguntar a um cara 'Você está feliz? "E obter a resposta 3, enquanto no mês passado foi 4, isso significa que ele está 25% menos feliz? Provavelmente não. Então, antes mesmo de começar a pensar na normalidade, você precisa descobrir se está lidando com números de cardeais e não apenas com ordinais. Existem maneiras especiais de lidar com pensamentos como pesquisas e a regressão não é a escolha padrão. Você deve mostrar que é apropriado primeiro.
Aksakal

Respostas:

32

Você não precisa assumir distribuições normais para fazer regressão. A regressão de mínimos quadrados é o estimador BLUE (melhor estimador linear e imparcial), independentemente das distribuições. Veja o Teorema de Gauss-Markov (por exemplo, wikipedia). Uma distribuição normal é usada apenas para mostrar que o estimador também é o estimador de probabilidade máxima. É um mal-entendido comum que o OLS, de alguma forma, assuma dados distribuídos normalmente. Isso não. É muito mais geral.

Dave31415
fonte
2
Isto é tão verdade. Muitas pessoas ignoram esse FATO.
Re
concorde com @Repmat. Não sei se já passei em um teste de normalidade ... mas meus modelos funcionam.
HEITZ
5

Em vez de confiar em um teste de normalidade dos resíduos, tente avaliar a normalidade com julgamento racional. Os testes de normalidade não informam que seus dados são normais, apenas que não. Mas, como os dados são uma amostra, você pode ter certeza de que não são realmente normais sem um teste. O requisito é aproximadamente normal. O teste não pode lhe dizer isso. Os testes também ficam muito sensíveis em N's grandes ou mais sérios, variam em sensibilidade com N. Seu N está nessa faixa em que a sensibilidade começa a ficar alta. Se você executar a simulação a seguir em R várias vezes e observar os gráficos, verá que o teste de normalidade está dizendo "não normal" em um bom número de distribuições normais.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Felizmente, depois de passar pelas simulações, você pode ver que um teste de normalidade pode facilmente rejeitar dados de aparência bastante normal e que os dados de uma distribuição normal podem parecer muito longe do normal. Se você quiser ver um valor extremo dessa tentativa n <- 1000. Todas as distribuições parecerão normais, mas ainda serão reprovadas no teste aproximadamente na mesma taxa que os valores N mais baixos. E, inversamente, com uma distribuição baixa de N que passa no teste, pode parecer muito longe do normal.

O gráfico residual padrão no SPSS não é muito útil para avaliar a normalidade. Você pode ver valores extremos, o alcance, a qualidade do ajuste e talvez até a alavancagem. Mas a normalidade é difícil de derivar disso. Tente a seguinte simulação comparando histogramas, gráficos normais quantil-quantis e gráficos residuais.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

É extraordinariamente difícil distinguir a normalidade, ou quase tudo, do último enredo e, portanto, não é terrivelmente diagnóstico da normalidade.

Em resumo, geralmente é recomendável não confiar em testes de normalidade, mas sim em gráficos de diagnóstico dos resíduos. Sem esses gráficos ou os valores reais em sua pergunta, é muito difícil alguém fornecer conselhos sólidos sobre o que seus dados precisam em termos de análise ou transformação. Para obter a melhor ajuda, forneça os dados brutos.

John
fonte
Olá, obrigado a todos pelas sugestões. Acabei olhando meus resíduos como sugerido e usando a sintaxe acima com minhas variáveis. Meus dados não eram tão desastrosamente normais como eu pensava, então usei minhas regressões lineares paramétricas com muito mais confiança e consciência limpa! Obrigado novamente.
Rachel S
4

Primeiro, a regressão OLS não faz suposições sobre os dados, faz suposições sobre os erros, estimados por resíduos.

Segundo, transformar dados para ajustar um modelo é, na minha opinião, a abordagem errada. Você quer que seu modelo se adapte ao seu problema, e não o contrário. Antigamente, a regressão do OLS era "o único jogo na cidade" por causa dos computadores lentos, mas isso não é mais verdade.

Terceiro, eu não uso o SPSS, então não posso ajudar lá, mas ficaria surpreso se ele não oferecesse algumas formas de regressão não linear. Algumas possibilidades são regressão quantílica, árvores de regressão e regressão robusta.

Quarto, estou um pouco preocupado com sua afirmação:

Eu realmente quero / preciso realizar uma análise de regressão para ver quais itens do questionário preveem a resposta a um item geral (satisfação)

Se os itens foram somados ou de alguma forma combinados para fazer a escala geral, a regressão não é a abordagem correta. Você provavelmente deseja análise fatorial.

Peter Flom - Restabelece Monica
fonte
você sugeriu que ele pode querer análise fatorial, mas a análise fatorial também não é afetada se os dados não forem normalmente distribuídos?
racionalizar
Você pode fazer uma análise fatorial de dados que nem são contínuos. Mas essa é uma discussão separada - e foi discutida aqui.
Peter Flom - Restabelece Monica
11
Olá Peter, agradeço sua experiência e agradeço muito seus conselhos. Obrigado por reservar um tempo para responder. Só para esclarecer, eu sei que é possível fazer AF em itens não-normalmente distribuídos (assim como a discussão sobre a normalidade dos resíduos). Eu estava curioso para aprender (de alguém com sua experiência) se o OP não entraria no mesmo dilema. Mas, eu suponho que você já respondeu :)
Streamline
1

Em termos gerais, existem duas abordagens possíveis para o seu problema: uma que seja bem justificada do ponto de vista teórico, mas potencialmente impossível de implementar na prática, enquanto a outra é mais heurística.

A abordagem teoricamente ideal (que você provavelmente não será capaz de usar, infelizmente) é calcular uma regressão revertendo para a aplicação direta do chamado método da máxima verossimilhança. A conexão entre a estimativa de máxima verossimilhança (que é realmente o conceito matemático antecedente e mais fundamental) e a regressão de mínimos quadrados ordinários (OLS) (a abordagem usual, válida para o caso específico, mas extremamente comum, em que as variáveis ​​de observação são todas aleatoriamente independentes e normalmente distribuídas ) é descrito em muitos livros de estatística; uma discussão que eu particularmente gosto é a seção 7.1 da "Análise Estatística de Dados", de Glen Cowan. Nos casos em que suas variáveis ​​de observação não são normalmente distribuídas,

Nesse caso, como você não parece realmente conhecer a distribuição subjacente que governa suas variáveis ​​de observação (ou seja, a única coisa com certeza é que definitivamente não é gaussiana, mas não o que realmente é), a abordagem acima ganhou ' não funciona para você. Geralmente, quando o OLS falha ou retorna um resultado maluco, é por causa de muitos pontos fora de série. Os pontos outlier, que são o que realmente quebram a suposição de variáveis ​​de observação normalmente distribuídas, contribuem com muito peso para o ajuste, porque os pontos no OLS são ponderados pelos quadrados de seu desvio da curva de regressão e, para os outliers, esse desvio é grande. A abordagem heurística usual nesse caso é desenvolver algum ajuste ou modificação no OLS, o que resulta na contribuição dos pontos extremos para se tornar menos enfatizada ou des ponderada, em relação ao método OLS da linha de base. Coletivamente, esses são geralmente conhecidos comoregressão robusta . Uma lista contendo alguns exemplos de técnicas de estimativa robustas específicas que você pode querer experimentar pode ser encontrada aqui .

stachyra
fonte