Eu tenho alguns dados (158 casos) que foram derivados de uma resposta da escala Likert para 21 itens do questionário. Eu realmente quero / preciso realizar uma análise de regressão para ver quais itens do questionário preveem a resposta a um item geral (satisfação). As respostas não são normalmente distribuídas (de acordo com os testes KS) e eu a transformei de todas as maneiras possíveis (inversa, log, log10, sqrt, quadrado) e se recusa teimosamente a ser normalmente distribuída. O gráfico residual parece estar em todo lugar, então eu acredito que realmente não é legítimo fazer uma regressão linear e fingir que está se comportando normalmente (também não é uma distribuição de Poisson). Eu acho que isso ocorre porque as respostas estão muito agrupadas (a média é 3,91, IC 95% 3,88 a 3,95).
Portanto, acho que preciso de uma nova maneira de transformar meus dados ou de algum tipo de regressão não paramétrica, mas não conheço nada que possa fazer no SPSS.
fonte
Respostas:
Você não precisa assumir distribuições normais para fazer regressão. A regressão de mínimos quadrados é o estimador BLUE (melhor estimador linear e imparcial), independentemente das distribuições. Veja o Teorema de Gauss-Markov (por exemplo, wikipedia). Uma distribuição normal é usada apenas para mostrar que o estimador também é o estimador de probabilidade máxima. É um mal-entendido comum que o OLS, de alguma forma, assuma dados distribuídos normalmente. Isso não. É muito mais geral.
fonte
Em vez de confiar em um teste de normalidade dos resíduos, tente avaliar a normalidade com julgamento racional. Os testes de normalidade não informam que seus dados são normais, apenas que não. Mas, como os dados são uma amostra, você pode ter certeza de que não são realmente normais sem um teste. O requisito é aproximadamente normal. O teste não pode lhe dizer isso. Os testes também ficam muito sensíveis em N's grandes ou mais sérios, variam em sensibilidade com N. Seu N está nessa faixa em que a sensibilidade começa a ficar alta. Se você executar a simulação a seguir em R várias vezes e observar os gráficos, verá que o teste de normalidade está dizendo "não normal" em um bom número de distribuições normais.
Felizmente, depois de passar pelas simulações, você pode ver que um teste de normalidade pode facilmente rejeitar dados de aparência bastante normal e que os dados de uma distribuição normal podem parecer muito longe do normal. Se você quiser ver um valor extremo dessa tentativa
n <- 1000
. Todas as distribuições parecerão normais, mas ainda serão reprovadas no teste aproximadamente na mesma taxa que os valores N mais baixos. E, inversamente, com uma distribuição baixa de N que passa no teste, pode parecer muito longe do normal.O gráfico residual padrão no SPSS não é muito útil para avaliar a normalidade. Você pode ver valores extremos, o alcance, a qualidade do ajuste e talvez até a alavancagem. Mas a normalidade é difícil de derivar disso. Tente a seguinte simulação comparando histogramas, gráficos normais quantil-quantis e gráficos residuais.
É extraordinariamente difícil distinguir a normalidade, ou quase tudo, do último enredo e, portanto, não é terrivelmente diagnóstico da normalidade.
Em resumo, geralmente é recomendável não confiar em testes de normalidade, mas sim em gráficos de diagnóstico dos resíduos. Sem esses gráficos ou os valores reais em sua pergunta, é muito difícil alguém fornecer conselhos sólidos sobre o que seus dados precisam em termos de análise ou transformação. Para obter a melhor ajuda, forneça os dados brutos.
fonte
Primeiro, a regressão OLS não faz suposições sobre os dados, faz suposições sobre os erros, estimados por resíduos.
Segundo, transformar dados para ajustar um modelo é, na minha opinião, a abordagem errada. Você quer que seu modelo se adapte ao seu problema, e não o contrário. Antigamente, a regressão do OLS era "o único jogo na cidade" por causa dos computadores lentos, mas isso não é mais verdade.
Terceiro, eu não uso o SPSS, então não posso ajudar lá, mas ficaria surpreso se ele não oferecesse algumas formas de regressão não linear. Algumas possibilidades são regressão quantílica, árvores de regressão e regressão robusta.
Quarto, estou um pouco preocupado com sua afirmação:
Se os itens foram somados ou de alguma forma combinados para fazer a escala geral, a regressão não é a abordagem correta. Você provavelmente deseja análise fatorial.
fonte
Em termos gerais, existem duas abordagens possíveis para o seu problema: uma que seja bem justificada do ponto de vista teórico, mas potencialmente impossível de implementar na prática, enquanto a outra é mais heurística.
A abordagem teoricamente ideal (que você provavelmente não será capaz de usar, infelizmente) é calcular uma regressão revertendo para a aplicação direta do chamado método da máxima verossimilhança. A conexão entre a estimativa de máxima verossimilhança (que é realmente o conceito matemático antecedente e mais fundamental) e a regressão de mínimos quadrados ordinários (OLS) (a abordagem usual, válida para o caso específico, mas extremamente comum, em que as variáveis de observação são todas aleatoriamente independentes e normalmente distribuídas ) é descrito em muitos livros de estatística; uma discussão que eu particularmente gosto é a seção 7.1 da "Análise Estatística de Dados", de Glen Cowan. Nos casos em que suas variáveis de observação não são normalmente distribuídas,
Nesse caso, como você não parece realmente conhecer a distribuição subjacente que governa suas variáveis de observação (ou seja, a única coisa com certeza é que definitivamente não é gaussiana, mas não o que realmente é), a abordagem acima ganhou ' não funciona para você. Geralmente, quando o OLS falha ou retorna um resultado maluco, é por causa de muitos pontos fora de série. Os pontos outlier, que são o que realmente quebram a suposição de variáveis de observação normalmente distribuídas, contribuem com muito peso para o ajuste, porque os pontos no OLS são ponderados pelos quadrados de seu desvio da curva de regressão e, para os outliers, esse desvio é grande. A abordagem heurística usual nesse caso é desenvolver algum ajuste ou modificação no OLS, o que resulta na contribuição dos pontos extremos para se tornar menos enfatizada ou des ponderada, em relação ao método OLS da linha de base. Coletivamente, esses são geralmente conhecidos comoregressão robusta . Uma lista contendo alguns exemplos de técnicas de estimativa robustas específicas que você pode querer experimentar pode ser encontrada aqui .
fonte