Em Discovering Statistics Using SPSS, de Andy Field, ele afirma que todas as variáveis precisam ser transformadas.
No entanto, na publicação: "Examinando relações espacialmente variáveis entre uso da terra e qualidade da água usando regressão geograficamente ponderada I: desenho e avaliação de modelos", afirmam especificamente que apenas as variáveis não normais foram transformadas.
Essa análise é específica? Por exemplo, em uma comparação de médias, comparar logs com dados brutos obviamente produziria uma diferença significativa, enquanto, ao usar algo como regressão para investigar a relação entre variáveis, isso se torna menos importante.
Editar: Aqui está a página de texto completo na seção "Transformação de dados":
E aqui está o link para o artigo: http://www.sciencedirect.com/science/article/pii/S0048969708009121
fonte
Respostas:
Você cita vários conselhos, que sem dúvida são úteis, mas é difícil encontrar muito mérito em qualquer um deles.
Em cada caso, confio totalmente no que você cita como resumo. Em defesa dos autores, gostaria de acreditar que eles acrescentam qualificações apropriadas ao material circundante ou a outro material. (Referências bibliográficas completas nos formatos nome (s) usual (s), data, título, (editor, local) ou (título do periódico, volume, páginas) melhorariam a questão.)
Campo
Esse conselho é útil, mas é, na melhor das hipóteses, muito simplificado. O conselho de Field parece ter como objetivo geral; por exemplo, a referência ao teste de Levene implica algum foco temporário na análise de variância.
De maneira mais geral, é comum - em muitos campos, a situação usual - que alguns preditores sejam transformados e o restante seja deixado como está.
É verdade que encontrar em um artigo ou dissertação uma mistura de transformações aplicadas de maneira diferente a diferentes preditores (inclusive como um caso especial, transformação de identidade ou deixar como está) costuma ser motivo de preocupação para o leitor. A mistura é um conjunto de escolhas bem pensado ou foi arbitrária e caprichosa?
Além disso, em uma série de estudos, a consistência da abordagem (sempre aplicando logaritmos a uma resposta, ou nunca fazendo isso) ajuda enormemente na comparação de resultados, e diferentes abordagens a tornam mais difícil.
Mas isso não quer dizer que nunca possa haver razões para uma mistura de transformações.
Não vejo que a maior parte da seção que você cita tenha muita influência nos conselhos principais que você destaca em amarelo. Isso por si só é uma questão de preocupação: é um negócio estranho anunciar uma regra absoluta e depois não realmente explicá-la. Por outro lado, a liminar "Lembre-se" sugere que os fundamentos de Field foram fornecidos anteriormente no livro.
Artigo anônimo
O contexto aqui é modelos de regressão. Muitas vezes, falar em OLS enfatiza estranhamente o método de estimativa, e não o modelo, mas podemos entender o que se pretende. GWR I é interpretado como regressão geograficamente ponderada.
O argumento aqui é que você deve transformar preditores não normais e deixar os outros como estão. Novamente, isso levanta uma questão sobre o que você pode e deve fazer com as variáveis indicadoras, que não podem ser normalmente distribuídas (as quais, como acima, podem ser respondidas, apontando que a não normalidade nesse caso não é um problema). Mas a liminar tem o contrário ao sugerir que não é normalidade dos preditores que é o problema. Não tão; não faz parte da modelagem de regressão assumir algo sobre as distribuições marginais dos preditores.
Há tantos conselhos extraordinariamente bons sobre transformações neste fórum que me concentrei em discutir o que você cita.
PS: Você adiciona uma declaração iniciando "Por exemplo, em uma comparação de médias, comparar logs com dados brutos obviamente produziria uma diferença significativa". Não estou claro o que você tem em mente, mas comparar valores para um grupo com logaritmos de valores para outro grupo seria apenas absurdo. Eu não entendo o resto da sua declaração.
fonte
Antes de tudo, ambas as citações são enganosas, pois qualquer transformação aplicada aos dados destinados ao uso em um modelo de regressão não é feita para tornar os PDFs variáveis mais normalmente distribuídos, mas para tornar os resíduos do modelo mais simétricos, pois uma suposição na regressão clássica é que os erros são gaussianos. Isso implica em um nível mais profundo de rigor e rigor do que apenas simetrizar um PDF.
Além disso, ambas as citações são fracas, pois nenhuma delas se aprofunda nas motivações de suas prescrições (pelo menos com base nas informações fornecidas). Por acaso, eu discordo de ambos.
Na passagem que você destacou, o livro do SPSS afirma que misturas de transformações (por exemplo, log natural para uma variável, raiz quadrada para outra) não são permitidas. Por que isso é ilegal? Misturas de transformações não violam nenhuma suposição de regressão que eu conheço. Verifique todos os textos de regressão sobre suposições de regressão para confirmar que este é o caso. As misturas de transformação podem apresentar um problema descritivo substantivo em termos de interpretação, mas isso não é uma questão de saber se as misturas são ilegais ou não. O cara do SPSS está errado.
No que diz respeito ao segundo texto, novamente, as transformações são totalmente uma questão de escolha do analista - se uma delas é feita, transforma todas as entradas ou algumas variáveis e não outras. Nada disso viola nenhuma suposição.
Onde eu acho que a segunda citação sai dos trilhos, é a afirmação de que "... para evitar a potencial multicolinearidade ... apenas um indicador de uso da terra (foi usado) ..." Esse é um conselho flagrantemente ruim e soa como o tipo de coisa que alguns analistas farão como uma técnica de redução de dimensão, na qual fatorarão uma análise de várias variáveis e escolherão a variável de carregamento mais alta em cada fator. Essa heurística existe há anos e não é uma que eu uso ou recomendo. Novamente, isso é uma questão de preferência e treinamento de analistas. Mas este ponto não tem como objetivo responder a perguntas específicas.
No final do dia, ambas as citações passam a ser afirmações das opiniões dos autores na ausência de qualquer evidência de suporte, com base nas informações fornecidas.
fonte