Existe uma alternativa (mais forte?) Para a transformação da raiz quadrada do arcsin para dados de porcentagem / proporção? No conjunto de dados em que estou trabalhando no momento, a heterocedasticidade acentuada permanece após a aplicação dessa transformação, ou seja, o gráfico de resíduos versus valores ajustados ainda é muito romboidal.
Editado para responder aos comentários: os dados são decisões de investimento de participantes experimentais que podem investir de 0 a 100% de uma doação em múltiplos de 10%. Também examinei esses dados usando regressão logística ordinal, mas gostaria de ver o que um glm válido produziria. Além disso, eu pude ver a resposta útil para trabalhos futuros, pois o arcsin square root parece ser usado como uma solução única para o meu campo e não encontrei nenhuma alternativa empregada.
fonte
Respostas:
Certo. John Tukey descreve uma família de transformações (crescentes, um para um) na EDA . É baseado nestas idéias:
Ser capaz de estender as caudas (em direção a 0 e 1) conforme controlado por um parâmetro.
No entanto, para coincidir com os valores originais (não transformados) perto do meio (1/2 ), o que torna a transformação mais fácil de interpretar.
Para tornar a reexpressão simétrica em torno de1/2. Ou seja, se p for reexpresso como f(p) , então 1−p será reexpresso como −f(p) .
Se você começar com qualquer aumento monotônica funçãog:(0,1)→R diferenciável em 1/2 você pode ajustá-lo para atender o segundo e terceiro critérios: basta definir
O numerador é explicitamente simétrico (critério(3) ), porque trocar p com 1−p inverte a subtração, negando-a. Para ver que (2) é satisfeita, nota que o denominador é precisamente o factor necessário para fazer f′(1/2)=1. Recorde-se que os derivados aproxima do comportamento local de uma função com uma função linear; uma inclinação de 1=1:1 significa que f(p)≈p (mais uma constante −1/2 ) quando p é suficientemente perto de 1/2. Este é o sentido no qual os valores originais são "combinado perto do meio."
Tukey chama isso de versão "dobrada" deg . Sua família consiste nas transformações de potência e logarítmica g(p)=pλ onde, quando λ=0 , consideramos g(p)=log(p) .
Vejamos alguns exemplos. Quandoλ=1/2 temos a raiz dobrado, ou "froot," f(p)=1/2−−−√(p–√−1−p−−−−√) . Quandoλ=0 , temos o logaritmo dobrado, ou "flog",f(p)=(log(p)−log(1−p))/4. Evidentemente, esse é apenas um múltiplo constante datransformaçãodologit,log(p1−p) .
Neste gráfico dos corresponde linha azul paraλ=1 , a linha vermelha intermediário para λ=1/2 , e a linha extrema verde para λ=0 . A linha pontilhada de ouro é a transformação arcsine , arcsin(2p−1)/2=arcsin(p–√)−arcsin(1/2−−−√) . O "correspondente" de pistas (critério(2) ) faz com que todos os gráficos para perto coincidemp=1/2.
Os valores mais úteis do parâmetroλ estão entre 1 e 0 . (Você pode fazer as caudas ainda mais pesado com valores negativos de λ , mas este uso é raro.) λ=1 não faz nada em tudo, exceto a recentralização dos valores ( f(p)=p−1/2 ). À medida que λ encolhe em direção a zero, as caudas são puxadas ainda mais em direção a ±∞ . Isso satisfaz o critério nº 1. Assim, escolhendo um valor apropriado de λ , você pode controlar a "força" dessa reexpressão nas caudas.
fonte
Uma maneira de incluir é incluir uma transformação indexada. Uma maneira geral é usar qualquer função de distribuição cumulativa simétrica (inversa), de modo que e F ( x ) = 1 - F ( - x ) . Um exemplo é a distribuição padrão do aluno t, com ν graus de liberdade. O parâmetro v controla a rapidez com que a variável transformada se desloca para o infinito. Se você definir v = 1 , terá a transformação arctan:F(0)=0.5 F(x)=1−F(−x) ν v v=1
Isso é muito mais extremo que o arcsine e mais extremo que a transformação de logit. Observe que a transformação logit pode ser aproximada usando a distribuição t com . SO, de alguma forma, fornece um link aproximado entre as transformações logit e probit ( ν = ∞ ) e uma extensão delas para transformações mais extremas.ν≈8 ν=∞
O problema com essas transformações é que elas dão quando a proporção observada é igual a 1 ou 0 . Então você precisa de alguma forma encolher esses de alguma maneira - a maneira mais simples é adicionar + 1 "sucessos" e + 1 "falhas".±∞ 1 0 +1 +1
fonte