Transformando dados de proporção: quando a raiz quadrada arcsin não é suficiente

20

Existe uma alternativa (mais forte?) Para a transformação da raiz quadrada do arcsin para dados de porcentagem / proporção? No conjunto de dados em que estou trabalhando no momento, a heterocedasticidade acentuada permanece após a aplicação dessa transformação, ou seja, o gráfico de resíduos versus valores ajustados ainda é muito romboidal.

Editado para responder aos comentários: os dados são decisões de investimento de participantes experimentais que podem investir de 0 a 100% de uma doação em múltiplos de 10%. Também examinei esses dados usando regressão logística ordinal, mas gostaria de ver o que um glm válido produziria. Além disso, eu pude ver a resposta útil para trabalhos futuros, pois o arcsin square root parece ser usado como uma solução única para o meu campo e não encontrei nenhuma alternativa empregada.

Freya Harrison
fonte
2
Quais são os valores ajustados? Qual é o seu modelo? O arcsin é (aproximadamente) a estabilização da variação para o binômio, mas você ainda terá efeitos de "borda" se as proporções estiverem próximas de 0 ou 1 - porque a parte normal fica efetivamente truncada.
probabilityislogic
1
Permitam-me dobrar o que o @probabilityislogic disse e também perguntar sobre a origem dos dados. Pode haver algo no problema que sugira outra transformação, ou outro modelo inteiramente, que possa ser mais apropriado e / ou interpretável.
JMS
1
@prob @JMS Por que não deixamos o OP, que acredito ter bastante conhecimento sobre estatísticas, primeiro tentar a rota de transformação? Então, se isso não funcionar, seria proveitoso iniciar um novo segmento no qual o problema é apresentado de maneira menos restrita. Seus comentários seriam apropriados nesse contexto.
whuber
1
Existem enormes problemas com a transformação da raiz quadrada do arcsine, descrita sem rodeios no divertido artigo intitulado The arcsine is asinine: the analysis of proportions in ecology
mkt - Reinstate Monica
1
@mkt Obrigado pela referência, isso foi direto para a palestra do próximo ano sobre modelos lineares generalizados.
Freya Harrison

Respostas:

28

Certo. John Tukey descreve uma família de transformações (crescentes, um para um) na EDA . É baseado nestas idéias:

  1. Ser capaz de estender as caudas (em direção a 0 e 1) conforme controlado por um parâmetro.

  2. No entanto, para coincidir com os valores originais (não transformados) perto do meio ( 1/2 ), o que torna a transformação mais fácil de interpretar.

  3. Para tornar a reexpressão simétrica em torno de 1/2. Ou seja, se p for reexpresso como f(p) , então 1p será reexpresso como f(p) .

Se você começar com qualquer aumento monotônica função g:(0,1)R diferenciável em 1/2 você pode ajustá-lo para atender o segundo e terceiro critérios: basta definir

f(p)=g(p)g(1p)2g(1/2).

O numerador é explicitamente simétrico (critério (3) ), porque trocar p com 1p inverte a subtração, negando-a. Para ver que (2) é satisfeita, nota que o denominador é precisamente o factor necessário para fazer f(1/2)=1. Recorde-se que os derivados aproxima do comportamento local de uma função com uma função linear; uma inclinação de 1=1:1 significa que f(p)p(mais uma constante 1/2 ) quando p é suficientemente perto de 1/2. Este é o sentido no qual os valores originais são "combinado perto do meio."

Tukey chama isso de versão "dobrada" de g . Sua família consiste nas transformações de potência e logarítmica g(p)=pλ onde, quando λ=0 , consideramos g(p)=log(p) .

Vejamos alguns exemplos. Quando λ=1/2 temos a raiz dobrado, ou "froot," f(p)=1/2(p1p). Quandoλ=0, temos o logaritmo dobrado, ou "flog",f(p)=(log(p)log(1p))/4. Evidentemente, esse é apenas um múltiplo constante datransformaçãodologit,log(p1p).

Gráficos para lambda = 1, 1/2, 0 e arcsin

Neste gráfico dos corresponde linha azul para λ=1 , a linha vermelha intermediário para λ=1/2 , e a linha extrema verde para λ=0 . A linha pontilhada de ouro é a transformação arcsine , arcsin(2p1)/2=arcsin(p)arcsin(1/2). O "correspondente" de pistas (critério(2)) faz com que todos os gráficos para perto coincidemp=1/2.

Os valores mais úteis do parâmetro λ estão entre 1 e 0 . (Você pode fazer as caudas ainda mais pesado com valores negativos de λ , mas este uso é raro.) λ=1 não faz nada em tudo, exceto a recentralização dos valores ( f(p)=p1/2 ). À medida que λ encolhe em direção a zero, as caudas são puxadas ainda mais em direção a ± . Isso satisfaz o critério nº 1. Assim, escolhendo um valor apropriado de λ , você pode controlar a "força" dessa reexpressão nas caudas.

whuber
fonte
whuber, conhece alguma função R que faça essa automaticamente?
John
1
@ John Não, não, mas é simples o suficiente para implementar.
whuber
2
Eu não via isso como basicamente difícil, mas seria bom se houvesse algo como as transformações boxcox que traçam automaticamente a melhor seleção para lambda. Sim, não é terrível de implementar ... #
John
2
Obrigado whuber, este é exatamente o tipo de coisa que eu estava procurando e o gráfico é realmente útil. Definitivamente, concordo com John que algo como o boxcox seria útil, mas isso parece bastante simples de resolver.
Freya Harrison
7

Uma maneira de incluir é incluir uma transformação indexada. Uma maneira geral é usar qualquer função de distribuição cumulativa simétrica (inversa), de modo que e F ( x ) = 1 - F ( - x ) . Um exemplo é a distribuição padrão do aluno t, com ν graus de liberdade. O parâmetro v controla a rapidez com que a variável transformada se desloca para o infinito. Se você definir v = 1 , terá a transformação arctan:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Isso é muito mais extremo que o arcsine e mais extremo que a transformação de logit. Observe que a transformação logit pode ser aproximada usando a distribuição t com . SO, de alguma forma, fornece um link aproximado entre as transformações logit e probit ( ν = ) e uma extensão delas para transformações mais extremas.ν8ν=

O problema com essas transformações é que elas dão quando a proporção observada é igual a 1 ou 0 . Então você precisa de alguma forma encolher esses de alguma maneira - a maneira mais simples é adicionar + 1 "sucessos" e + 1 "falhas".±10+1+1

probabilityislogic
fonte
2
Por vários motivos, Tukey recomenda adicionar +1/6 às contagens. Observe que esta resposta é um caso especial da abordagem dobrável de Tukey que eu descrevi: qualquer CDF com PDF positivo é monotônico; dobrar um CDF simétrico deixa inalterado.
whuber
2
Fiquei me perguntando de onde vem sua aproximação aproximada. Como você chega no ? Eu não posso reproduzir isso. Eu aceito que a aproximação deve quebrar nos extremos de p perto de 0 ou 1 , mas eu acho que ν = 5 é uma melhor adequação muito para o logit para p próximo de 1 / 2 . Você está talvez otimizando alguma medida da diferença média entre o CDF de t ν e logit ? ν8p01ν=5p1/2tνlogit
whuber
2
@ Whuber - você me dá muito crédito. Minha sugestão foi baseada em um gráfico do pdf de , um gráfico do pdf logístico f ( x ) = e - x ( 1 + e - x ) - 2 e um gráfico do pdf normal padrão. 5 graus de liberdade coincidem com o excesso de curtose e podem muito bem ser melhores. t8f(x)=ex(1+ex)25
probabilityislogic
5
@whuber Uma razão para adicionar 1/6 às contagens é que a contagem "iniciada" resultante se aproxima da mediana posterior, assumindo uma distribuição binomial com Jeffreys anterior (escrevo um pouco sobre isso aqui: sumsar.net/blog/2013/09/ a-bayesian-twist-on-tukeys-flogs ). No entanto, não sei se esse foi o motivo de Tukey para adicionar 1/6. Você sabe qual poderia ter sido a razão dele?
Rasmus Baath
4
@Rasmuth Na EDA , p. 496, Tukey escreve "O [uso] que aqui recomendamos tem uma desculpa, mas como essa desculpa (i) é indireta e (ii) envolve considerações mais sofisticadas, não falaremos mais sobre isso. O que recomendamos é adicionar 1 / 6 para todas as contagens divididas, 'iniciando-as' ". (Uma "contagem dividida" de qualquer valor é o número de x i < x mais a metade do número de x i = x em um lote de dados ( x i ) .) Não me lembro de ter encontrado essas "considerações sofisticadas" em outros papéis ou livros de Tukey que li, mas sempre imaginei que eles poderiam estar relacionados a pontos de plotagem de probabilidade.xxi<xxi=x(xi)
whuber