Por que a transformação de raiz quadrada é recomendada para dados de contagem?

57

Em geral, é recomendável obter a raiz quadrada quando você tiver dados de contagem. (Para alguns exemplos no CV, consulte a resposta de @ HarveyMotulsky aqui ou a resposta de @ whuber aqui .) Por outro lado, ao ajustar um modelo linear generalizado com uma variável de resposta distribuída como Poisson, o log é o link canônico . É como fazer uma transformação de log de seus dados de resposta (embora com mais precisão seja uma transformação de log de , o parâmetro que governa a distribuição de resposta). Assim, há alguma tensão entre esses dois. λ

  • Como você concilia essa discrepância (aparente)?
  • Por que a raiz quadrada seria melhor que o logaritmo?
- Reinstate Monica
fonte

Respostas:

45

A raiz quadrada é aproximadamente estabilizadora de variância para o Poisson . Existem várias variações na raiz quadrada que aprimoram as propriedades, como adicionar38 antes de obter a raiz quadrada ou o Freeman-Tukey ( - embora também seja frequentemente ajustado para a média).X+X+1

insira a descrição da imagem aqui

A transformação da raiz quadrada melhora um pouco a simetria - embora não tão bem quanto o poder [1]:23

insira a descrição da imagem aqui

Se você deseja particularmente uma quase normalidade (desde que o parâmetro do Poisson não seja muito pequeno) e não se importe / possa ajustar a heterocedasticidade, tente power.23

O link canônico geralmente não é uma transformação particularmente boa para os dados de Poisson ; o log zero é um problema específico (outro é a heterocedasticidade; você também pode ter inclinação à esquerda mesmo quando não possui zeros). Se os menores valores não estiverem muito próximos de 0, pode ser útil para linearizar a média. É uma boa 'transformação' para a média da população condicional de um Poisson em vários contextos, mas nem sempre dos dados de Poisson. No entanto, se você deseja transformar, uma estratégia comum é adicionar uma constante que evita o problema . Nesse caso, devemos considerar qual constante adicionar. Sem ficar muito longe da questão em questão, valores de entrey=log(y+c)0c0.4e funcionam muito bem (por exemplo, em relação ao viés na estimativa da inclinação) em uma faixa de valores de . Normalmente, uso apenas pois é simples, com valores em torno de muitas vezes se saindo um pouco melhor.0.5μ120.43

Quanto ao motivo pelo qual as pessoas escolhem uma transformação em detrimento de outra (ou nenhuma) - isso é realmente uma questão do que elas estão fazendo para alcançar.

[1]: Gráficos padronizados após os gráficos de Henrik Bengtsson em seu folheto "Modelos lineares generalizados e resíduos transformados", veja aqui (veja o primeiro slide na p4). Eu adicionei um pouco de instabilidade e omiti as linhas.

Glen_b
fonte
11
OK, estive pensando sobre o que você colocou aqui, e aqui está minha síntese: As transformações ótimas diferem nessas 2 situações b / c, o que você está tentando alcançar difere. O sqrt é melhor para estabilizar a variação e normalizar a distribuição. O log mapeia o intervalo para que permite que a transformação da média, , seja linear nos parâmetros do modelo. O sqrt não possui essa propriedade. Com GLiM, não importa que a variação não seja constante, porque a distribuição da resposta é definida como Poisson. Isso é certo? (0,+)(,+)λ
gung - Restabelece Monica
2
O que será linear nos parâmetros depende do modelo . É perfeitamente possível que essa linearidade esteja na escala original ou na raiz quadrada ou em outra escala. Mesmo a propriedade - útil / importante - 'mapeia para a linha real' não é exclusiva da função de log. A razão pela qual o link de log é 'natural' é devido à maneira como simplifica o GLM, tendo uma estatística suficiente de . Xy
Glen_b
11
+1 A raiz quadrada é apenas um ponto de partida para lidar com dados de contagem. O logaritmo também é uma boa escolha. Os dados geralmente informam qual deles é mais bem-sucedido na obtenção de uma descrição útil e sucinta. Gung, na resposta a que você se refere , a demonstração de que a raiz quadrada era uma boa escolha está na distribuição simétrica dos resíduos não periféricos aparentes na figura da direita. Ao variar os parâmetros da simulação, você descobrirá que a simetria é mantida.
whuber
11
@ Glen Eu não disse que os logs são sempre uma boa escolha. Mas às vezes são superiores às raízes. Quando a contagem zero aparecer, sim, você precisará de um logaritmo "iniciado" . Outros threads aqui discutiram maneiras de obter um valor inicial . Quando não houver contagem zero nos dados, não haverá problemas com os logs.
whuber
2
@Tomas Quanto ao porquê Freeman-Tukey ou 3/8 vez de ou para outros , existem boas razões para Freeman-Tukey e (por exemplo, para fazer com que a distorção se aproxime de 0), mas se você quiser entrar em detalhes, essa seria uma pergunta totalmente nova. x+3/8xx+ccx+3/8
Glen_b