Expresse respostas em termos de unidades originais, em dados transformados Box-Cox

13

Para algumas medições, os resultados de uma análise são apresentados adequadamente na escala transformada. Na maioria dos casos, no entanto, é desejável apresentar os resultados na escala de medida original (caso contrário, seu trabalho é mais ou menos inútil).

Por exemplo, no caso de dados transformados em log, surge um problema com a interpretação na escala original porque a média dos valores registrados não é o log da média. Tomar o antilogaritmo da estimativa da média na escala logarítmica não fornece uma estimativa da média na escala original.

Se, no entanto, os dados transformados em log tiverem distribuições simétricas, os seguintes relacionamentos serão mantidos (já que o log preserva a ordem):

Significar[registro(Y)]=Mediana[registro(Y)]=registro[Mediana(Y)]

(o antilogaritmo da média dos valores do log é a mediana na escala original de medições).

Portanto, só posso fazer inferências sobre a diferença (ou a proporção) das medianas na escala de medida original.

Os testes t de duas amostras e os intervalos de confiança são mais confiáveis ​​se as populações forem aproximadamente normais com desvios aproximadamente padrão, portanto, podemos ficar tentados a usar o método Box-Cox transformação para manter a suposição de normalidade (também acho que é uma transformação estabilizadora de variância) )

No entanto, se aplicarmos ferramentas t para Box-Cox dados transformados, obteremos inferências sobre a diferença de médias dos dados transformados. Como podemos interpretar aqueles na escala original de medida? (A média dos valores transformados não é a média transformada). Em outras palavras, tomar a transformação inversa da estimativa da média, na escala transformada, não fornece uma estimativa da média na escala original.

Também posso fazer inferências apenas sobre as medianas neste caso? Existe uma transformação que me permita voltar aos meios (na escala original)?

Esta pergunta foi inicialmente publicada como um comentário aqui

George Dontas
fonte

Respostas:

11

Se você deseja inferências especificamente sobre a média da variável original, não use a transformação Box-Cox. As transformações IMO Box-Cox são mais úteis quando a variável transformada tem sua própria interpretação, e a transformação Box-Cox apenas ajuda a encontrar a escala certa para análise - esse é o caso surpreendentemente frequente. Dois expoentes inesperados que encontrei dessa maneira foram 1/3 (quando a variável resposta foi volume da bexiga) e -1 (quando a variável resposta foi respiração por minuto).

A transformação de log é provavelmente a única exceção a isso. A média na escala logarítmica corresponde à média geométrica na escala original, que é pelo menos uma quantidade bem definida.

Aniko
fonte
Bem, você tem outras exceções também. -1 corresponde à média harmônica, ...
kjetil b halvorsen
9

Se a transformação Box-Cox produz uma distribuição simétrica, a média dos dados transformados é retrotraduzida para a mediana na escala original. Isso é verdade para qualquer transformação monotônica, incluindo as transformações de Box-Cox, IHS, etc. Portanto, inferências sobre os meios nos dados transformados correspondem a inferências sobre a mediana na escala original.

Como os dados originais foram distorcidos (ou você não usaria uma transformação de Box-Cox em primeiro lugar), por que deseja inferências sobre os meios? Eu teria pensado que trabalhar com medianas faria mais sentido nessa situação. Não entendo por que isso é visto como um "problema de interpretação na escala original".

Rob Hyndman
fonte
λ
Obrigado. Talvez porque a amostra (de uma população que eu acho que deveria seguir uma distribuição aproximadamente simétrica) possa ter sido distorcida por acaso.
George Dontas
4
Um bom exemplo de uma necessidade de fazer inferências sobre os meios, não importa como, é oferecido por algumas avaliações de risco ambiental. Para simplificar bastante, imagine que você está planejando transformar um terreno em um parque. Você testa os solos em busca de algum composto de preocupação e, como geralmente acontece, descobre que sua concentração é distribuída aproximadamente lognormalmente. No entanto, as pessoas que usam o parque - que podem se expor diretamente a esses solos - efetivamente "amostram" os solos uniformemente aleatoriamente, enquanto se movimentam. Sua exposição ao longo do tempo será a concentração média aritmética, não a média geométrica.
whuber
1
Às vezes, estamos interessados ​​em problemas que surgem de formulações da quantidade total de algo. Se você souber a média, poderá ir da média para o total (multiplicando pelo número de observações). Não há como ir da mediana para o total!
George Dontas
6

Se você quiser fazer inferência sobre médias na escala original, considere usar inferência que não use uma suposição de normalidade.

Tome cuidado, no entanto. Simplesmente conectar através de uma comparação direta de meios via digamos reamostragem (testes de permutação ou autoinicialização) quando as duas amostras tiverem variações diferentes pode ser um problema se sua análise pressupuser que as variações sejam iguais (e variações iguais na escala transformada serão variações diferentes) na escala original, se os meios diferirem). Tais técnicas não evitam a necessidade de pensar no que você está fazendo.

f(x+h)t[μ+(Y-μ)]Yμσ2t()

t(μ) é uma constante - deixando você com uma aproximação de termo único para a variação.

-

O caso mais fácil é quando você tem normalidade na escala logarítmica e, portanto, um lognormal na escala original. Se sua variação for conhecida (o que ocorre muito raramente, na melhor das hipóteses), você poderá construir CIs e IPs normais na escala original e fornecer uma média prevista a partir da média da distribuição da quantidade relevante.

Se você estiver estimando a média e a variância na escala de log, poderá construirtt

Você precisa pensar com muito cuidado sobre exatamente qual pergunta está tentando responder.

Glen_b -Reinstate Monica
fonte