Se meu objetivo é testar a alteração absoluta das proporções, posso comparar as proporções diretamente sem transformação de log?

7

As taxas (por exemplo, = / ) são frequentemente usadas (por exemplo, alterações na expressão do RNAm ou da proteína, índice de massa corporal [IMC], etc.). Muitas pessoas aconselham que variáveis ​​codificadas como proporções (por exemplo, mudança de dobra) devem ser transformadas em log, porque estão fortemente inclinadas para a direita. No entanto, proporções ( / ) são mudanças relativas e distribuições de proporções não são normais (en.wikipedia.org/wiki/Ratio_distribution). Se e são lognormal, então log ( / ) é normal (é / lognormal depois de considerar o viés de retransformação?)ZYXYXXYYXYX

As comparações entre as relações logarítmicas transformadas são mudanças relativas das mudanças relativas (ou seja, as relações). Além disso, a necessidade de transformação de log para variáveis ​​inclinadas à direita ( ) tem sido questionada. Por exemplo, um artigo recente ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) alerta sobre os usos indevidos da transformação de log para uma variável. Alguns conselhos foram de que o log ( ) garante distribuição normal apenas se for lognormal. Nomeadamente, ele não garante a normalidade, mesmo para variáveis ​​inclinadas à direita. Além disso, o anti-log de E (log ( )) é a média geométrica (GM) de , que é sempre menor que E ( ) e os testes das diferenças de E (YYYYYYY ) e o GM são diferentes. Finalmente, o GM não é nem mais robusto nem menos suscetível de ser afetado pelos valores extremos.

Outro artigo ( http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110 ) mostrou que os testes t nas variáveis ​​brutas têm um bom desempenho, mesmo para variáveis ​​distribuídas normalmente em log. Um terceiro artigo ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) mostrou que o desempenho do teste t nas relações e do teste t nas relações transformadas em log são semelhantes.

Assim, torna-se a questão de qual é o resultado do interesse. Como o log ( ) precisa ser transformado de volta para as unidades originais para ser significativo e, devido ao viés de retransformação, acho que os testes de E ( ) são mais significativos.ZZ

Felizmente, os testes paramétricos (por exemplo, testes t) são robustos à violação da suposição de normalidade depois que a heterocedasticidade é contabilizada (por exemplo, o teste t de Welch). Por exemplo, este artigo ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) aconselha o uso da ANOVA para testar as diferenças entre alterações brutas na dobra por imunotransferência.

Portanto, minha pergunta é: se meu objetivo é testar a alteração absoluta das proporções, posso comparar as proporções diretamente sem transformação de log?

Referência: na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais?

KuJ
fonte
Estou esquecendo de algo? Se e são log-normais, certamente também é log-normal ...? XYX/Y
M Turgeon
@Turgeon: Sim, o log (Y / X) é normal. Mas não tenho certeza se Y / X é lognormal quando o viés de retransformação é levado em consideração. Eu acho que a página da Wikipedia precisa se aprofundar nessa idéia.
kuj
can I compare the ratios directly without log transformation?Pelo menos no caso a seguir e implicitamente, você está fazendo a "comparação" de proporções. É quando você calcula estatística de uma tabela de contingência. Uma maneira de colocar sua fórmula é , onde é o obs. frequencia. na célula e é a razão dela para a frequência esperada lá. E, portanto, quando você calcula a distância qui-quadrado (ao quadrado) entre as linhas i e i 'na tabela, está computando diferenças entre as proporções: . χ2rc[OijGij]NOijGijdii=1/Nc[O.j(GijGij)2]
ttnphns

Respostas:

9

Não apenas as distribuições de proporções não transformadas têm formas ímpares que não correspondem às suposições da análise estatística tradicional, mas também não há uma boa interpretação de uma diferença em duas proporções. Como um aparte, se você puder encontrar um exemplo em que a diferença entre duas proporções seja significativa, quando as proporções não representarem proporções de um todo, descreva essa situação.

Como variável usada na análise estatística, as proporções têm o problema significativo de serem medidas assimétricas, ou seja, é muito importante qual valor está no denominador. Essa assimetria torna quase sem sentido adicionar ou subtrair proporções. As proporções de log são simétricas e podem ser adicionadas e subtraídas.

Pode-se gastar bastante tempo se preocupando com a distribuição que uma estatística de teste possui ou corrigindo a "estranheza" da distribuição, mas é importante primeiro escolher uma medida de efeito que possua as propriedades matemáticas e práticas corretas. As proporções quase sempre devem ser comparadas considerando a razão de proporções ou seu logaritmo (ou seja, dupla diferença nos registros das medições originais).

Frank Harrell
fonte
Caro professor Frank Harrell: Obrigado por sua resposta gentil. Eu revi a pergunta. Dois exemplos: 1. O IMC não é normal ( ncbi.nlm.nih.gov/pubmed/26973438 ) e pode ou não ser lognormal. Se for, o log (IMC) é normal. Caso contrário, o log (IMC) não é normal. No entanto, o log (IMC) raramente é usado. 2. Alterações nas dobras (Y1 / X, Y2 / X) de proteínas ou genes de dois grupos experimentais (Y1, Y2) são comparadas a um grupo controle (X). Assim, a diferença em duas proporções é significativa, mas a diferença relativa não ocorre porque os dois grupos experimentais são normalizados por um controle comum.
kuj
2
Essa lógica não está correta. Assumindo que o IMC é a variável dependente, ele se comportará melhor quando registrado do que quando não registrado, com relação às premissas lineares do modelo, embora seja melhor modelar o peso ajustado para altura e peso inicial. O fato de comparar as dobras na expressão da proteína não significa que você subtraia duas alterações. A medida mais adequada seria tomar a proporção de alterações nas dobras. Normalização é outra questão completamente. A prática de etapas separadas de normalização não é boa estatisticamente porque assume que os controles são medidos sem erros.
Frank Harrell
1. Você quer dizer que o GM é melhor que a média aritmética das proporções ou alterações de dobra (mesmo que as proporções ou alterações de dobra possam não ser lognormal e os cuidados emitidos pelo 1º artigo)? 2. Este artigo ( link.springer.com/article/… ) mostrou que o desempenho do teste t nas relações e no teste t nas relações transformadas em log são semelhantes. Obrigado.
kuj
11
Esse papel está dramaticamente incorreto então. log (Y / X) é matematicamente uma função simétrica e a distribuição das relações logarítmicas é muito mais simétrica do que a distribuição das relações.
Frank Harrell
4
Gostaria de sublinhar o que não faz parte deste excelente conselho. Se as proporções são exatamente ou mesmo aproximadamente logormais antes e exatamente ou mesmo aproximadamente normais após a transformação não podem ser previstas antecipadamente ou em geral, e felizmente é bastante secundário. O ponto principal é que as proporções de números positivos geralmente são tão extraordinariamente distorcidas, uma vez queX<Y mapeia para 0<X/Y<1 e X>Y mapeia para X/Y>1que plotar dados não transformados, usá-los em modelos e pensar neles é quase sempre muito mais complicado do que trabalhar com seus logaritmos.
Nick Cox
6

A resposta de @FrankHarrell, e os comentários associados dele e @NickCox, respondem à pergunta admiravelmente. Eu acrescentaria que o foco implícito no formato das distribuições brutas de preditores e variáveis ​​de resultado é equivocado; na modelagem linear, o importante é a linearidade das relações dos preditores com o resultado e a distribuição dos resíduos.

Desejo também acrescentar informações sobre dois artigos citados na pergunta original que possam explicar algumas fontes da dificuldade detectada pelo OP. É importante avaliar criticamente os artigos, não apenas aceitá-los, porque eles foram publicados.

O artigo citado sobre o uso indevido de transformações de log por Feng et al. Observa corretamente alguns abusos possíveis com as transformações de log, mas tende a deixar a impressão de que as transformações de log devem ser evitadas e não usadas de maneira inteligente. Por exemplo, o artigo diz:

o uso de transformações em geral e a transformação de log em particular podem ser bastante problemáticas na prática para alcançar os objetivos desejados

com supostas dificuldades apontadas como:

não existe uma relação individual entre a média original e a média dos dados transformados em log ... não é conceitualmente sensato comparar a variabilidade dos dados com sua contraparte transformada ... comparando as médias de duas amostras não é o mesmo que comparar os meios de suas versões transformadas

e concluindo:

em vez de tentar encontrar uma distribuição e / ou transformação apropriada para ajustar os dados, pode-se considerar abandonar completamente esse paradigma clássico ...

Não vejo que as supostas dificuldades mencionadas nesse artigo forneçam razões para evitar o uso informado de transformações logarítmicas ou outras. Outros observaram deficiências mais graves nesse documento. Bland, Altman e Rohlf escreveram uma resposta direta, Em defesa das transformações logarítmicas . A resposta completa está aparentemente atrás de um paywall, mas acredito que as seguintes citações constituiriam uso justo:

Porém, eles não ilustram seu artigo com dados reais e parecem ignorar amplamente o contexto no qual as transformações de log são aplicadas ... Eles também citam fora de contexto as pessoas que criticam ... Feng et al. diga também 'Embora bem definida estatisticamente, a quantidade Exp (E (log X)) não tem interpretação intuitiva e biológica'. Não encontramos nenhum problema na intuição a respeito. Embora a expressão pareça complicada, é simplesmente a média geométrica.

Bland, Altman e Rohlf concluem:

A transformação de log é uma ferramenta valiosa na análise de dados biológicos e clínicos. Não achamos que alguém deva desanimar em usá-lo neste artigo mal argumentado e enganoso.

O artigo que "aconselha o uso da ANOVA para testar as diferenças entre as diferenças de dobras brutas (DF) na imunotransferência" lida muito bem com algumas das dificuldades técnicas na realização da densitometria do que é chamado de "western blots" (dificuldades das quais tenho consciência dolorosa) , no entanto, a sugestão quase imediata no final do artigo de "Determinar os valores médios de DF e P associados para as réplicas biológicas, importando o DF da etapa (2) acima em um pacote de software de análise estatística como o PRISM ou Analyze IT "parece não ter recebido uma revisão muito crítica. (Também não descarta a possibilidade de transformar log os valores de DF na análise estatística.)

Uma sugestão para usar o FD bruto, na verdade, contradiz a idéia apresentada anteriormente nesse artigo de que essa análise é "uma metodologia muito semelhante à qPCR" ou a reação quantitativa em cadeia da polimerase. A análise estatística do qPCR é melhor realizada com os valores de "ciclos até o limite" ouCtvalores. EstesCt valores têm direta log2relações com as quantidades originais da sequência de ácidos nucleicos sendo analisadas. De observação adicional na quantificação de ácidos nucleicos, o gráfico de MA amplamente utilizado na análise de microarranjos é um gráfico de Bland-Altman sobre transformações logarítmicas de dados de expressão. Quando os erros são proporcionais aos valores de interesse, a transformação logarítmica pode fazer muito sentido.

EdM
fonte
Obrigado por suas explicações detalhadas. Sua resposta me ajuda a entender esse problema mais claramente.
kuj
Excelente análise. É surpreendente que o artigo que você disseca tenha sido publicado. Está cheio de argumentos ruins e maus conselhos. Como trabalhar em escala de log é totalmente básico e pertence a todo texto introdutório.
Nick Cox
1

Se ambos X e Y são normais com média zero, então a proporção X/Y segue uma distribuição de Cauchy com densidade

p(x)=1πγγ2(xx0)2+γ2

Onde x0 é o parâmetro location, que é uma espécie de medida da centralidade da massa, e γa meia largura, que é o tipo de desvio padrão para Cauchy. Não tem média, não há variação e não há momentos superiores.

horaceT
fonte
Se X é zero, Y / X é indefinido.
kuj
11
@KuJ Since X e Ysão variáveis ​​aleatórias, a probabilidade de que qualquer um deles seja exatamente igual a zero é zero.
horaceT
Se não tem média, variância e momentos mais altos, como podemos fazer testes estatísticos?
kuj
11
@KuJ Exatamente a mesma pergunta foi feita. Veja stats.stackexchange.com/questions/172101/…
horaceT