As taxas (por exemplo, = / ) são frequentemente usadas (por exemplo, alterações na expressão do RNAm ou da proteína, índice de massa corporal [IMC], etc.). Muitas pessoas aconselham que variáveis codificadas como proporções (por exemplo, mudança de dobra) devem ser transformadas em log, porque estão fortemente inclinadas para a direita. No entanto, proporções ( / ) são mudanças relativas e distribuições de proporções não são normais (en.wikipedia.org/wiki/Ratio_distribution). Se e são lognormal, então log ( / ) é normal (é / lognormal depois de considerar o viés de retransformação?)
As comparações entre as relações logarítmicas transformadas são mudanças relativas das mudanças relativas (ou seja, as relações). Além disso, a necessidade de transformação de log para variáveis inclinadas à direita ( ) tem sido questionada. Por exemplo, um artigo recente ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) alerta sobre os usos indevidos da transformação de log para uma variável. Alguns conselhos foram de que o log ( ) garante distribuição normal apenas se for lognormal. Nomeadamente, ele não garante a normalidade, mesmo para variáveis inclinadas à direita. Além disso, o anti-log de E (log ( )) é a média geométrica (GM) de , que é sempre menor que E ( ) e os testes das diferenças de E ( ) e o GM são diferentes. Finalmente, o GM não é nem mais robusto nem menos suscetível de ser afetado pelos valores extremos.
Outro artigo ( http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110 ) mostrou que os testes t nas variáveis brutas têm um bom desempenho, mesmo para variáveis distribuídas normalmente em log. Um terceiro artigo ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) mostrou que o desempenho do teste t nas relações e do teste t nas relações transformadas em log são semelhantes.
Assim, torna-se a questão de qual é o resultado do interesse. Como o log ( ) precisa ser transformado de volta para as unidades originais para ser significativo e, devido ao viés de retransformação, acho que os testes de E ( ) são mais significativos.
Felizmente, os testes paramétricos (por exemplo, testes t) são robustos à violação da suposição de normalidade depois que a heterocedasticidade é contabilizada (por exemplo, o teste t de Welch). Por exemplo, este artigo ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) aconselha o uso da ANOVA para testar as diferenças entre alterações brutas na dobra por imunotransferência.
Portanto, minha pergunta é: se meu objetivo é testar a alteração absoluta das proporções, posso comparar as proporções diretamente sem transformação de log?
Referência: na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais?
can I compare the ratios directly without log transformation?
Pelo menos no caso a seguir e implicitamente, você está fazendo a "comparação" de proporções. É quando você calcula estatística de uma tabela de contingência. Uma maneira de colocar sua fórmula é , onde é o obs. frequencia. na célula e é a razão dela para a frequência esperada lá. E, portanto, quando você calcula a distância qui-quadrado (ao quadrado) entre as linhas i e i 'na tabela, está computando diferenças entre as proporções: .Respostas:
Não apenas as distribuições de proporções não transformadas têm formas ímpares que não correspondem às suposições da análise estatística tradicional, mas também não há uma boa interpretação de uma diferença em duas proporções. Como um aparte, se você puder encontrar um exemplo em que a diferença entre duas proporções seja significativa, quando as proporções não representarem proporções de um todo, descreva essa situação.
Como variável usada na análise estatística, as proporções têm o problema significativo de serem medidas assimétricas, ou seja, é muito importante qual valor está no denominador. Essa assimetria torna quase sem sentido adicionar ou subtrair proporções. As proporções de log são simétricas e podem ser adicionadas e subtraídas.
Pode-se gastar bastante tempo se preocupando com a distribuição que uma estatística de teste possui ou corrigindo a "estranheza" da distribuição, mas é importante primeiro escolher uma medida de efeito que possua as propriedades matemáticas e práticas corretas. As proporções quase sempre devem ser comparadas considerando a razão de proporções ou seu logaritmo (ou seja, dupla diferença nos registros das medições originais).
fonte
A resposta de @FrankHarrell, e os comentários associados dele e @NickCox, respondem à pergunta admiravelmente. Eu acrescentaria que o foco implícito no formato das distribuições brutas de preditores e variáveis de resultado é equivocado; na modelagem linear, o importante é a linearidade das relações dos preditores com o resultado e a distribuição dos resíduos.
Desejo também acrescentar informações sobre dois artigos citados na pergunta original que possam explicar algumas fontes da dificuldade detectada pelo OP. É importante avaliar criticamente os artigos, não apenas aceitá-los, porque eles foram publicados.
O artigo citado sobre o uso indevido de transformações de log por Feng et al. Observa corretamente alguns abusos possíveis com as transformações de log, mas tende a deixar a impressão de que as transformações de log devem ser evitadas e não usadas de maneira inteligente. Por exemplo, o artigo diz:
com supostas dificuldades apontadas como:
e concluindo:
Não vejo que as supostas dificuldades mencionadas nesse artigo forneçam razões para evitar o uso informado de transformações logarítmicas ou outras. Outros observaram deficiências mais graves nesse documento. Bland, Altman e Rohlf escreveram uma resposta direta, Em defesa das transformações logarítmicas . A resposta completa está aparentemente atrás de um paywall, mas acredito que as seguintes citações constituiriam uso justo:
Bland, Altman e Rohlf concluem:
O artigo que "aconselha o uso da ANOVA para testar as diferenças entre as diferenças de dobras brutas (DF) na imunotransferência" lida muito bem com algumas das dificuldades técnicas na realização da densitometria do que é chamado de "western blots" (dificuldades das quais tenho consciência dolorosa) , no entanto, a sugestão quase imediata no final do artigo de "Determinar os valores médios de DF e P associados para as réplicas biológicas, importando o DF da etapa (2) acima em um pacote de software de análise estatística como o PRISM ou Analyze IT "parece não ter recebido uma revisão muito crítica. (Também não descarta a possibilidade de transformar log os valores de DF na análise estatística.)
Uma sugestão para usar o FD bruto, na verdade, contradiz a idéia apresentada anteriormente nesse artigo de que essa análise é "uma metodologia muito semelhante à qPCR" ou a reação quantitativa em cadeia da polimerase. A análise estatística do qPCR é melhor realizada com os valores de "ciclos até o limite" ouCt valores. EstesCt valores têm direta registro2 relações com as quantidades originais da sequência de ácidos nucleicos sendo analisadas. De observação adicional na quantificação de ácidos nucleicos, o gráfico de MA amplamente utilizado na análise de microarranjos é um gráfico de Bland-Altman sobre transformações logarítmicas de dados de expressão. Quando os erros são proporcionais aos valores de interesse, a transformação logarítmica pode fazer muito sentido.
fonte
Se ambosX e Y são normais com média zero, então a proporção X/Y segue uma distribuição de Cauchy com densidade
Ondex0 é o parâmetro location, que é uma espécie de medida da centralidade da massa, e γ a meia largura, que é o tipo de desvio padrão para Cauchy. Não tem média, não há variação e não há momentos superiores.
fonte