Quando as escalas de log são apropriadas?

57

Eu li que o uso de escalas de log quando gráficos / gráficos é apropriado em determinadas circunstâncias, como o eixo y em um gráfico de séries temporais. No entanto, não consegui encontrar uma explicação definitiva sobre por que esse é o caso, ou quando mais seria apropriado. Lembre-se de que eu não sou um estatístico; portanto, posso estar perdendo completamente o objetivo e, se for esse o caso, eu apreciaria a direção dos recursos corretivos.

dav
fonte
10
Essa não é uma resposta formal, mas - quando uma variável abrange várias ordens de magnitude, geralmente é mais fácil para os olhos (e mais informativo) visualizá-la na escala logarítmica.
Macro
Macro-que faz sentido (especialmente quando você tem um público que pode compreendê-lo!)
DAV
11
Você pode encontrar esse segmento de uso intimamente relacionado enquanto aguarda respostas específicas: stats.stackexchange.com/questions/298 . Em termos de gráficos, você pode interpretar proveitosamente "variável dependente" como "eixo y". Em seguida, dê uma olhada nas muitas perguntas relacionadas que apareceram aqui.
whuber
3
Para sua informação, Naomi Robbins também tem um artigo muito direto sobre o assunto, que também deve ser interessante: Quando devo usar escalas logarítmicas em meus gráficos e tabelas? .
Andy W
Whuber, obrigado por apontar os links extras. Eu já tinha visto alguns deles, mas não todos, e agora estou trabalhando neles.
DAV

Respostas:

51

Essa é uma pergunta muito interessante e que poucas pessoas pensam. Existem várias maneiras diferentes de uma escala de log ser apropriada. A primeira e mais conhecida é a mencionada por Macro em seu comentário: as escalas de log permitem que um grande intervalo seja exibido sem que pequenos valores sejam compactados na parte inferior do gráfico.

Um motivo diferente para preferir uma escala de log é em circunstâncias em que os dados são mais naturalmente expressos geometricamente. Um exemplo é quando os dados representam a concentração de um mediador biológico. As concentrações não podem ser negativas e a variabilidade quase invariavelmente escala com a média (ou seja, há variação heterocedástica). Usando uma escala logarítmica ou, equivalentemente, usando a concentração do log como primária, a medida 'corrige' a variabilidade desigual e fornece uma escala sem limites nas duas extremidades. As concentrações provavelmente são log-normalmente distribuídas e, portanto, uma escala de log nos fornece um resultado muito conveniente que é sem dúvida 'natural'. Em farmacologia, usamos uma escala logarítmica para concentrações de medicamentos com muito mais frequência do que nunca,

Outro bom motivo para uma escala de log, provavelmente aquela em que você está interessado em dados de séries temporais, vem da capacidade de uma escala de log de tornar equivalentes as mudanças fracionárias. Imagine uma exibição do desempenho a longo prazo de seus investimentos em aposentadoria. Deveria estar crescendo aproximadamente exponencialmente, porque o interesse de amanhã depende do investimento de hoje (grosso modo). Assim, mesmo que o desempenho em termos percentuais tenha sido razoavelmente constante, um gráfico dos fundos parecerá ter crescido mais rapidamente no lado direito. Com uma escala logarítmica, uma mudança percentual constante é vista como uma distância vertical constante, de modo que uma taxa de crescimento constante é vista como uma linha reta. Isso geralmente é uma vantagem substancial.

Outra razão um pouco mais esotérica para escolher uma escala de log ocorre em circunstâncias em que os valores podem ser razoavelmente expressos como x ou 1 / x. Um exemplo de minha própria pesquisa é a resistência vascular que também pode ser sensatamente expressa como a condutância vascular recíproca. (Em algumas circunstâncias, também é sensato pensar no diâmetro dos vasos sanguíneos que se escalam como um poder de resistência ou condutância.) Nenhuma dessas medidas tem mais realidade que a outra e ambas podem ser encontradas em trabalhos de pesquisa. Se elas são dimensionadas logaritmicamente, são simplesmente negativas uma da outra e a escolha de uma ou de outra não faz diferença significativa. (O diâmetro vascular será diferente da resistência e condutância por um multiplicador constante quando todas estiverem em escala logarítmica.)

Michael Lew
fonte
Obrigado pela ótima resposta! Você pode elaborar "valores podem ser razoavelmente expressos como x"?
Ktdrv
4
@ktdrv Algumas coisas fazem sentido de qualquer maneira. Digamos que você queira documentar a capacidade de um pescador. Você pode contar o número de peixes capturados por dia ou medir o intervalo entre as capturas sucessivas. Qualquer uma das medidas faz sentido, mas elas não são linearmente relacionadas entre si. Eles são recíprocos dimensionados um do outro e, portanto, podem ser convertidos um para um. O log do intervalo e o log do número por dia são linearmente relacionados entre si e diferem por um fator constante (negativo).
Michael Lew
11
Michael, obrigado pela ótima resposta. Devo admitir que demorei um pouco para analisar todos os seus pontos (e tive que pesquisar alguns termos, como "variação heterocedástica"). Ainda estou reunindo exatamente o que o impacto real da resposta significará para o meu trabalho, mas sou grato por uma orientação geral e algumas diretrizes para me indicar o caminho.
DAV
Quanto ao último parágrafo: Duas razões principais para re-expressar valores são estabilizar variações e linearizar relacionamentos com outras variáveis. É quase sempre o caso de quando funcionar, será horrível e vice-versa . Portanto, usar porque cria uma relação linear entre e não parece defensável: se funcionar, significa que nem nem é uma expressão efetiva dos valores e, caso contrário, não trabalho e você deve determinar qual de ou (ou alguma outra re-expressão) é apropriado.1 / x log ( x ) x 1 / x x 1 / x x 1 / xx1/xlog(x)x1/x x1/xx1/x
whuber
"Em farmacologia, usamos uma escala logarítmica para concentrações de fármacos com muito mais frequência do que não": permitam-me enfatizar que, acrescentando que essas variáveis ​​são realmente frequentemente definidas dessa maneira, por exemplo, . O ser expresso dessa maneira de maneira mais natural significa que muitos relacionamentos se tornam expressões muito mais fáceis (lineares) com o log lá. pH=log[H+]
Cbeleites suporta Monica
29

Alguns exemplos da vida real que tive como um complemento à resposta muito boa de @Michael Lew.

Primeiro, as duas séries temporais abaixo mostram chegadas mensais de visitantes à Nova Zelândia, disponíveis na Statistics New Zealand . Ambas as parcelas têm seu objetivo, mas acho que a que tem o eixo vertical em uma escala logarítmica é espetacularmente útil para muito mais propósitos do que o primeiro. Por exemplo, você pode ver que a sazonalidade nas chegadas permanece aproximadamente proporcional à escala das chegadas; e você pode ver as mudanças significativas na taxa de crescimento (por exemplo, durante a Segunda Guerra Mundial), que são invisíveis na escala original.

insira a descrição da imagem aqui

Segundo, os gráficos abaixo mostram o total de gastos relacionados a viagens de turistas para a Nova Zelândia, em comparação com os gastos enquanto eles estão na Nova Zelândia. A fonte é a Pesquisa Internacional de Visitantes do Ministério do Desenvolvimento Econômico. A diferença são as despesas pré-viagem, por exemplo, hotéis ou pacotes pagos antecipadamente. O primeiro gráfico, na escala original, pode ser usado para outros fins que não sejam uma impressão muito grosseira (mas importante) dos dados sendo agrupados no canto inferior esquerdo. O segundo gráfico sacrifica alguma interpretabilidade imediata, principalmente para não estatísticos (por causa disso, eu normalmente usaria agora uma escala logarítmica nos eixos, em vez de transformar os dados e ter a escala mostrando o valor logarítmico), mas dá muito mais diferenciação visual.

Por exemplo, você pode identificar claramente os poucos discrepantes (que acabaram sendo erros de edição de dados) em que o gasto total foi menor que o gasto na Nova Zelândia. Talvez o mais importante seja que você poderia usar este gráfico com cores ou facetas diferentes para mostrar como diferentes países do mercado ou o objetivo da visita (por exemplo, férias x visitas a amigos e familiares) ocupam diferentes partes do "espaço" de despesas - algo que seria apenas invisível nos eixos originais.

Transformar esse gráfico em algo útil envolveria, de alguma forma, lidar com os dados de alta densidade (por exemplo, adicionando alguma transparência aos pontos ou substituindo pontos por caixas hexagonais coloridas de acordo com a densidade), mas qualquer solução visual útil quase certamente envolverá eixos logarítmicos.

insira a descrição da imagem aqui

editar / adição

Outro gráfico para ilustrar o que eu quis dizer com os compartimentos hexagonais, usando a cor para representar a densidade quando há um grande conjunto de dados (neste caso, cerca de 12.000 participantes de uma pesquisa sobre as experiências da Copa do Mundo de Rugby na Nova Zelândia). Observe novamente que este é outro exemplo em que usei uma escala logarítmica para despesas.

insira a descrição da imagem aqui

Peter Ellis
fonte
Peter, obrigado pelo insight adicional - os gráficos realmente ajudam a entender seus pontos. Uma pergunta de acompanhamento (se você é tão inclinado), por que você substitui pontos por caixas "hexagonais"? É a mesma ideia que "Parcelas de girassol"? Eu nunca ouvi esse termo antes.
DAV
Não, diferente das parcelas de girassol. O objetivo é dividir a área de plotagem em compartimentos hexagonais e depois colori-los (por exemplo, do claro ao escuro) de acordo com quantos pontos existem em cada compartimento. Pode ser uma boa maneira de contornar a plotagem de grandes conjuntos de dados que, de outra forma, tendem a se transformar em uma massa de preto.
Peter Ellis
@DavidVandenbos - adicionei um exemplo
Peter Ellis
(o restante do comentário) @ PeterEllis Obrigado pelo esclarecimento. Essa é uma ótima maneira de visualizar os dados - é muito semelhante aos mapas geográficos de calor que eu uso. Você criou isso no R?
DAV
Sim, R, usando o pacote ggplot2 - muito bom para esse propósito e bem direto quando você tiver o básico.
Peter Ellis
9

Outra coisa bacana sobre as escalas de log é que elas fazem as proporções parecerem simétricas. Por exemplo, assim: insira a descrição da imagem aqui

miura
fonte
10
Seria bom ver o mesmo gráfico em uma escala linear, para comparação #
nico