Eu li que o uso de escalas de log quando gráficos / gráficos é apropriado em determinadas circunstâncias, como o eixo y em um gráfico de séries temporais. No entanto, não consegui encontrar uma explicação definitiva sobre por que esse é o caso, ou quando mais seria apropriado. Lembre-se de que eu não sou um estatístico; portanto, posso estar perdendo completamente o objetivo e, se for esse o caso, eu apreciaria a direção dos recursos corretivos.
57
Respostas:
Essa é uma pergunta muito interessante e que poucas pessoas pensam. Existem várias maneiras diferentes de uma escala de log ser apropriada. A primeira e mais conhecida é a mencionada por Macro em seu comentário: as escalas de log permitem que um grande intervalo seja exibido sem que pequenos valores sejam compactados na parte inferior do gráfico.
Um motivo diferente para preferir uma escala de log é em circunstâncias em que os dados são mais naturalmente expressos geometricamente. Um exemplo é quando os dados representam a concentração de um mediador biológico. As concentrações não podem ser negativas e a variabilidade quase invariavelmente escala com a média (ou seja, há variação heterocedástica). Usando uma escala logarítmica ou, equivalentemente, usando a concentração do log como primária, a medida 'corrige' a variabilidade desigual e fornece uma escala sem limites nas duas extremidades. As concentrações provavelmente são log-normalmente distribuídas e, portanto, uma escala de log nos fornece um resultado muito conveniente que é sem dúvida 'natural'. Em farmacologia, usamos uma escala logarítmica para concentrações de medicamentos com muito mais frequência do que nunca,
Outro bom motivo para uma escala de log, provavelmente aquela em que você está interessado em dados de séries temporais, vem da capacidade de uma escala de log de tornar equivalentes as mudanças fracionárias. Imagine uma exibição do desempenho a longo prazo de seus investimentos em aposentadoria. Deveria estar crescendo aproximadamente exponencialmente, porque o interesse de amanhã depende do investimento de hoje (grosso modo). Assim, mesmo que o desempenho em termos percentuais tenha sido razoavelmente constante, um gráfico dos fundos parecerá ter crescido mais rapidamente no lado direito. Com uma escala logarítmica, uma mudança percentual constante é vista como uma distância vertical constante, de modo que uma taxa de crescimento constante é vista como uma linha reta. Isso geralmente é uma vantagem substancial.
Outra razão um pouco mais esotérica para escolher uma escala de log ocorre em circunstâncias em que os valores podem ser razoavelmente expressos como x ou 1 / x. Um exemplo de minha própria pesquisa é a resistência vascular que também pode ser sensatamente expressa como a condutância vascular recíproca. (Em algumas circunstâncias, também é sensato pensar no diâmetro dos vasos sanguíneos que se escalam como um poder de resistência ou condutância.) Nenhuma dessas medidas tem mais realidade que a outra e ambas podem ser encontradas em trabalhos de pesquisa. Se elas são dimensionadas logaritmicamente, são simplesmente negativas uma da outra e a escolha de uma ou de outra não faz diferença significativa. (O diâmetro vascular será diferente da resistência e condutância por um multiplicador constante quando todas estiverem em escala logarítmica.)
fonte
Alguns exemplos da vida real que tive como um complemento à resposta muito boa de @Michael Lew.
Primeiro, as duas séries temporais abaixo mostram chegadas mensais de visitantes à Nova Zelândia, disponíveis na Statistics New Zealand . Ambas as parcelas têm seu objetivo, mas acho que a que tem o eixo vertical em uma escala logarítmica é espetacularmente útil para muito mais propósitos do que o primeiro. Por exemplo, você pode ver que a sazonalidade nas chegadas permanece aproximadamente proporcional à escala das chegadas; e você pode ver as mudanças significativas na taxa de crescimento (por exemplo, durante a Segunda Guerra Mundial), que são invisíveis na escala original.
Segundo, os gráficos abaixo mostram o total de gastos relacionados a viagens de turistas para a Nova Zelândia, em comparação com os gastos enquanto eles estão na Nova Zelândia. A fonte é a Pesquisa Internacional de Visitantes do Ministério do Desenvolvimento Econômico. A diferença são as despesas pré-viagem, por exemplo, hotéis ou pacotes pagos antecipadamente. O primeiro gráfico, na escala original, pode ser usado para outros fins que não sejam uma impressão muito grosseira (mas importante) dos dados sendo agrupados no canto inferior esquerdo. O segundo gráfico sacrifica alguma interpretabilidade imediata, principalmente para não estatísticos (por causa disso, eu normalmente usaria agora uma escala logarítmica nos eixos, em vez de transformar os dados e ter a escala mostrando o valor logarítmico), mas dá muito mais diferenciação visual.
Por exemplo, você pode identificar claramente os poucos discrepantes (que acabaram sendo erros de edição de dados) em que o gasto total foi menor que o gasto na Nova Zelândia. Talvez o mais importante seja que você poderia usar este gráfico com cores ou facetas diferentes para mostrar como diferentes países do mercado ou o objetivo da visita (por exemplo, férias x visitas a amigos e familiares) ocupam diferentes partes do "espaço" de despesas - algo que seria apenas invisível nos eixos originais.
Transformar esse gráfico em algo útil envolveria, de alguma forma, lidar com os dados de alta densidade (por exemplo, adicionando alguma transparência aos pontos ou substituindo pontos por caixas hexagonais coloridas de acordo com a densidade), mas qualquer solução visual útil quase certamente envolverá eixos logarítmicos.
editar / adição
Outro gráfico para ilustrar o que eu quis dizer com os compartimentos hexagonais, usando a cor para representar a densidade quando há um grande conjunto de dados (neste caso, cerca de 12.000 participantes de uma pesquisa sobre as experiências da Copa do Mundo de Rugby na Nova Zelândia). Observe novamente que este é outro exemplo em que usei uma escala logarítmica para despesas.
fonte
Outra coisa bacana sobre as escalas de log é que elas fazem as proporções parecerem simétricas. Por exemplo, assim:
fonte