A visualização é lógica suficiente para transformar dados?
13
Problema
Gostaria de plotar a variação explicada por cada um dos 30 parâmetros, por exemplo, como um gráfico de barras com uma barra diferente para cada parâmetro e a variação no eixo y:
No entanto, as variações são fortemente inclinadas para valores pequenos, incluindo 0, como pode ser visto no histograma abaixo:
Se eu os transformar por , será mais fácil ver diferenças entre os pequenos valores (histograma e gráfico de barras abaixo):registro( x + 1 )
Questão
A plotagem em escala de log é comum, mas a plotagem de igualmente razoável?registro( x + 1 )
Isso foi chamado de " logaritmo iniciado " por alguns ( por exemplo , John Tukey). (Para alguns exemplos, o Google john tukey "iniciou o registro" .)
É perfeitamente bom de usar. De fato, você pode esperar usar um valor inicial diferente de zero para explicar o arredondamento da variável dependente. Por exemplo, arredondar a variável dependente para o número inteiro mais próximo efetivamente diminui 1/12 de sua verdadeira variação, sugerindo que um valor inicial razoável deve ser de pelo menos 1/12. (Esse valor não faz um mau trabalho com esses dados. O uso de outros valores acima de 1 não altera muito a imagem; apenas aumenta todos os valores no gráfico inferior direito quase uniformemente.)
Existem razões mais profundas para usar o logaritmo (ou log iniciado) para avaliar a variação: por exemplo, a inclinação de um gráfico de variação em relação ao valor estimado em uma escala de log-log estima um parâmetro Box-Cox para estabilizar a variação . Tais ajustes de variação da lei do poder para algumas variáveis relacionadas são frequentemente observados. (Esta é uma afirmação empírica, não teórica.)
Se seu objetivo é apresentar as variações, prossiga com cuidado. Muitos públicos (além dos científicos) não conseguem entender um logaritmo, muito menos um iniciado. Usar um valor inicial de 1 pelo menos tem o mérito de ser um pouco mais simples de explicar e interpretar do que algum outro valor inicial. Algo a considerar é traçar suas raízes, que são os desvios padrão, é claro. Seria algo como isto:
Independentemente disso, se seu objetivo é explorar os dados, aprender com eles, ajustar-se a um modelo ou avaliar um modelo, não deixe que nada atrapalhe a localização de representações gráficas razoáveis de seus dados e valores derivados de dados. como essas variações.
obrigado pela explicação e terminologia / referência adequadas. O público é leitor de uma revista científica e o tópico é decomposição de variância; entender o conceito de uma transformação de log é um pré-requisito, mas eu ainda não tinha certeza se essa apresentação exigia mais justificativas - as raízes são uma boa alternativa. Obrigado.
David LeBauer
3
Pode ser razoável. A melhor pergunta a fazer é se 1 é o número adequado a ser adicionado. Qual foi o seu mínimo? Se fosse 1, você está impondo um intervalo específico entre os itens com valor zero e aqueles com valor 1. Dependendo do domínio do estudo, pode fazer mais sentido escolher 0,5 ou 1 / e como o deslocamento. A implicação da transformação em uma escala de log é que agora você tem uma escala de proporção.
Mas estou incomodado com as tramas. Gostaria de perguntar se um modelo que tem a maior parte da variação explicada na cauda de uma distribuição assimétrica deve ser considerado como possuindo propriedades estatísticas desejáveis. Eu acho que não.
Não tenho certeza se está claro, mas os histogramas têm 30 valores de variação e os gráficos de barras são os valores brutos da variação, ou seja var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), então eu interpreto isso porque alguns parâmetros explicam a maior parte da variação, e não a maioria. da variação explicada está na cauda. Isso faz mais sentido? Desculpe se não estava claro.
Pode ser razoável. A melhor pergunta a fazer é se 1 é o número adequado a ser adicionado. Qual foi o seu mínimo? Se fosse 1, você está impondo um intervalo específico entre os itens com valor zero e aqueles com valor 1. Dependendo do domínio do estudo, pode fazer mais sentido escolher 0,5 ou 1 / e como o deslocamento. A implicação da transformação em uma escala de log é que agora você tem uma escala de proporção.
Mas estou incomodado com as tramas. Gostaria de perguntar se um modelo que tem a maior parte da variação explicada na cauda de uma distribuição assimétrica deve ser considerado como possuindo propriedades estatísticas desejáveis. Eu acho que não.
fonte
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
, então eu interpreto isso porque alguns parâmetros explicam a maior parte da variação, e não a maioria. da variação explicada está na cauda. Isso faz mais sentido? Desculpe se não estava claro.