Quando (e por que) você deve registrar o registro de uma distribuição (de números)?

174

Digamos que eu tenha alguns dados históricos, por exemplo, preços das ações anteriores, flutuações no preço das passagens aéreas, dados financeiros anteriores da empresa ...

Agora alguém (ou alguma fórmula) aparece e diz "vamos pegar / usar o log da distribuição" e aqui é onde vou POR QUE ?

Questões:

  1. Por que alguém deve tomar o log da distribuição em primeiro lugar?
  2. O QUE O log da distribuição 'dá / simplifica' que a distribuição original não pôde / não deu?
  3. A transformação do log é 'sem perdas'? Ou seja, ao transformar em espaço de log e analisar os dados, as mesmas conclusões são válidas para a distribuição original? Por quê?
  4. E, por último, quando tomar o log da distribuição? Sob que condições alguém decide fazer isso?

Eu realmente queria entender as distribuições baseadas em log (por exemplo, lognormal), mas nunca entendi os aspectos quando / por que - ou seja, o log da distribuição é uma distribuição normal, e daí? O que isso me diz e por que me incomodar? Daí a questão!

ATUALIZAÇÃO : Conforme o comentário do @ whuber, observei as postagens e, por algum motivo, compreendo o uso de transformações de log e sua aplicação na regressão linear, pois é possível estabelecer uma relação entre a variável independente e o log da variável dependente. No entanto, minha pergunta é genérica no sentido de analisar a distribuição em si - não existe uma relação propriamente dita que eu possa concluir para ajudar a entender o motivo de usar logs para analisar uma distribuição. Espero estar fazendo sentido: - /

Na análise de regressão, você tem restrições no tipo / ajuste / distribuição dos dados e pode transformá-los e definir uma relação entre a variável dependente independente e (não transformada). Mas quando / por que alguém faria isso para uma distribuição isolada, onde restrições de tipo / ajuste / distribuição não são necessariamente aplicáveis ​​em uma estrutura (como regressão). Espero que o esclarecimento torne as coisas mais claras do que confusas :)

Esta pergunta merece uma resposta clara quanto a "por que e quando"

Doutorado
fonte
3
Como isso cobre quase o mesmo terreno das perguntas anteriores aqui e aqui , leia esses tópicos e atualize sua pergunta para se concentrar em todos os aspectos desse problema que ainda não foram resolvidos. Observe também que o nº 4 (e parte do nº 3) são perguntas elementares sobre logaritmos cujas respostas são facilmente encontradas em muitos lugares.
whuber
1
O esclarecimento ajuda. Você pode ponderar sobre o fato de que a regressão apenas com um termo constante (e sem outras variáveis ​​independentes) equivale a avaliar a variação dos dados em torno de sua média. Portanto, se você realmente entende os efeitos de obter registros de variáveis ​​dependentes na regressão, entende a situação (mais simples) que está perguntando aqui. Em resumo, uma vez que você tenha respostas para as quatro perguntas para regressão, não precisará perguntar novamente sobre "a distribuição isoladamente".
whuber
@whuber: Entendo ... então eu entendo as razões para registrar logs em regressão, mas apenas porque me ensinaram isso - eu entendo da necessidade de fazê-lo, ou seja, para garantir que os dados se encaixem nas premissas de regressão linear. Esse é o meu único entendimento. Talvez o que estou perdendo seja o "verdadeiro entendimento" do efeito de obter registros e, portanto, a confusão ... alguma ajuda? ;)
PhD
2
Ah, mas você sabe muito mais do que isso, porque, depois de usar logs em regressão, você sabe que os resultados são interpretados de maneira diferente e sabe tomar cuidado para transformar valores ajustados e intervalos de confiança de transformação reversa. Estou sugerindo que você não fique confuso e que provavelmente já conheça muitas das respostas para essas quatro perguntas, mesmo que não estivesse ciente disso :-).
whuber
2
Os leitores aqui também podem querer examinar esses tópicos intimamente relacionados: interpretação do log-transformed preditor , & Como interpretar coeficientes logaritmicamente transformados em regressão linear .
gung

Respostas:

98

Se você assumir uma forma de modelo que não é linear, mas pode ser transformada em um modelo linear como logY=β0+β1t , seria justificável tirar logaritmos de Y para atender à forma de modelo especificada. Em geral, se você tem ou não séries causais, o único momento em que você estaria justificado ou correto ao tomar o Log de Y é quando se pode provar que a Variância de Y é proporcional ao Valor Esperado de Y2. Não me lembro da fonte original para o seguinte, mas resume bem o papel das transformações de poder. É importante observar que as premissas distributivas são sempre sobre o processo de erro e não o Y observado. Portanto, é um "não-não" definitivo analisar a série original para uma transformação apropriada, a menos que a série seja definida por uma constante simples.

Transformações indevidas ou incorretas, incluindo diferenças, devem ser cuidadosamente evitadas, pois geralmente são uma tentativa incorreta / mal concebida de lidar com anomalias não identificadas / mudanças de nível / tendências de tempo ou alterações nos parâmetros ou alterações na variação de erros. Um exemplo clássico disso é discutido a partir do slide 60 aqui http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation em que três anomalias de pulso ( não tratado) levou a uma transformação de log injustificada pelos primeiros pesquisadores. Infelizmente, alguns de nossos pesquisadores atuais ainda estão cometendo o mesmo erro.

A transformação de potência ideal é encontrada através do teste Box-Cox, onde

  • -1. é um recíproco
  • -.5 é uma raiz quadrada recíproca
  • 0.0 é uma transformação de log
  • .5 é uma transformação quadrada de toot e
  • 1.0 não é transformação.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. Em resumo, as transformações são como drogas, algumas são boas e outras são ruins para você! Eles só devem ser usados ​​quando necessário e depois com cuidado.

IrishStat
fonte
2
Concordo que quem deixou o voto negativo deve deixar um comentário sobre o motivo pelo qual esse voto foi negativo. Para o Irishstat, seria muito mais fácil ler sua postagem se você aproveitasse as opções de formatação para deixar respostas, especialmente aquelas disponíveis para marcar equações no látex. Consulte a seção de ajuda para edição de descontos . Esse link está disponível sempre que você digita uma resposta no canto superior direito da caixa de postagem (no círculo laranja com o ponto de interrogação).
Andy W
4
A tabela citada é encontrada em Introdução à análise de regressão linear Por Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining.
user1717828
@ user1717828 tu .. Eu sempre fui um fã de Montgomery como ele tem uma longa barba envolvendo séries temporais
IrishStat
Nem sempre é verdade que o segundo momento e a variação são proporcionais entre si? Temos a equação clássica dizendo: variância é igual ao segundo momento menos o primeiro momento ao quadrado.
information_interchange
Como você diz, a variação é uma função do segundo momento. Onde eu sugeria o contrário. Além disso, a variação pode mudar (deterministicamente) em diferentes momentos no tempo. VER pdfs.semanticscholar.org/09c4/… que não é remediado por uma transformação de energia.
IrishStat
108

A escala logarítmica informa sobre alterações relativas (multiplicativa), enquanto a escala linear informa sobre alterações absolutas (aditivo). Quando você usa cada um? Quando você se importa com mudanças relativas, use a escala de log; Quando você se preocupa com mudanças absolutas, use escala linear. Isso vale para distribuições, mas também para qualquer quantidade ou alteração de quantidades.

Note, eu uso a palavra "cuidar" aqui de forma muito específica e intencional. Sem um modelo ou uma meta, sua pergunta não pode ser respondida; o modelo ou objetivo define qual escala é importante. Se você está tentando modelar algo, e o mecanismo age através de uma mudança relativa, a escala de log é crítica para capturar o comportamento visto em seus dados. Mas se o mecanismo do modelo subjacente for aditivo, convém usar a escala linear.


$$$


$$$$


$

Se convertermos em espaço de log, as alterações relativas aparecerão como alterações absolutas.

log10($1)log10($1.10)
log10($100)log10($110)

Agora, considerando a diferença absoluta no espaço do log , descobrimos que ambos foram alterados por 0,0413.

Ambas as medidas de mudança são importantes e qual delas é importante para você depende apenas do seu modelo de investimento. Existem dois modelos. (1) investir um valor fixo de principal ou (2) investir em um número fixo de ações.

Modelo 1: Investir com uma quantia fixa de principal.

$$$$$$$$

Modelo 2: número fixo de ações.

$

Agora, suponha que pensemos no valor das ações como uma variável aleatória flutuando ao longo do tempo, e queremos criar um modelo que reflita geralmente como as ações se comportam. E digamos que queremos usar esse modelo para maximizar o lucro. Calculamos uma distribuição de probabilidade cujos valores x estão em unidades de 'preço da ação' e valores y na probabilidade de observar um determinado preço da ação. Fazemos isso para o estoque A e o estoque B. Se você assinar o primeiro cenário, em que possui uma quantia fixa de principal que deseja investir, o registro dessas distribuições será informativo. Por quê? Você se preocupa com a forma da distribuição no espaço relativo. Se um estoque varia de 1 a 10 ou 10 a 100 não importa para você, certo? Ambos os casos são 10 vezesganho relativo. Isso aparece naturalmente em uma distribuição em escala de log, em que os ganhos unitários correspondem aos ganhos dobrados diretamente. Para dois estoques cujo valor médio é diferente, mas cuja mudança relativa é identicamente distribuída (eles têm a mesma distribuição das mudanças percentuais diárias ), suas distribuições de log serão idênticas na forma, apenas alteradas. Por outro lado, suas distribuições lineares não terão forma idêntica, com a distribuição de maior valor tendo uma variação maior.

Se você olhasse essas mesmas distribuições em espaço linear ou absoluto, pensaria que os preços das ações de maior valor correspondem a maiores flutuações. Para seus fins de investimento, porém, onde apenas ganhos relativos são importantes, isso não é necessariamente verdade.

Exemplo 2. Reações químicas. Suponha que temos duas moléculas A e B que sofrem uma reação reversível.

AB

que é definido pelas constantes de taxa individuais

kabABkbaBA

Seu equilíbrio é definido pelo relacionamento:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

EDIT . Um paralelo interessante que me ajudou a criar intuição é o exemplo de médias aritméticas versus médias geométricas. Uma média aritmética (baunilha) calcula a média de números assumindo um modelo oculto em que as diferenças absolutas são o que importa. Exemplo. A média aritmética de 1 e 100 é 50,5. Suponhamos que estamos falando de concentrações, onde a relação química entre as concentrações é multiplicativa. Então a concentração média deve realmente ser calculada na escala logarítmica. Isso é chamado de média geométrica. A média geométrica de 1 e 100 é 10! Em termos de diferenças relativas, isso faz sentido: 10/1 = 10 e 100/10 = 10, ou seja, a mudança relativa entre a média e dois valores é a mesma. Aditivamente, encontramos a mesma coisa; 50,5-1 = 49,5 e 100-50,5 = 49,5.

vector07
fonte
2
Esta é uma resposta realmente útil e eu amo os exemplos. Você poderia adicionar mais sobre "when" especificamente para usar a transformação de log? Você diz "Quando se preocupa com mudanças relativas, use a escala de log; quando se preocupa com mudanças absolutas, use a escala linear". Mas existem casos em que você se preocupa com mudanças relativas, mas não deve se transformar em log e, em caso afirmativo, como você detecta esses casos? Por exemplo, este artigo faz um caso que os dados que não seguem uma distribuição normal log não deve ser log transformado: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88
@ skeller88 Eu concordo com este documento; é uma resposta estreita à questão mais ampla (e filosófica!) de 'por que transformamos distribuições?' Acho que a resposta é que temos um kit de ferramentas estatísticas bem desenvolvido para contrastar entre distribuições normais, mas um kit de ferramentas menos desenvolvido para outras distribuições, talvez até sem nome (a maioria). Uma abordagem para avaliar uma distribuição de aparência descolada pode ser pegar o log apenas para ver se parece mais normal; mas, como o IrishStat descreve tecnicamente acima, esse caminho está repleto de perigos (do pino quadrado, da variedade de orifícios redondos).
vector07
1
Há uma explicação relevante deste efeito e porque é importante para árvores de decisão um pouco mais towardsdatascience.com/...
Keith