Digamos que eu tenha alguns dados históricos, por exemplo, preços das ações anteriores, flutuações no preço das passagens aéreas, dados financeiros anteriores da empresa ...
Agora alguém (ou alguma fórmula) aparece e diz "vamos pegar / usar o log da distribuição" e aqui é onde vou POR QUE ?
Questões:
- Por que alguém deve tomar o log da distribuição em primeiro lugar?
- O QUE O log da distribuição 'dá / simplifica' que a distribuição original não pôde / não deu?
- A transformação do log é 'sem perdas'? Ou seja, ao transformar em espaço de log e analisar os dados, as mesmas conclusões são válidas para a distribuição original? Por quê?
- E, por último, quando tomar o log da distribuição? Sob que condições alguém decide fazer isso?
Eu realmente queria entender as distribuições baseadas em log (por exemplo, lognormal), mas nunca entendi os aspectos quando / por que - ou seja, o log da distribuição é uma distribuição normal, e daí? O que isso me diz e por que me incomodar? Daí a questão!
ATUALIZAÇÃO : Conforme o comentário do @ whuber, observei as postagens e, por algum motivo, compreendo o uso de transformações de log e sua aplicação na regressão linear, pois é possível estabelecer uma relação entre a variável independente e o log da variável dependente. No entanto, minha pergunta é genérica no sentido de analisar a distribuição em si - não existe uma relação propriamente dita que eu possa concluir para ajudar a entender o motivo de usar logs para analisar uma distribuição. Espero estar fazendo sentido: - /
Na análise de regressão, você tem restrições no tipo / ajuste / distribuição dos dados e pode transformá-los e definir uma relação entre a variável dependente independente e (não transformada). Mas quando / por que alguém faria isso para uma distribuição isolada, onde restrições de tipo / ajuste / distribuição não são necessariamente aplicáveis em uma estrutura (como regressão). Espero que o esclarecimento torne as coisas mais claras do que confusas :)
Esta pergunta merece uma resposta clara quanto a "por que e quando"
fonte
Respostas:
Se você assumir uma forma de modelo que não é linear, mas pode ser transformada em um modelo linear comologY=β0+β1t , seria justificável tirar logaritmos de Y para atender à forma de modelo especificada. Em geral, se você tem ou não séries causais, o único momento em que você estaria justificado ou correto ao tomar o Log de Y é quando se pode provar que a Variância de Y é proporcional ao Valor Esperado de Y2 . Não me lembro da fonte original para o seguinte, mas resume bem o papel das transformações de poder. É importante observar que as premissas distributivas são sempre sobre o processo de erro e não o Y observado. Portanto, é um "não-não" definitivo analisar a série original para uma transformação apropriada, a menos que a série seja definida por uma constante simples.
Transformações indevidas ou incorretas, incluindo diferenças, devem ser cuidadosamente evitadas, pois geralmente são uma tentativa incorreta / mal concebida de lidar com anomalias não identificadas / mudanças de nível / tendências de tempo ou alterações nos parâmetros ou alterações na variação de erros. Um exemplo clássico disso é discutido a partir do slide 60 aqui http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation em que três anomalias de pulso ( não tratado) levou a uma transformação de log injustificada pelos primeiros pesquisadores. Infelizmente, alguns de nossos pesquisadores atuais ainda estão cometendo o mesmo erro.
A transformação de potência ideal é encontrada através do teste Box-Cox, onde
fonte
A escala logarítmica informa sobre alterações relativas (multiplicativa), enquanto a escala linear informa sobre alterações absolutas (aditivo). Quando você usa cada um? Quando você se importa com mudanças relativas, use a escala de log; Quando você se preocupa com mudanças absolutas, use escala linear. Isso vale para distribuições, mas também para qualquer quantidade ou alteração de quantidades.
Note, eu uso a palavra "cuidar" aqui de forma muito específica e intencional. Sem um modelo ou uma meta, sua pergunta não pode ser respondida; o modelo ou objetivo define qual escala é importante. Se você está tentando modelar algo, e o mecanismo age através de uma mudança relativa, a escala de log é crítica para capturar o comportamento visto em seus dados. Mas se o mecanismo do modelo subjacente for aditivo, convém usar a escala linear.
Se convertermos em espaço de log, as alterações relativas aparecerão como alterações absolutas.
Agora, considerando a diferença absoluta no espaço do log , descobrimos que ambos foram alterados por 0,0413.
Ambas as medidas de mudança são importantes e qual delas é importante para você depende apenas do seu modelo de investimento. Existem dois modelos. (1) investir um valor fixo de principal ou (2) investir em um número fixo de ações.
Modelo 1: Investir com uma quantia fixa de principal.
Modelo 2: número fixo de ações.
Agora, suponha que pensemos no valor das ações como uma variável aleatória flutuando ao longo do tempo, e queremos criar um modelo que reflita geralmente como as ações se comportam. E digamos que queremos usar esse modelo para maximizar o lucro. Calculamos uma distribuição de probabilidade cujos valores x estão em unidades de 'preço da ação' e valores y na probabilidade de observar um determinado preço da ação. Fazemos isso para o estoque A e o estoque B. Se você assinar o primeiro cenário, em que possui uma quantia fixa de principal que deseja investir, o registro dessas distribuições será informativo. Por quê? Você se preocupa com a forma da distribuição no espaço relativo. Se um estoque varia de 1 a 10 ou 10 a 100 não importa para você, certo? Ambos os casos são 10 vezesganho relativo. Isso aparece naturalmente em uma distribuição em escala de log, em que os ganhos unitários correspondem aos ganhos dobrados diretamente. Para dois estoques cujo valor médio é diferente, mas cuja mudança relativa é identicamente distribuída (eles têm a mesma distribuição das mudanças percentuais diárias ), suas distribuições de log serão idênticas na forma, apenas alteradas. Por outro lado, suas distribuições lineares não terão forma idêntica, com a distribuição de maior valor tendo uma variação maior.
Se você olhasse essas mesmas distribuições em espaço linear ou absoluto, pensaria que os preços das ações de maior valor correspondem a maiores flutuações. Para seus fins de investimento, porém, onde apenas ganhos relativos são importantes, isso não é necessariamente verdade.
Exemplo 2. Reações químicas. Suponha que temos duas moléculas A e B que sofrem uma reação reversível.
que é definido pelas constantes de taxa individuais
Seu equilíbrio é definido pelo relacionamento:
EDIT . Um paralelo interessante que me ajudou a criar intuição é o exemplo de médias aritméticas versus médias geométricas. Uma média aritmética (baunilha) calcula a média de números assumindo um modelo oculto em que as diferenças absolutas são o que importa. Exemplo. A média aritmética de 1 e 100 é 50,5. Suponhamos que estamos falando de concentrações, onde a relação química entre as concentrações é multiplicativa. Então a concentração média deve realmente ser calculada na escala logarítmica. Isso é chamado de média geométrica. A média geométrica de 1 e 100 é 10! Em termos de diferenças relativas, isso faz sentido: 10/1 = 10 e 100/10 = 10, ou seja, a mudança relativa entre a média e dois valores é a mesma. Aditivamente, encontramos a mesma coisa; 50,5-1 = 49,5 e 100-50,5 = 49,5.
fonte