Provavelmente, essa é uma pergunta muito básica, mas parece que não consigo encontrar uma resposta sólida. Espero que aqui eu possa.
Atualmente, estou lendo artigos como preparação para minha tese de mestrado. Atualmente, estou lendo um artigo que pesquisa a relação entre tweets e recursos do mercado de ações.
Em uma de suas hipóteses, eles propõem que "o aumento do volume de tweets está associado a um aumento no volume de negociação".
Eu esperaria que eles, nas correlações aos pares, se correlacionassem tweetVolume
com tradingVolume
, mas eles relatam usando as versões registradas: LN(tweetVolume)
e LN(tradingVolume)
.
Para minha tese, repliquei esse pedaço de papel. Eu colecionei tweets de cerca de 100 empresas por mais de 6 meses ( tweetVolume
) e volume de negociação de ações pelo mesmo período. Se eu correlacionar as variáveis absolutas, achor=.282, p.000
mas quando uso as verões registradas, encontro r=.488, p=.000
.
Não entendo porque pesquisadores às vezes usam versões registradas de suas variáveis e por que a correlação parece muito maior se você o fizer. Qual é o raciocínio aqui e por que não há problema em usar variáveis registradas?
Sua ajuda é muito apreciada :-)
Respostas:
Os motivos para usar variáveis registradas se enquadram em duas categorias: estatística e substantiva.
Estatisticamente, se suas variáveis estão inclinadas para a direita (ou seja, têm uma cauda longa na extremidade alta), uma medida como correlação ou regressão pode ser influenciada muito por um ou alguns casos na extremidade alta em uma ou ambas as variáveis (outliers, pontos de alavancagem, pontos influentes). Tomar o log pode ajudar a reduzir ou eliminar a inclinação.
Substancialmente, alguns conceitos são mais bem pensados em termos de proporções do que diferenças. Tome as duas medidas de volume que você discutir. Agora, compare duas empresas: uma pequena que negocia na NASDAQ que poucas pessoas ouviram falar e a outra uma mega corporação. O primeiro receberá muito poucos tweets por dia. Este último terá muitos; da mesma forma para o volume de negociação. Suponha (apenas para escolher números) que a empresa A normalmente recebe 100 tweets por dia e a última recebe 100.000.
Se os tweets da empresa A subirem de 100 para 500 (uma diferença de 400, uma proporção de 5), isso é uma grande notícia - algo deve estar acontecendo. Mas se a empresa B sobe de 100.000 para 100.400 (uma diferença de 400, uma proporção muito próxima de 1), ninguém se importa. O equivalente aproximado seria se passasse de 100.000 para 500.000.
fonte