Eu tenho alguns dados com os quais estou brincando; por simplicidade, suponhamos que os dados contenham informações sobre o número de postagens que um blogueiro escreveu versus o número de pessoas que se inscreveram no blog dessa pessoa (este é apenas um exemplo inventado).
Desejo obter um modelo aproximado da relação entre # posts vs. # assinantes e, ao analisar um gráfico de log-log, vejo o seguinte:
Parece uma relação linear aproximada (na escala log-log), e a verificação rápida dos resíduos parece concordar (sem padrão aparente, sem desvio perceptível de uma distribuição normal):
Então, minha pergunta é: está tudo bem em usar esse modelo linear? Sei vagamente que há problemas ao usar regressões lineares em gráficos de log-log para estimar as distribuições de leis de energia, mas meus dados não são uma distribuição de probabilidade de lei de energia (é simplesmente algo que parece seguir aproximadamentemodelo; em particular, nada precisa somar 1), então não tenho certeza se as mesmas críticas se aplicam. (Talvez eu esteja corrigindo demais à menção de "log-log" e "regressão linear" na mesma frase ...) Além disso, tudo o que realmente estou tentando fazer é:
- Veja se há algum padrão para os blogs com resíduos positivos vs. blogs com resíduos negativos
- Sugira um modelo aproximado de como os assinantes estão relacionados ao número de postagens.
fonte
Respostas:
Não há nada inerentemente errado com uma regressão log-log e os economistas os usam há séculos para estimar a elasticidade. No entanto, se você deseja permitir o efeito da lei de energia, mas não deseja se preocupar muito, pode aplicar esta correção simples: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=881759
fonte