Há alguns meses estagiei nesta organização; e, como presente de despedida, decidi passar minha última semana, com qualquer folga que tivesse, para investigar os fatores que afetam os salários dos professores. Um problema que tive com os salários dos professores foi que a distribuição para o estado em questão estava distorcida. Eu tive muitas observações que se agarravam à extremidade inferior do espectro salarial. Tentei resolver isso incorporando um Índice de salários comparáveis em minha variável dependente (salário dos professores), mas os resultados encontrados foram completamente desatualizados para o escopo do meu projeto. Em vez disso, decidi registrar minha variável dependente. Isso foi legal porque agora meus salários tinham uma distribuição normal e pareciam perfeitos no histograma. Quando comecei a testar, cheguei ao ponto em que fiquei com uma última variável independente, a declaração de imposto sobre a propriedade. O problema com meus salários normativos também foi aparente nas minhas observações de declaração de imposto sobre a propriedade. Eu tinha uma enorme variação nos números de declaração de imposto sobre a propriedade na extremidade inferior do espectro. Então, eu registrei essa variável também e ela ainda passou no teste de hipótese nula muito bem.
Não tenho certeza se isso está correto, mas comparando a alteração de uma variável registrada com outra variável registrada, dei-me a elasticidade. Supondo que isso esteja correto, minha equação de regressão (algo como LogWages = B0 + B1 (LogPropertyTaxReturns)) mostra a elasticidade entre as duas variáveis. Isso é significativo? Se meu objetivo era ver qual variável mais afetava os salários dos professores em qualquer município do meu estado, é útil mostrar a elasticidade entre as duas variáveis? Queremos elevar os municípios com os salários mais baixos dos professores para aumentar seus padrões de vida, mas temo extrapolar tão longe as observações reais que minha equação de regressão final não tem sentido.
Edit: Um dos meus maiores medos é que eu deveria ter usado um modelo não linear para mostrar o relacionamento. Eu sinto que forçar tanto a variável dependente quanto a independente a cooperar nessa regressão linear é enganoso de alguma forma.
fonte
Respostas:
A resposta para a pergunta é sim, é realmente significativa (pelo menos matematicamente falando). Se você estimar a equação linear
β1PTRβ1= ∂W∂PTR β1 PTR W
De um modo geral, as transformações lineares afetam apenas a interpretação dada aos coeficientes, mas a validade da própria regressão (em termos econômicos gerais) é dada pelas premissas do modelo e pelos fenômenos econômicos analisados.
fonte
Acho que sua pergunta é se o uso dessa forma funcional faz ou não sentido em seu modelo específico. É difícil dizer. Como em qualquer regressão linear comum, você está assumindo a forma funcional. Você pode pelo menos pensar nisso como uma aproximação linear que faz mais sentido após a transformação do log-log.
fonte
Observe que, como uma representação da decisão subjacente "verdadeira", todas as transformações que resultam em uma regressão linear estão incorretas. De fato, todos os modelos vão estar errados. A questão é realmente: a estatística que você obteve deste modelo é útil para o seu problema ? Se o seu estudo estiver focado na determinação de um modelo subjacente, esse é um momento que lhe diz algo interessante sobre esse modelo mais profundo? Se você for mais orientado a políticas, uma aproximação com elasticidade constante o aproximará da verdade de que melhorias adicionais são irrelevantes? Ou são perguntas extremamente difíceis de responder como observador externo. Mas se a única alternativa com a qual você está preocupado é a elasticidade variável, o tipo de teste que descrevi acima pode lhe dar alguma tranqüilidade.
fonte
As outras respostas abordaram os principais problemas. Gostaria de responder à "Edição" feita pelo OP na pergunta:
Tendemos a esquecer que "transformar uma variável" leva a uma nova variável , cujo comportamento pode ser totalmente diferente do "original". O exemplo mais fácil é comparar os gráficos de uma variável e seu quadrado.
Portanto, considerando os logaritmos naturais de suas variáveis, você não examina mais a relação entre elas , mas uma relação entre alguma função delas.
É uma sorte que o conceito matemático de "logaritmo" possa ser vinculado ao conceito de "elasticidade", que descreve uma relação entre as mudanças percentuais, algo que entendemos do ponto de vista econômico e que podemos interpretar e usar significativamente.
Se se pode razoavelmente dizer que as variáveis exibem uma "relação linear nos logaritmos", significa que seus níveis (isto é, as variáveis reais) têm uma relação não linear:
Então, por que não estimar um modelo não linear?
Em princípio (matemático), não há razão para não. Algumas questões práticas são:
1) Existem muitas formas de relações não lineares, existe apenas uma relação linear (estruturalmente falando). É uma questão de "custos de pesquisa" para a especificação mais adequada.
2) A relação não linear obtida pode não ter uma explicação econômica clara . Por que isso é um problema? Porque não estamos descobrindo "leis da natureza" aqui, inalteradas no tempo e no espaço. Estamos nos aproximando de um fenômeno social. Ter uma aproximação que, além disso, só pode ser apresentada como uma fórmula matemática, sem um raciocínio econômico que a valide e apóie, torna o resultado muito reduzido.
3) A estimativa não linear é menos estável no que diz respeito à mecânica do algoritmo de estimativa.
fonte
Eu diria que o seu modelo nesse caso não parece significativo se o seu " objetivo era ver qual variável os salários dos professores mais afetados em qualquer município do meu estado ". Você acabou de mostrar qual é a correlação entre (os registros de) salários e declarações de imposto sobre a propriedade. Você deve pelo menos usar uma regressão múltipla.
Claro, você poderia continuar e desenvolver uma estratégia de identificação adequada e completa com as ferramentas metodológicas apropriadas para estimar a intensidade de cada efeito causal e encontrar o maior ... Na realidade, você provavelmente não será capaz fazê-lo, dadas as complexidades de tal tarefa. É apenas um continuum de refinamentos e você está perto do modelo mais grosseiro possível usado para explicar os salários, muito longe do que eu consideraria as aproximações aceitáveis de uma resposta à pergunta implícita em seu objetivo. Você deve tentar contar com a ajuda de um economista.
fonte