Miller e Chapman (2001) argumentam que é absolutamente inapropriado controlar covariáveis não independentes relacionadas a variáveis independentes e dependentes em um estudo observacional (não randomizado) - mesmo que isso seja feito rotineiramente nas ciências sociais. Quão problemático é fazê-lo? Como é a melhor maneira de lidar com esse problema? Se você controla rotineiramente covariáveis não independentes em um estudo observacional em sua própria pesquisa, como justifica isso? Finalmente, é uma luta que vale a pena escolher ao discutir a metodologia com os colegas (ou seja, isso realmente importa)?
obrigado
Miller, GA, & Chapman, JP (2001). Análise de incompreensão da covariância. Jornal de Psicologia Anormal, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf
fonte
Respostas:
É tão problemático quanto o grau de correlação.
A ironia é que você não se incomodaria em controlar se não houvesse alguma correlação esperada com uma das variáveis. E, se você espera que sua variável independente afete seu dependente, está necessariamente um pouco correlacionada com ambos. No entanto, se eles são altamente correlacionados, talvez você não deva controlá-lo, pois é o equivalente a controlar a variável independente ou dependente real.
fonte
Nas ciências sociais, costumamos chamar essa questão de "viés pós-tratamento". Se você está considerando o efeito de algum tratamento (sua variável independente), incluindo variáveis que surgem após o tratamento (no sentido causal), sua estimativa do efeito do tratamento pode ser tendenciosa. Se você incluir essas variáveis, estará, em certo sentido, controlando o impacto do tratamento. Se o tratamento T causar o resultado Y e outras variáveis A e A causarem Y, o controle de A ignorará o impacto que T causa em Y via A. Esse viés pode ser positivo ou negativo.
Nas ciências sociais, isso pode ser especialmente difícil porque A pode causar T, que alimenta A, e A e T causam Y. Por exemplo, o alto PIB pode levar a altos níveis de democratização (nosso tratamento), o que leva a maior PIB, maior PIB e maior democratização levam a menos corrupção do governo, dizem. Como o PIB causa democratização, se não o controlamos, temos uma questão de endogeneidade ou "viés de variáveis omitidas". Mas se controlarmos o PIB, teremos um viés pós-tratamento. Além de usar ensaios aleatórios quando podemos, há pouco mais que podemos fazer para dirigir nosso navio entre Scylla e Charybdis. Gary King fala sobre essas questões como sua nomeação para a iniciativa "Os problemas mais difíceis não resolvidos nas ciências sociais" de Harvard aqui .
fonte
A meu ver, existem dois problemas básicos nos estudos observacionais que "controlam" várias variáveis independentes. 1) Você tem o problema de perder variáveis explicativas e, assim, modelar a especificação incorreta. 2) Você tem o problema de várias variáveis independentes correlacionadas - um problema que não existe em experimentos (bem) projetados - e o fato de que os coeficientes de regressão e os testes de covariáveis da ANCOVA são baseados em parciais, dificultando sua interpretação. O primeiro é intrínseco à natureza da pesquisa observacional e é abordado no contexto científico e no processo de elaboração competitiva. O último é uma questão de educação e se baseia em uma compreensão clara dos modelos de regressão e ANCOVA e exatamente o que esses coeficientes representam.
Com relação à primeira questão, é fácil demonstrar que, se todas as influências em alguma variável dependente são conhecidas e incluídas em um modelo, os métodos estatísticos de controle são eficazes e produzem boas previsões e estimativas de efeitos para variáveis individuais. O problema nas "ciências moles" é que todas as influências relevantes raramente são incluídas ou mesmo conhecidas e, portanto, os modelos são mal especificados e difíceis de interpretar. No entanto, existem muitos problemas que valem a pena nesses domínios. As respostas simplesmente carecem de certeza. A beleza do processo científico é que ele é autocorretivo e os modelos são questionados, elaborados e refinados. A alternativa é sugerir que não podemos investigar esses problemas cientificamente quando não podemos projetar experimentos.
A segunda questão é uma questão técnica na natureza da ANCOVA e dos modelos de regressão. Os analistas precisam ter clareza sobre o que esses coeficientes e testes representam. As correlações entre as variáveis independentes influenciam os coeficientes de regressão e os testes ANCOVA. São testes de parciais. Esses modelos retiram a variação em uma determinada variável independente e a variável dependente que está associada a todas as outras variáveis no modelo e, em seguida, examinam o relacionamento nesses resíduos. Como resultado, os coeficientes e testes individuais são muito difíceis de interpretar fora do contexto de uma compreensão conceitual clara de todo o conjunto de variáveis incluídas e de suas inter-relações. Isso, no entanto, não produz problemas de previsão - apenas tome cuidado ao interpretar testes e coeficientes específicos.
Uma observação lateral: A última questão está relacionada a um problema discutido anteriormente neste fórum sobre a reversão de sinais de regressão - por exemplo, de negativo para positivo - quando outros preditores são introduzidos em um modelo. Na presença de preditores correlacionados e sem uma compreensão clara das relações múltiplas e complexas entre todo o conjunto de preditores, não há razão para ESPERAR um coeficiente de regressão (por natureza parcial) para ter um sinal específico. Quando existe uma teoria forte e um entendimento claro dessas inter-relações, esse sinal de "reversões" pode ser esclarecedor e teoricamente útil. Embora, dada a complexidade de muitos problemas das ciências sociais, não fosse comum o entendimento suficiente, eu esperaria.
Disclaimer: Sou sociólogo e analista de políticas públicas por treinamento.
fonte
Li a primeira página do artigo e, portanto, posso ter entendido mal o argumento deles, mas parece-me que eles estão basicamente discutindo o problema de incluir variáveis independentes multicolineares na análise. O exemplo que eles recebem da idade e da série ilustra essa ideia ao afirmar que:
ANCOVA é regressão linear com os níveis representados como variáveis dummy e as covariáveis também aparecendo como variáveis independentes na equação de regressão. Assim, a menos que eu tenha entendido mal o que eles querem dizer (o que é bem possível, porque não li o artigo completamente), parece que eles estão dizendo 'não incluem covariáveis dependentes', o que equivale a afirmar que evitamos variáveis multicolineares.
fonte
O (maior) problema é que, como a (s) variável (s) do grupo e a (s) covariável (s) estão juntas no lado preditivo da equação, a (s) variável (s) do grupo não é mais a (s) variável (s) do grupo, elas são aquelas variáveis com a covariável parcializada, portanto, não são mais reconhecíveis ou interpretáveis como as variáveis de grupo que você pensava estar estudando. Grande problema.
A linha principal está na página 45 "ANCOVA remove uma variação significativa do" Grupo ", deixando uma variável residual do grupo não caracterizada e vestigal com uma relação incerta com a construção que o Grupo representava".
Minha solução atual é separar a covariável do DV e, em seguida, submeter o residual do DV a uma ANOVA regular, como uma alternativa ao uso da ANCOVA.
fonte
Algumas das ferramentas de correspondência desenvolvidas por Gary King e colegas parecem promissoras:
fonte