Muitas vezes, nos artigos de pesquisa que você lê, os pesquisadores controlam determinadas variáveis. Isso pode ser feito por métodos como correspondência, bloqueio etc.
Mas eu sempre pensei que controlar variáveis era algo feito estatisticamente, medindo várias variáveis que poderiam ter influência e realizando algumas análises estatísticas sobre elas, o que poderia ser feito em experimentos verdadeiros e quase. Então, por exemplo, você teria uma pesquisa ou outro teste no qual medisse a variável independente e algumas variáveis possivelmente confusas e fizesse alguma análise.
- É possível controlar variáveis em quase experimentos?
- Qual é o vínculo entre métodos como correspondência e controle estatístico de variáveis?
experiment-design
random-variable
controlling-for-a-variable
Renée Damstra
fonte
fonte
Respostas:
Como no AdamO, acho que a chave para responder a essa pergunta é a noção de inferência causal e como chegar "em direção" a um modelo causal usando configurações observacionais.
Em um mundo perfeito, teríamos algo chamado população contrafactual - a população do estudo, idêntica em todos os aspectos, exceto a única coisa em que estamos interessados. A diferença entre essas duas populações, com base nessa diferença, é um verdadeiro resultado causal.
Obviamente, não podemos ter isso.
Existem maneiras, no entanto, de tentar chegar perto disso:
Randomização: teoricamente (se a randomização for feita corretamente), você deverá fornecer duas populações idênticas, exceto o tratamento após a randomização.
Estratificação: você pode observar uma população dentro dos níveis de covariáveis, onde você está fazendo comparações "iguais com iguais". Isso funciona esplendidamente para um pequeno número de níveis, mas rapidamente se torna complicado.
Correspondência: Correspondência é uma tentativa de reunir uma população de estudo de modo que o Grupo A se assemelhe ao Grupo B e, portanto, seja passível de comparação.
Ajuste estatístico: a inclusão de covariáveis em um modelo de regressão permite estimar um efeito dentro dos níveis das covariáveis - novamente, comparando igual com igual, ou pelo menos tentando fazê-lo.
Todos são uma tentativa de se aproximar dessa população contrafactual. A melhor forma de obter isso depende do que você deseja divulgar e da aparência do seu estudo.
fonte
Eu acho que a modelagem causal é a chave para responder a essa pergunta. Um é confrontado desde o início para identificar o efeito de interesse ajustado / estratificado / controlado correto, antes mesmo de analisar os dados. Se eu fosse estimar a relação altura / capacidade pulmonar em adultos, eu me ajustaria ao status de fumar, uma vez que o cigarro atrapalha o crescimento e influencia a capacidade pulmonar. Os fatores de confusão são variáveis causalmente relacionadas ao preditor de interesse e associadas ao resultado do interesse. Veja Causalidade de Judea Pearl, 2ª ed. Deve-se especificar e potencializar sua análise para as variáveis de confusão corretas antes que o processo de coleta de dados comece a usar a lógica racional e o conhecimento prévio de estudos exploratórios anteriores.
Minha recomendação é pré-especificar a análise desejada como parte de uma hipótese. O risco de fumar / câncer ajustado à idade é um parâmetro diferente e leva a inferência diferente em um estudo controlado do que o risco bruto de fumar / câncer. O uso do conhecimento do assunto é a melhor maneira de selecionar preditores para ajuste nas análises de regressão ou como variáveis de estratificação, correspondência ou ponderação em vários outros tipos de análises "controladas" do design experimental e quase-experimental.
fonte
A história sobre a relação entre correspondência e regressão é resumida brevemente em um post do blog aqui . Em resumo
Consulte também a seção 3.3 da Econometria Principalmente Inofensiva ou a seção 5.3 de Contrafactuais e inferência causal para uma discussão aprofundada, incluindo os prós e contras da ponderação X dada por D que a regressão fornece implicitamente.
O @EpiGrad dá um bom começo para sua primeira pergunta. Os livros acima mencionados tratam quase exclusivamente. Se você não tem formação em ciência da computação / matemática, pode achar que o Pearl é difícil (embora valha a pena no final!)
fonte