Por que alguém desejaria controlar qualquer número de covariáveis da linha de base em uma situação em que a atribuição ao grupo de tratamento é aleatória?
Meu entendimento é que a atribuição aleatória de tratamento deve tornar a variável de tratamento estritamente exógena, criando um grupo de controle que possa ser considerado adequadamente como contrafactual. A única exceção em que consigo pensar é quando o tamanho da amostra é pequeno e a atribuição aleatória ainda pode produzir grupos desequilibrados.
Quaisquer pensamentos são muito apreciados. Obrigado!
De uma perspectiva freqüentista, uma comparação não ajustada com base na distribuição de permutação sempre pode ser justificada após um estudo (adequadamente) randomizado. Uma justificativa semelhante pode ser feita para inferência com base em distribuições paramétricas comuns (por exemplo, a distribuição ou distribuição ) devido à sua semelhança com a distribuição de permutação. De fato, o ajuste para covariáveis - quando elas são selecionadas com base em análises post-hoc - na verdade corre o risco de inflar o erro Tipo I. Observe que essa justificativa não tem nada a ver com o grau de equilíbrio na amostra observada ou com o tamanho da amostra (exceto que para amostras pequenas a distribuição de permutação será mais discreta e menos bem aproximada peloF t FtFtou distribuições ).F
Dito isto, muitas pessoas sabem que o ajuste para covariáveis pode aumentar a precisão no modelo linear. Especificamente, o ajuste para covariáveis aumenta a precisão do efeito estimado do tratamento quando eles são preditivos do resultado e não estão correlacionados com a variável de tratamento (como é verdade no caso de um estudo randomizado). O que é menos conhecido, no entanto, é que isso não é transferido automaticamente para modelos não lineares. Por exemplo, Robinson e Jewell [1] mostram que, no caso de regressão logística, o controle de covariáveis reduz a precisão do efeito estimado do tratamento, mesmo quando são preditivos do resultado. No entanto, porque o efeito do tratamento estimado é também maior no modelo ajustado, controlando para co-variáveis de previsão dos resultados faz aumentar a eficiência ao testar a hipótese nula de efeito sem tratamento após um estudo randomizado.
[1] LD Robinson e NP Jewell. Alguns resultados surpreendentes sobre o ajuste covariável em modelos de regressão logística. International Statistical Review , 58 (2): 227-40, 1991.
Olá - resposta interessante. Algum interesse em ter uma conversa offline sobre isso?
Rolando2
12
Se o resultado depende do tratamento, bem como de outros fatores observáveis, o controle desse último geralmente melhora a precisão da estimativa de impacto (ou seja, o erro padrão do efeito do tratamento será menor). Quando o tamanho da amostra é pequeno, isso pode ser útil.
Aqui está uma simulação simples em que, embora o tratamento seja aleatório, o erro padrão diminui em um terço:
. set obs 100
obs was 0, now 100
. gen treat =mod(_n,2)
. gen x=rnormal()
. gen y = 2 + 3*treat + 1*x + rnormal()
. reg y treat
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 1, 98) = 112.75
Model | 209.354021 1 209.354021 Prob > F = 0.0000
Residual | 181.973854 98 1.85687606 R-squared = 0.5350
-------------+------------------------------ Adj R-squared = 0.5302
Total | 391.327875 99 3.95280682 Root MSE = 1.3627
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | 2.893814 .2725345 10.62 0.000 2.352978 3.43465
_cons | 2.051611 .192711 10.65 0.000 1.669183 2.43404
------------------------------------------------------------------------------
. reg y treat x
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2, 97) = 180.50
Model | 308.447668 2 154.223834 Prob > F = 0.0000
Residual | 82.8802074 97 .854435127 R-squared = 0.7882
-------------+------------------------------ Adj R-squared = 0.7838
Total | 391.327875 99 3.95280682 Root MSE = .92436
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | 2.918349 .1848854 15.78 0.000 2.551403 3.285295
x | 1.058636 .0983022 10.77 0.000 .8635335 1.253739
_cons | 1.996209 .130825 15.26 0.000 1.736558 2.25586
------------------------------------------------------------------------------
+1 - Outro motivo é identificar os efeitos de interação com o tratamento, mas isso exige mais do que "controlar" outros fatores como o OP mencionado.
Andy W
Obrigado! Portanto, se uma ou mais covariáveis afetarem o resultado que você está tentando medir, incluí-las em seu modelo melhorará a precisão de sua estimativa do efeito do tratamento designado aleatoriamente, mas não afetará realmente sua estimativa do valor da coeficiente de tratamento, correto?
Robb
Sim está certo.
Dimitriy V. Masterov 26/01
Desculpas pelo ping fora do tópico: existe uma sugestão no Meta de tornar [experimento randomizado] um sinônimo da tag [alocação aleatória] ( stats.meta.stackexchange.com/a/4651 ). Você tem reputação suficiente nesta tag para votar nesta sugestão aqui: stats.stackexchange.com/tags/random-allocation/synonym - agora é necessário 4 votos para ser aprovado . Se você não concorda com a proposta, considere comentar o Meta para explicar o porquê. Excluirei este comentário em breve. Felicidades.
Se o resultado depende do tratamento, bem como de outros fatores observáveis, o controle desse último geralmente melhora a precisão da estimativa de impacto (ou seja, o erro padrão do efeito do tratamento será menor). Quando o tamanho da amostra é pequeno, isso pode ser útil.
Aqui está uma simulação simples em que, embora o tratamento seja aleatório, o erro padrão diminui em um terço:
fonte