Usando variáveis de controle em experimentos?

Por que alguém desejaria controlar qualquer número de covariáveis da linha de base em uma situação em que a atribuição ao grupo de tratamento é aleatória?

Meu entendimento é que a atribuição aleatória de tratamento deve tornar a variável de tratamento estritamente exógena, criando um grupo de controle que possa ser considerado adequadamente como contrafactual. A única exceção em que consigo pensar é quando o tamanho da amostra é pequeno e a atribuição aleatória ainda pode produzir grupos desequilibrados.

Quaisquer pensamentos são muito apreciados. Obrigado!

experiment-design treatment-effect random-allocation Robb
fonte

Respostas:

De uma perspectiva freqüentista, uma comparação não ajustada com base na distribuição de permutação sempre pode ser justificada após um estudo (adequadamente) randomizado. Uma justificativa semelhante pode ser feita para inferência com base em distribuições paramétricas comuns (por exemplo, a distribuição ou distribuição ) devido à sua semelhança com a distribuição de permutação. De fato, o ajuste para covariáveis - quando elas são selecionadas com base em análises post-hoc - na verdade corre o risco de inflar o erro Tipo I. Observe que essa justificativa não tem nada a ver com o grau de equilíbrio na amostra observada ou com o tamanho da amostra (exceto que para amostras pequenas a distribuição de permutação será mais discreta e menos bem aproximada pelo $t$ $F$ $t$ ou distribuições ). $F$

Dito isto, muitas pessoas sabem que o ajuste para covariáveis pode aumentar a precisão no modelo linear. Especificamente, o ajuste para covariáveis aumenta a precisão do efeito estimado do tratamento quando eles são preditivos do resultado e não estão correlacionados com a variável de tratamento (como é verdade no caso de um estudo randomizado). O que é menos conhecido, no entanto, é que isso não é transferido automaticamente para modelos não lineares. Por exemplo, Robinson e Jewell [1] mostram que, no caso de regressão logística, o controle de covariáveis reduz a precisão do efeito estimado do tratamento, mesmo quando são preditivos do resultado. No entanto, porque o efeito do tratamento estimado é também maior no modelo ajustado, controlando para co-variáveis de previsão dos resultados faz aumentar a eficiência ao testar a hipótese nula de efeito sem tratamento após um estudo randomizado.

[1] LD Robinson e NP Jewell. Alguns resultados surpreendentes sobre o ajuste covariável em modelos de regressão logística. International Statistical Review , 58 (2): 227-40, 1991.

Phil Schumm
fonte

Olá - resposta interessante. Algum interesse em ter uma conversa offline sobre isso?

Rolando2

Se o resultado depende do tratamento, bem como de outros fatores observáveis, o controle desse último geralmente melhora a precisão da estimativa de impacto (ou seja, o erro padrão do efeito do tratamento será menor). Quando o tamanho da amostra é pequeno, isso pode ser útil.

Aqui está uma simulação simples em que, embora o tratamento seja aleatório, o erro padrão diminui em um terço:

. set obs 100
obs was 0, now 100

. gen treat =mod(_n,2)

. gen x=rnormal()

. gen y = 2 + 3*treat + 1*x + rnormal()

. reg y treat

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  1,    98) =  112.75
       Model |  209.354021     1  209.354021           Prob > F      =  0.0000
    Residual |  181.973854    98  1.85687606           R-squared     =  0.5350
-------------+------------------------------           Adj R-squared =  0.5302
       Total |  391.327875    99  3.95280682           Root MSE      =  1.3627

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.893814   .2725345    10.62   0.000     2.352978     3.43465
       _cons |   2.051611    .192711    10.65   0.000     1.669183     2.43404
------------------------------------------------------------------------------

. reg y treat x

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  2,    97) =  180.50
       Model |  308.447668     2  154.223834           Prob > F      =  0.0000
    Residual |  82.8802074    97  .854435127           R-squared     =  0.7882
-------------+------------------------------           Adj R-squared =  0.7838
       Total |  391.327875    99  3.95280682           Root MSE      =  .92436

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.918349   .1848854    15.78   0.000     2.551403    3.285295
           x |   1.058636   .0983022    10.77   0.000     .8635335    1.253739
       _cons |   1.996209    .130825    15.26   0.000     1.736558     2.25586
------------------------------------------------------------------------------

Dimitriy V. Masterov
fonte

+1 - Outro motivo é identificar os efeitos de interação com o tratamento, mas isso exige mais do que "controlar" outros fatores como o OP mencionado.

Andy W

Obrigado! Portanto, se uma ou mais covariáveis afetarem o resultado que você está tentando medir, incluí-las em seu modelo melhorará a precisão de sua estimativa do efeito do tratamento designado aleatoriamente, mas não afetará realmente sua estimativa do valor da coeficiente de tratamento, correto?

Robb

Sim está certo.

Dimitriy V. Masterov 26/01

Desculpas pelo ping fora do tópico: existe uma sugestão no Meta de tornar [experimento randomizado] um sinônimo da tag [alocação aleatória] ( stats.meta.stackexchange.com/a/4651 ). Você tem reputação suficiente nesta tag para votar nesta sugestão aqui: stats.stackexchange.com/tags/random-allocation/synonym - agora é necessário 4 votos para ser aprovado . Se você não concorda com a proposta, considere comentar o Meta para explicar o porquê. Excluirei este comentário em breve. Felicidades.

Ameba

Usando variáveis ​​de controle em experimentos?

Respostas:

Usando variáveis de controle em experimentos?