A atribuição aleatória é valiosa porque garante a independência do tratamento dos possíveis resultados. É assim que leva a estimativas imparciais do efeito médio do tratamento. Mas outros esquemas de atribuição também podem garantir sistematicamente a independência do tratamento dos possíveis resultados. Então, por que precisamos de atribuição aleatória? Em outras palavras, qual é a vantagem da atribuição aleatória sobre os esquemas de atribuição não aleatórios que também levam a inferência imparcial?
Seja um vetor de atribuições de tratamento em que cada elemento é 0 (unidade não atribuída ao tratamento) ou 1 (unidade atribuída ao tratamento). Em um artigo da JASA, Angrist, Imbens e Rubin (1996, 446-47) dizem que a atribuição de tratamento é aleatória se para todos os \ mathbf {c} e \ mathbf {c'} de modo que \ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '} , em que \ iota é um vetor de coluna com todos os elementos iguais a 1.
Em palavras, a reivindicação é que a atribuição é aleatória se qualquer vetor de atribuições que inclui atribuições ao tratamento for tão provável quanto qualquer outro vetor que inclua atribuições ao tratamento.
Mas, para garantir a independência dos resultados potenciais da atribuição do tratamento, basta garantir que cada unidade do estudo tenha igual probabilidade de atribuição ao tratamento. E isso pode ocorrer facilmente, mesmo que a maioria dos vetores de atribuição de tratamento tenha probabilidade zero de ser selecionada. Ou seja, pode ocorrer mesmo sob atribuição não aleatória.
Aqui está um exemplo. Queremos realizar um experimento com quatro unidades nas quais exatamente duas são tratadas. Existem seis vetores de atribuição possíveis:
- 1100
- 1010
- 1001
- 0110
- 0101
- 0011
onde o primeiro dígito em cada número indica se a primeira unidade foi tratada, o segundo dígito indica se a segunda unidade foi tratada e assim por diante.
Suponha que realizemos um experimento no qual excluamos a possibilidade dos vetores de atribuição 3 e 4, mas no qual cada um dos outros vetores tem chance igual (25%) de ser escolhido. Esse esquema não é uma atribuição aleatória no sentido do AIR. Mas, na expectativa, leva a uma estimativa imparcial do efeito médio do tratamento. E isso não é acidente. Qualquer esquema de atribuição que dê aos sujeitos probabilidade igual de atribuição ao tratamento permitirá uma estimativa imparcial do ATE.
Então: por que precisamos de atribuição aleatória no sentido do AIR? Meu argumento está enraizado na inferência de randomização; se pensarmos em termos de inferência baseada em modelo, a definição do AIR parece mais defensável?
Respostas:
Isso segue o comentário de Gung. O efeito médio geral do tratamento não é o ponto.
Suponha que você tenha novos casos de diabetes em que o sujeito tenha entre e e novos pacientes com diabetes acima de . Você deseja atribuir metade ao tratamento. Por que não jogar uma moeda e, na cabeça, tratar todos os pacientes jovens e, na cauda, tratar todos os pacientes mais velhos? Cada um teria1000 5 15 1000 30 50% chance de ser selecionado para o tratamento, para que isso não viesse o resultado médio do tratamento, mas jogaria fora muita informação. Não seria uma surpresa se o diabetes juvenil ou os pacientes mais jovens respondessem muito melhor ou pior do que os pacientes mais velhos com diabetes tipo II ou gestacional. O efeito do tratamento observado pode ser imparcial, mas, por exemplo, teria um desvio padrão muito maior do que o que ocorreria por atribuição aleatória e, apesar da amostra grande, você não seria capaz de dizer muito. Se você usar uma atribuição aleatória, com alta probabilidade, cerca de casos em cada faixa etária receberão o tratamento, para poder comparar o tratamento sem tratamento dentro de cada faixa etária. 500
Você pode fazer melhor do que usar atribuição aleatória. Se você notar um fator que acha que pode afetar a resposta ao tratamento, convém garantir que os indivíduos com esse atributo sejam divididos de maneira mais uniforme do que ocorreria por atribuição aleatória. A atribuição aleatória permite executar razoavelmente bem todos os fatores simultaneamente, para que você possa analisar muitos padrões possíveis posteriormente.
fonte
No seu exemplo, você pode deixar 2 e 5 de fora também e não se contradizer. No nível do item, ainda há uma chance igual de ser 1 ou 0 quando há apenas 1: 1 de chance de selecionar 1 ou 6. Mas agora o que você fez removendo 3 e 4 se torna mais óbvio.
fonte
Aqui está outra das variáveis ocultas ou confusas: tempo (ou desvio instrumental, efeitos do armazenamento de amostras, etc.).
Portanto, existem argumentos contra a randomização (como Douglas diz: você pode fazer melhor que a randomização). Por exemplo, você pode saber de antemão que deseja que seus casos sejam equilibrados ao longo do tempo. Assim como você pode saber de antemão que deseja equilibrar gênero e idade.
Em outras palavras, se você quiser escolher manualmente um dos seus 6 esquemas, eu diria que 1100 (ou 0011) é uma escolha decididamente ruim . Observe que as primeiras possibilidades que você jogou fora são as que são mais equilibradas no tempo ... E as duas piores são deixadas depois que John se propôs a jogar fora também 2 e 5 (contra as quais você não protestou).
Em outras palavras, sua intuição de que esquemas são "agradáveis" infelizmente leva a um projeto experimental ruim (IMHO isso é bastante comum; talvez as coisas ordenadas pareçam mais agradáveis - e com certeza é mais fácil acompanhar as seqüências lógicas durante o experimento).
Você pode fazer melhor com esquemas não aleatórios, mas também pode fazer muito pior. IMHO, você poderá fornecer argumentos físicos / químicos / biológicos / médicos / ... para o esquema não aleatório específico que você usa, se você optar por um esquema não aleatório.
fonte