Aqui está o artigo que motivou esta pergunta: A impaciência nos engorda?
Gostei deste artigo e demonstra bem o conceito de "controle de outras variáveis" (QI, carreira, renda, idade etc.) para isolar melhor a verdadeira relação entre apenas as 2 variáveis em questão.
Você pode me explicar como você realmente controla as variáveis em um conjunto de dados típico?
Por exemplo, se você tem duas pessoas com o mesmo nível de impaciência e IMC, mas com rendas diferentes, como você trata esses dados? Você os categoriza em diferentes subgrupos com renda, paciência e IMC semelhantes? Porém, eventualmente, existem dezenas de variáveis a serem controladas (QI, carreira, renda, idade, etc.) Como você agrega esses (potencialmente) centenas de subgrupos? De fato, sinto que essa abordagem está latindo na árvore errada, agora que a verbalizei.
Obrigado por esclarecer algo sobre o que eu pretendia chegar ao fundo por alguns anos agora ...!
Respostas:
Existem muitas maneiras de controlar variáveis.
O mais fácil, e o que você inventou, é estratificar seus dados para ter subgrupos com características semelhantes - existem métodos para reunir esses resultados e obter uma "resposta" única. Isso funciona se você tiver um número muito pequeno de variáveis que deseja controlar, mas, como descobriu corretamente, isso se desfaz rapidamente à medida que você divide seus dados em partes cada vez menores.
Uma abordagem mais comum é incluir as variáveis que você deseja controlar em um modelo de regressão. Por exemplo, se você tiver um modelo de regressão que possa ser descrito conceitualmente como:
A estimativa que você obterá para a impaciência será o efeito da impaciência nos níveis das outras covariáveis - a regressão permite suavizar essencialmente locais onde você não tem muitos dados (o problema com a abordagem de estratificação), embora isso deva ser feito com cuidado.
Ainda existem maneiras mais sofisticadas de controlar outras variáveis, mas as probabilidades são de que quando alguém diz "controlado por outras variáveis", elas significam que foram incluídas em um modelo de regressão.
Tudo bem, você pediu um exemplo no qual possa trabalhar para ver como isso acontece. Vou orientá-lo passo a passo. Tudo que você precisa é de uma cópia do R instalada.
Primeiro, precisamos de alguns dados. Recorte e cole os seguintes pedaços de código no R. Lembre-se de que este é um exemplo artificial que eu inventei no local, mas mostra o processo.
Esses são seus dados. Observe que já sabemos a relação entre o resultado, a exposição e a covariável - esse é o objetivo de muitos estudos de simulação (dos quais este é um exemplo extremamente básico. Você começa com uma estrutura que conhece e garante que seu método possa você a resposta certa.
Agora, então, no modelo de regressão. Digite o seguinte:
Você recebeu um Intercept = 2.0 e uma exposição = 0.6766? Ou algo parecido, dado que haverá alguma variação aleatória nos dados? Bom - esta resposta está errada. Nós sabemos que está errado. Por que isso está errado? Falhamos no controle de uma variável que afeta o resultado e a exposição. É uma variável binária, faça como quiser - sexo, fumante / não fumante, etc.
Agora execute este modelo:
Desta vez, você deve obter coeficientes de Interceptação = 2,00, exposição = 0,50 e uma covariável de 0,25. Esta, como sabemos, é a resposta certa. Você controlou para outras variáveis.
Agora, o que acontece quando não sabemos se cuidamos de todas as variáveis que precisamos (nunca realmente fazemos)? Isso é chamado de confusão residual , e é uma preocupação na maioria dos estudos observacionais - que controlamos imperfeitamente, e nossa resposta, embora quase certa, não é exata. Isso ajuda mais?
fonte
Introdução
Gosto da resposta do @ EpiGrad (+1), mas deixe-me ter uma perspectiva diferente. A seguir, refiro-me a este documento em PDF: "Análise de regressão múltipla: estimativa" , que possui uma seção sobre "A 'Partialling Out' Interpretation of Multiple Regression" (p. 83f.). Infelizmente, não tenho idéia de quem é o autor deste capítulo e vou me referir a ele como REGCHAPTER. Uma explicação semelhante pode ser encontrada em Kohler / Kreuter (2009) "Data Analysis Using Stata" , capítulo 8.2.3 "O que significa 'sob controle'?".
Usarei o exemplo do @ EpiGrad para explicar essa abordagem. O código R e os resultados podem ser encontrados no apêndice.
Também deve-se notar que "controlar outras variáveis" só faz sentido quando as variáveis explicativas são moderadamente correlacionadas (colinearidade). No exemplo mencionado acima, a correlação momento do produto entre
exposure
ecovariate
é 0,50, ou seja,Residuals
Suponho que você tenha um entendimento básico do conceito de resíduos na análise de regressão. Aqui está a explicação da Wikipedia : "Se alguém executa uma regressão em alguns dados, os desvios das observações da variável dependente da função ajustada são os resíduos".
O que significa 'sob controle'?
Controlando a variável
covariate
, o efeito (peso da regressão) deexposure
onoutcome
pode ser descrito da seguinte maneira (sou desleixado e pulo a maioria dos índices e todos os chapéus, consulte o texto acima mencionado para obter uma descrição precisa):são os resíduos quando regredirsobre, isto é,residi1
exposure
covariate
Os resíduos "[..] são a parte de que não está correlacionada com x i 2 . [...] Assim, p 1 mede a relação entre a amostra y e x 1 após x 2 foi partialled para fora" ( REGCHAPTER 84). "Parcialmente excluído" significa "controlado por".xeu 1 xeu 2 β^1 y x1 x2
Vou demonstrar essa idéia usando os dados de exemplo do @ EpiGrad. Primeiro, vou regredir
exposure
nocovariate
. Como estou interessado apenas nos resíduoslmEC.resid
, omito a saída.O próximo passo é regredir
outcome
nesses resíduos (lmEC.resid
):Como se pode ver, o peso de regressão paraβeu sou EC. r e s i d= 0,50 0,50
lmEC.resid
(ver Estimado coluna, ) neste regressão simples é igual ao peso de regressão múltipla para , que também é de 0,50 (ver @ a resposta de EpiGrad ou a saída R abaixo).covariate
Apêndice
Código R
Saída R
fonte
É claro que alguma matemática estará envolvida, mas não é muita coisa: Euclides teria entendido bem. Tudo o que você realmente precisa saber é como adicionar e redimensionar vetores. Embora isso atinja o nome de "álgebra linear" hoje em dia, você só precisa visualizá-lo em duas dimensões. Isso nos permite evitar a maquinaria matricial da álgebra linear e focar nos conceitos.
Uma história geométrica
Na primeira figura,y y⋅ 1 α x1 x1 α α β γ
Esta figura realmente começou com os vetores originais (mostrados como linhas sólidas) e y . A "correspondência" de mínimos quadrados de y a x 1 é encontrada usando o múltiplo dex1 y y x1 x1 y α y y⋅ 1 y x1 ⋅ "indicará consistentemente quais vetores foram" correspondentes "," retirados "ou" controlados ".)
Podemos combinar outros vetores parax1 x2 x1 β x1 x2 ⋅ 1
(Não importa que o plano que contém e x 2x1 x2 x1 y x1 x3, x4, … x1
Agora considere o plano que contém os dois resíduosy⋅ 1 x2 ⋅ 1 x2 ⋅ 1 x1 x2 ⋅ 1
(Se houver vetores adicionais, continuaremos esse processo de "remover um correspondente" até que cada um desses vetores seja o correspondente. Em todos os casos, as operações serão as mesmas mostradas aqui e sempre ocorrerão em um avião .)
Aplicação à regressão múltipla
A correspondência pode ser feita sequencialmente e
A ordem na qual a correspondência é feita não importa.
O processo de "remover" um correspondente, substituindo todos os outros vetores por seus resíduos, é geralmente chamado de "controle" do correspondente. Como vimos nas figuras, uma vez que um matcher foi controlado, todos os cálculos subsequentes fazem ajustes perpendiculares a esse matcher. Se desejar, você pode pensar em "controlar" como "contabilizar (no sentido menos quadrado) a contribuição / influência / efeito / associação de um correspondente em todas as outras variáveis".
Referências
Você pode ver tudo isso em ação com dados e código de trabalho na resposta em https://stats.stackexchange.com/a/46508 . Essa resposta pode atrair mais as pessoas que preferem aritmética do que imagens de avião. (A aritmética para ajustar os coeficientes à medida que os fósforos são introduzidos seqüencialmente é simples, no entanto.) A linguagem do casamento é de Fred Mosteller e John Tukey.
fonte
Até agora, há uma excelente discussão sobre o ajuste covariável como um meio de "controlar outras variáveis". Mas acho que isso é apenas parte da história. De fato, existem muitas (outras) estratégias baseadas em design, modelo e aprendizado de máquina para abordar o impacto de várias variáveis possíveis de confusão. Esta é uma breve pesquisa de alguns dos tópicos mais importantes (sem ajustes). Embora o ajuste seja o meio mais utilizado para "controlar" outras variáveis, acho que um bom estatístico deve entender o que faz (e não faz) no contexto de outros processos e procedimentos.
Coincidindo:
A correspondência é um método de projetar uma análise emparelhada, na qual as observações são agrupadas em conjuntos de 2 que são semelhantes nos aspectos mais importantes. Por exemplo, você pode experimentar duas pessoas que concordam em sua educação, renda, ocupação profissional, idade, estado civil (etc. etc.), mas que são discordantes em termos de impaciência. Para exposições binárias, o teste t emparelhado simples é suficiente para testar a diferença média no controle de IMC de todos os recursos correspondentes. Se você estiver modelando uma exposição contínua, uma medida análoga seria um modelo de regressão através da origem das diferenças. Veja Carlin 2005
Ponderação
Randomização e quase aleatorização
É um ponto sutil, mas se você realmente consegue randomizar as pessoas para uma determinada condição experimental, o impacto de outras variáveis é mitigado. É uma condição notavelmente mais forte, porque você nem precisa saber quais são essas outras variáveis. Nesse sentido, você "controlou" a influência deles. Isso não é possível na pesquisa observacional, mas acontece que os métodos de pontuação de propensão criam uma medida probabilística simples para a exposição que permite ponderar, ajustar ou combinar os participantes para que possam ser analisados da mesma maneira que um estudo quase aleatório . Veja Rosenbaum, Rubin 1983 .
Microssimulação
Outra maneira de simular dados que podem ter sido obtidos de um estudo randomizado é realizar microssimulação. Aqui, pode-se realmente voltar sua atenção para modelos de aprendizado de máquina maiores e mais sofisticados. Um termo que Judea Pearl cunhou de que gosto é " Oracle Models ": redes complexas capazes de gerar previsões e previsões para diversos recursos e resultados. Acontece que é possível "dobrar" as informações desse modelo de oráculo para simular resultados em uma coorte equilibrada de pessoas que representam uma coorte aleatória, equilibrada em sua distribuição "variável de controle" e usando rotinas simples de teste t para avaliar a magnitude e precisão de possíveis diferenças. Veja Rutter, Zaslavsky e Feuer 2012
Correspondência, ponderação e ajuste covariável em um modelo de regressão estimam todas as mesmas associações e, portanto, todos podem ser considerados formas de "controle" de outras variáveis .
fonte
fonte