De Modern Epidemiology 3rd Edition por Rothman, Greenland and Lash:
Existem pelo menos três formas de superação. O primeiro refere-se à correspondência que prejudica a eficiência estatística, como a correspondência de controle de caso em uma variável associada à exposição, mas não à doença. O segundo refere-se à correspondência que prejudica a validade, como a correspondência em um intermediário entre exposição e doença. O terceiro refere-se à correspondência que prejudica a eficiência de custos.
A resposta de AndyW é sobre a segunda forma de ultrapassagem. Resumidamente, veja como eles funcionam:
1: Para ser um fator de confusão, um dos critérios é que a covariável esteja associada ao resultado e à exposição. Se estiver associado apenas a um deles, não é um fator de confusão e tudo o que você conseguiu fazer foi aumentar seu intervalo de confiança.
Para explorar ainda mais esse tipo de superação, considere um estudo de caso-controle correspondente de uma exposição binária, com um controle correspondente a cada caso em um ou mais fatores de confusão. Cada estrato na análise consistirá em um caso e um controle, a menos que alguns estratos possam ser combinados. Se o caso e seu controle correspondente forem expostos ou não expostos, uma margem da tabela 2 x 2 será 0 ... esse par de sujeitos não contribuirá com nenhuma informação para a análise. Se alguém estratifica em correlatos de exposição, aumenta a chance de tais tabelas ocorrerem e, portanto, tende a aumentar as informações perdidas na análise estratificada.
2: Isso é parcialmente discutido por AndyW. A correspondência em um fator intermediário influenciará sua estimativa, assim como a correspondência em algo afetado pela exposição e pelo resultado. Isso é essencialmente controlar um colisor, e qualquer técnica que o faça irá influenciar sua estimativa.
Se, no entanto, o fator de correspondência potencial for afetado pela exposição e o fator, por sua vez, afetar a doença (ou seja, é uma variável intermediária) ou for afetado pela exposição e pela doença, a correspondência no fator influenciará o efeito bruto e ajustado estimativas. Nessas situações, a correspondência caso-controle nada mais é do que uma forma irreparável de viés de seleção.
3: Esse é mais um problema de design de estudo. A correspondência extensiva de variáveis nas quais você não precisa corresponder pelos motivos 1 e 2 pode fazer com que você rejeite controles facilmente obtidos (amigos, família, rede social próxima etc.) em favor de controles muito mais difíceis de obter que podem ser comparados com os conjunto desnecessário de covariáveis. Isso custa dinheiro - dinheiro que poderia ter sido gasto em mais assuntos, melhor exposição ou apuração de doenças, etc., sem ganho apreciável de preconceito ou precisão e, de fato, ameaçando ambos.
Embora eu também ignorasse a terminologia de "excesso de correspondência", um exemplo da mesma idéia que ouvi na linguagem econômica e estatística poderia estar correspondendo a um resultado "intermediário". Veja as publicações de Andrew Gelman sobre o assunto
Esse é o mesmo problema descrito no começo do artigo que você cita ( Marsh et al., 2002 )
Gelman dá um exemplo conceitualmente claro no post "Fazer filhos torná-lo mais conservador"? Em termos simples (sem exemplos), é só você ter suas direções causais ao contrário.
fonte