Em todos os contextos, eu estou familiarizado com a validação cruzada, que é usada apenas com o objetivo de aumentar a precisão preditiva. A lógica da validação cruzada pode ser estendida na estimativa das relações imparciais entre variáveis?
Embora este artigo de Richard Berk demonstre o uso de uma amostra de espera para seleção de parâmetros no modelo de regressão "final" (e demonstre por que a seleção de parâmetros passo a passo não é uma boa ideia), ainda não vejo como isso garante exatamente estimativas imparciais do efeito X tem sobre Y mais do que escolher um modelo baseado na lógica e no conhecimento prévio do assunto.
Peço que as pessoas citem exemplos nos quais alguém usou uma amostra para auxiliar na inferência causal ou ensaios gerais que possam ajudar minha compreensão. Também não duvido que minha concepção de validação cruzada seja ingênua e, portanto, se assim for. Parece improvável que o uso de uma amostra estendida seja passível de inferência causal, mas não conheço nenhum trabalho que faça isso ou como eles fariam isso.
Citação do Berk Paper:
Inferência estatística após a seleção do modelo por: Richard Berk, Lawrence Brown, Linda Zhao Jornal de Quantitative Criminology, vol. 26, n ° 2. (1 de junho de 2010), pp. 217-236.
Versão em PDF aqui
Esta pergunta sobre análise exploratória de dados em pequenos estudos de amostra por chl levou a essa pergunta.
fonte
Essa é uma pergunta realmente interessante e não ofereço citações específicas. No entanto, em geral, eu diria que NÃO, por si só, a validação cruzada não oferece nenhuma percepção da causalidade. Na ausência de um experimento planejado, a questão da causalidade é sempre incerta. Como você sugere, a validação cruzada pode e melhorará a precisão preditiva. Isso, por si só, não diz nada sobre causalidade.
Na ausência de um experimento planejado, a inferência causal exigiria um modelo que inclua todos os preditores relevantes - algo que raramente podemos garantir em um estudo observacional. Além disso, uma variável de atraso simples, por exemplo (ou qualquer coisa altamente correlacionada com qualquer resultado que estávamos tentando prever) produziria um bom modelo e um que pudesse ser validado em várias amostras. Isso não significa, no entanto, que possamos inferir causalidade. A validação cruzada garante repetibilidade nas previsões e nada mais. Causalidade é uma questão de design e lógica.
EDIT: Aqui está um exemplo para ilustrar. Eu poderia construir um modelo com boa precisão preditiva que prediz a população de uma cidade com base na quantidade de dinheiro que a cidade gasta na remoção de lixo. Eu poderia usar a validação cruzada para testar a precisão desse modelo, bem como outros métodos para melhorar a precisão da previsão e obter parâmetros mais estáveis. Agora, enquanto este modelo funciona muito bem para a previsão, a lógica causal está errada - a direção causal é invertida. Não importa o que as pessoas do Departamento de Obras Públicas possam argumentar, aumentar seu orçamento para a remoção de lixo não seria uma boa estratégia para aumentar a população da cidade (a interpretação causal).
As questões de precisão e repetibilidade de um modelo são separadas da nossa capacidade de fazer inferências causais sobre os relacionamentos que observamos. A validação cruzada nos ajuda com o primeiro e não com o último. Agora, se estivermos estimando um modelo "correto" em termos de especificação de um relacionamento casual (por exemplo, tentando determinar qual orçamento de remoção de lixo deve ser baseado na população esperada para o próximo ano), a validação cruzada pode nos ajudar a ter maior confiança em nossa estimativa desse efeito. No entanto, a validação cruzada não ajuda a escolher o modelo "correto" em relação aos relacionamentos causais. Novamente, aqui precisamos contar com o design do estudo, nossa experiência no assunto, teoria e lógica.
fonte
Parece-me que sua pergunta geralmente trata de diferentes tipos de validação para um modelo preditivo: a validação cruzada tem um pouco mais a ver com a validade interna , ou pelo menos com o estágio inicial de modelagem, enquanto o estabelecimento de vínculos causais em uma população mais ampla está mais relacionado a validade externa. Com isso (e como uma atualização após a observação de @ Brett), quero dizer que geralmente construímos um modelo em uma amostra de trabalho, assumindo um modelo conceitual hipotético (ou seja, especificamos as relações entre preditores e o (s) resultado (s) de interesse), e tentamos obter estimativas confiáveis com uma taxa de erro de classificação mínima ou um erro de previsão mínimo. Felizmente, quanto melhor o modelo executar, melhor nos permitirá prever resultados em dados não vistos; ainda assim, o CV não diz nada sobre a "validade" ou adequação dos elos causais hipotéticos. Certamente, podemos obter resultados decentes com um modelo em que alguns efeitos de moderação e / ou mediação são negligenciados ou simplesmente desconhecidos antecipadamente.
O que quero dizer é que, seja qual for o método usado para validar seu modelo (e o método de validação certamente não é o melhor, mas ainda é amplamente usado em estudos epidemiológicos para aliviar os problemas decorrentes da construção de modelos por etapas), você trabalha com a mesma amostra (que assumimos ser representativo de uma população maior). Pelo contrário, generalizar os resultados e os elos causais inferidos dessa maneira para novas amostras ou para uma população plausivelmente relacionada é geralmente feito por estudos de replicação . Isso garante que possamos testar com segurança a capacidade preditiva de nosso modelo em uma "superpopulação", que apresenta uma gama maior de variações individuais e pode exibir outros fatores de interesse em potencial.
Seu modelo pode fornecer previsões válidas para sua amostra de trabalho e inclui todos os possíveis fatores de confusão em que você pode pensar; no entanto, é possível que ele não funcione tão bem com novos dados, apenas porque outros fatores aparecem no caminho causal intermediário que não foram identificados ao criar o modelo inicial. Isso pode acontecer se alguns dos preditores e os elos causais inferidos a partir deles dependerem do centro de estudo específico em que os pacientes foram recrutados, por exemplo.
Na epidemiologia genética, muitos estudos de associação em todo o genoma falham em se replicar apenas porque estamos tentando modelar doenças complexas com uma visão simplificada sobre relações causais entre marcadores de DNA e o fenótipo observado, embora seja muito provável que o gene-gene (epistasia), doenças gênicas (pleiotropia), ambiente genético e subestrutura populacional entram em cena, mas veja, por exemplo , Validando, aumentando e refinando os sinais de associação em todo o genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Portanto, podemos construir um modelo de desempenho para explicar as variações cruzadas observadas entre um conjunto de marcadores genéticos (com tamanho de efeito muito baixo e esparso) e um padrão multivariado de fenótipos observados (por exemplo, volume de matéria branca / cinza ou atividades localizadas no cérebro, como observado por meio da ressonância magnética, respostas à avaliação neuropsicológica ou inventário de personalidade), mas não terá o desempenho esperado em uma amostra independente.
Quanto a uma referência geral sobre esse tópico, é possível recomendar o capítulo 17 e a Parte III dos Modelos de Previsão Clínica , de EW Steyerberg (Springer, 2009). Também gosto do seguinte artigo de Ioannidis:
fonte
Essa é uma boa pergunta, mas a resposta é definitivamente não: a validação cruzada não melhorará a inferência causal. Se você tiver um mapeamento entre sintomas e doenças, a validação cruzada ajudará a garantir que seu modelo corresponda melhor à sua distribuição conjunta melhor do que se você tivesse simplesmente encaixado seu modelo em todo o conjunto de dados brutos, mas nunca poderá dizer nada sobre a direcionalidade da causalidade.
A validação cruzada é muito importante e vale a pena estudar, mas não faz nada além de impedir que você ajuste demais o ruído em seu conjunto de dados. Se você quiser entender mais, sugiro o Capítulo 7 da ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
fonte
Para responder ao follow-up @Andy postou como resposta aqui ...
Acho que o que você quer dizer é a discrepância nas estimativas de parâmetros nos dá motivos para acreditar que nenhuma delas representa o verdadeiro efeito causal. Eu concordo com isso, embora já tivéssemos muitas razões para sermos céticos de que esse modelo renderia o verdadeiro efeito causal.
Eis a minha opinião: Dados excessivos são uma fonte de estimativas de parâmetros tendenciosos, e sem nenhuma razão para acreditar que esse viés compensa outras fontes de viés na estimativa de um efeito causal específico, deve ser melhor, em média, estimar os efeitos causais sem ajustar demais os dados. A validação cruzada impede o ajuste excessivo, portanto, deve, em média, melhorar as estimativas de efeitos causais.
Mas se alguém está tentando me convencer a acreditar na estimativa de um efeito causal a partir de dados observacionais, provar que eles não ajustaram demais os dados é de baixa prioridade, a menos que eu tenha fortes razões para suspeitar que sua estratégia de modelagem provavelmente tenha excesso de ajuste.
Nas aplicações de ciências sociais com as quais trabalho, estou muito mais preocupado com questões substantivas, questões de medição e verificações de sensibilidade. Por verificações de sensibilidade, quero dizer estimar variações no modelo em que os termos são adicionados ou removidos e estimar modelos com interações que permitem que o efeito do interesse varie entre os subgrupos. Quanto essas mudanças no modelo estatístico afetam a estimativa de parâmetros que queremos interpretar causalmente? As discrepâncias neste parâmetro são estimadas entre as especificações ou subgrupos do modelo, compreensíveis em termos da história causal que você está tentando contar ou sugerem um efeito impulsionado por, por exemplo, seleção.
De fato, antes de executar essas especificações alternativas. Anote como você acha que sua estimativa de parâmetros mudará. É ótimo se sua estimativa de interesse de parâmetro não variar muito entre subgrupos ou especificações - no contexto do meu trabalho, isso é mais importante do que a validação cruzada. Mas outras questões substantivas que afetam minha interpretação ainda são mais importantes.
fonte
Agradeço a todos por suas respostas, mas a pergunta cresceu para algo que eu não pretendia, sendo principalmente um ensaio sobre a noção geral de inferência causal sem resposta correta.
Inicialmente, pretendi que a questão investigasse o público em busca de exemplos do uso da validação cruzada para inferência causal. Eu tinha assumido que tais métodos existiam, pois a noção de usar uma amostra de teste e reter uma amostra para avaliar a repetibilidade das estimativas de efeito me parecia lógica. Como John observou, o que eu estava sugerindo não é diferente do bootstrapping, e eu diria que ele se assemelha a outros métodos que usamos para validar resultados, como testes de especificidade de subconjuntos ou variáveis dependentes não equivalentes (o bootstrapping relaxa suposições paramétricas de modelos e o subconjunto os testes de maneira mais geral são usados para verificar se os resultados são lógicos em situações variadas). Nenhum desses métodos atende a nenhum dos outros padrões de prova de inferência causal, mas acredito que ainda sejam úteis para a inferência causal.
O comentário de chl está correto, pois minha afirmação sobre o uso da validação cruzada é uma verificação da validade interna para ajudar na inferência causal. Mas peço que descartemos a distinção entre validade interna e externa por enquanto, pois isso não ajuda em nada no debate. Como exemplo de estudos amplos do genoma em epidemiologia, chl consideraria um exemplo primordial de baixa validade interna, tornando fortes inferências inerentemente duvidosas. Eu acho que os estudos da associação do genoma são na verdade um exemplo do que eu pedi. Você acha que as inferências entre genes e doenças são aprimoradas pelo uso da validação cruzada (em oposição a apenas jogar todos os marcadores em um modelo e ajustar os valores de p de acordo?)
Abaixo colei uma cópia de uma tabela no artigo de Berk que citei na minha pergunta. Embora essas tabelas demonstrem a lógica falsa do uso de critérios de seleção passo a passo e inferência causal no mesmo modelo, vamos fingir que nenhum critério de seleção de modelo foi usado e os parâmetros na amostra de treinamento e de retenção foram determinados .. Isso não me parece um resultado irreal. Embora eu não possa dizer qual estimativa está correta e qual é falsa, a inconsistência nas estimativas de Convicção de Assalto e de Arma entre os dois modelos duvida que um deles tenha um verdadeiro efeito causal no comprimento da sentença? O conhecimento dessa variação não é útil? Se não perdermos nada com uma amostra de espera para testar nosso modelo, por que não podemos usar a validação cruzada para melhorar a inferência causal (ou estou perdendo o que estamos perdendo usando uma amostra de espera?)
fonte
Eu acho que essa é uma maneira intuitiva de pensar sobre a relação entre CV e inferência causal: (por favor, corrija se eu estiver errado)
Eu sempre penso no CV como uma maneira de avaliar o desempenho de um modelo nas previsões. No entanto, na inferência causal, estamos mais preocupados com algo equivalente à Navalha de Occam (parcimônia), portanto, o CV não ajudará.
Obrigado.
fonte