As técnicas de seleção variável, em geral (seja passo a passo, para trás, para frente, todos os subconjuntos, AIC etc.), capitalizam o acaso ou padrões aleatórios nos dados da amostra que não existem na população. O termo técnico para isso é excessivo e é especialmente problemático para conjuntos de dados pequenos, embora não seja exclusivo deles. Ao usar um procedimento que seleciona variáveis com base no melhor ajuste, todas as variações aleatórias que se parecem com esse exemplo específico contribuem para estimativas e erros padrão. Este é um problema para a previsão e a interpretação do modelo.
Especificamente, o quadrado r é muito alto e as estimativas de parâmetros são enviesadas (estão muito longe de 0), os erros padrão dos parâmetros são muito pequenos (e, portanto, os valores de p e os intervalos em torno dos parâmetros são muito pequenos / estreitos).
A melhor linha de defesa contra esses problemas é construir modelos cuidadosamente e incluir os preditores que fazem sentido com base na teoria, lógica e conhecimento anterior. Se um procedimento de seleção de variáveis for necessário, você deve selecionar um método que penalize as estimativas de parâmetros (métodos de encolhimento) ajustando os parâmetros e os erros padrão para levar em consideração o ajuste excessivo. Alguns métodos comuns de encolhimento são a regressão de cume, a regressão de menor ângulo ou o laço. Além disso, a validação cruzada usando um conjunto de dados de treinamento e um conjunto de dados de teste ou média do modelo pode ser útil para testar ou reduzir os efeitos do ajuste excessivo.
Harrell é uma ótima fonte para uma discussão detalhada desses problemas. Harrell (2001). "Estratégias de modelagem de regressão."
No contexto das ciências sociais de onde eu venho, a questão é se você está interessado em (a) previsão ou (b) testar uma questão de pesquisa focada. Se o objetivo é a previsão, as abordagens orientadas a dados são apropriadas. Se o objetivo é examinar uma questão de pesquisa focada, é importante considerar qual modelo de regressão testa especificamente sua pergunta.
Por exemplo, se sua tarefa era selecionar um conjunto de testes de seleção para prever o desempenho do trabalho, o objetivo pode, em certo sentido, ser visto como um de maximizar a previsão do desempenho do trabalho. Assim, abordagens orientadas a dados seriam úteis.
Por outro lado, se você quiser entender o papel relativo das variáveis de personalidade e variáveis de capacidade em influenciar o desempenho, uma abordagem específica de comparação de modelos pode ser mais apropriada.
Normalmente, ao explorar questões de pesquisa focadas, o objetivo é elucidar algo sobre os processos causais subjacentes que estão operando em oposição ao desenvolvimento de um modelo com previsão ideal.
Quando estou no processo de desenvolvimento de modelos sobre processos baseados em dados transversais, fico desconfiado: (a) incluindo preditores que teoricamente poderiam ser considerados conseqüências da variável de resultado. Por exemplo, a crença de uma pessoa de que ela é uma boa executora é um bom indicador do desempenho no trabalho, mas é provável que isso seja pelo menos parcialmente causado pelo fato de ter observado seu próprio desempenho. (b) incluindo um grande número de preditores que refletem os mesmos fenômenos subjacentes. Por exemplo, incluindo 20 itens, todos medindo a satisfação com a vida de maneiras diferentes.
Assim, as perguntas de pesquisa focadas dependem muito mais do conhecimento específico do domínio. Isso provavelmente explica de alguma maneira por que abordagens orientadas a dados são usadas com menos frequência nas ciências sociais.
fonte
Não acho que seja possível fazer Bonferoni ou correções semelhantes para ajustar a seleção de variáveis na regressão, porque todos os testes e etapas envolvidos na seleção de modelos não são independentes.
Uma abordagem é formular o modelo usando um conjunto de dados e fazer inferência em um conjunto diferente de dados. Isso é feito na previsão o tempo todo em que temos um conjunto de treinamento e um conjunto de testes. Não é muito comum em outros campos, provavelmente porque os dados são tão preciosos que queremos usar todas as observações para seleção de modelos e inferência. No entanto, como você observa na sua pergunta, a desvantagem é que a inferência é realmente enganosa.
Existem muitas situações em que uma abordagem baseada na teoria é impossível, pois não existe uma teoria bem desenvolvida. Na verdade, acho que isso é muito mais comum do que os casos em que a teoria sugere um modelo.
fonte
Richard Berk tem um artigo recente em que ele demonstra, através de simulação, os problemas de tais bisbilhoteiros de dados e inferência estatística. Como Rob sugeriu , é mais problemático do que simplesmente corrigir vários testes de hipóteses.
Inferência estatística após a seleção do modelo por: Richard Berk, Lawrence Brown, Linda Zhao Jornal de Quantitative Criminology, vol. 26, n ° 2. (1 de junho de 2010), pp. 217-236.
Versão em PDF aqui
fonte
Se entendi bem a sua pergunta, a resposta para o seu problema é corrigir os valores de p de acordo com o número de hipóteses.
Por exemplo, correções de Holm-Bonferoni, nas quais você classifica a hipótese (= seus diferentes modelos) pelo valor de p e rejeita aqueles com uma amostra igual a (valor de p / índice desejado).
Mais sobre o tópico pode ser encontrado na Wikipedia
fonte