Atualmente, estou trabalhando em um problema no qual temos um pequeno conjunto de dados e estamos interessados no efeito causal de um tratamento no resultado.
Meu orientador me instruiu a realizar uma regressão univariada em cada preditor com o resultado como resposta e, em seguida, a atribuição do tratamento como resposta. Ou seja, me pedem para ajustar uma regressão com uma variável de cada vez e fazer uma tabela dos resultados. Perguntei "por que deveríamos fazer isso?", E a resposta foi algo para o efeito de "estamos interessados em quais preditores estão associados à atribuição do tratamento e ao resultado, pois isso provavelmente indicaria um fator de confusão". Meu orientador é um estatístico treinado, não um cientista em um campo diferente, por isso estou inclinado a confiar neles.
Isso faz sentido, mas não está claro como usar o resultado da análise univariada. Fazer escolhas de seleção de modelo a partir disso resultaria em viés significativo das estimativas e intervalos de confiança estreitos? Por que alguém deveria fazer isso? Estou confuso e meu consultor está sendo bastante opaco sobre o assunto quando eu o levantei. Alguém tem recursos sobre essa técnica?
(NB: meu orientador disse que NÃO estamos usando valores-p como ponto de corte, mas que queremos considerar "tudo".)
Respostas:
O contexto causal da sua análise é um qualificador chave na sua pergunta. Na previsão, a execução de regressões univariadas antes de várias regressões no espírito do "método de seleção proposital" sugerido por Hosmer e Lemenshow tem um objetivo. No seu caso, em que você está construindo um modelo causal, a execução de regressões univariadas antes de executar a regressão múltipla tem um objetivo completamente diferente. Deixe-me expandir sobre o último.
Você e seu instrutor devem ter em mente um determinado gráfico causal. Gráficos causais têm implicações testáveis. Sua missão é começar com o conjunto de dados que você possui e retornar ao modelo causal que pode ter gerado. As regressões univariadas que ele sugeriu que você execute constituem provavelmente o primeiro passo no processo de testar as implicações do gráfico causal que você tem em mente. Suponha que você acredite que seus dados foram gerados pelo modelo causal mostrado no gráfico abaixo. Suponha que você esteja interessado no efeito causal de D em E. O gráfico abaixo sugere uma série de implicações testáveis, como:
Mencionei que este é apenas o primeiro passo no processo de busca causal porque a verdadeira diversão começa quando você começa a executar várias regressões, condicionando diferentes variáveis e testando se o resultado da regressão é consistente com a implicação do gráfico. Por exemplo, o gráfico acima sugere que E e A devem ser independentes quando você condicionar em D. Em outras palavras, se você regredir E em D e A e descobrir que o coeficiente em A não é igual a zero, você concluirá que E depende de A, depois da condição de D e, portanto, que o gráfico causal deve estar errado. Ele ainda fornece dicas de como alterar seu gráfico causal, porque o resultado dessa regressão sugere que deve haver um caminho entre A e E que não seja separado por D.
fonte
Antes de tentar responder, gostaria de salientar que o tipo de dados e sua distribuição podem afetar a maneira como você os avalia / regride / classifica.
Você também pode querer procurar aqui o método que seu orientador pode querer que você use.
Um pouco de fundo. Embora seja possível usar uma ferramenta de seleção de modelos, você ainda precisa saber por que um preditor foi usado ou deixado de fora. Essas ferramentas podem ser uma caixa preta. Você deve entender completamente seus dados e poder declarar por que um determinado preditor foi selecionado. (Especialmente, estou assumindo um projeto de tese / mestrado.)
Por exemplo, observe o preço das casas e a idade. O preço das casas geralmente diminui com a idade. Portanto, quando você vê uma casa antiga com um preço alto em seus dados, pareceria um valor externo a ser removido, mas esse não é o caso.
Quanto a (NB: meu orientador disse que NÃO estamos usando valores-p como ponto de corte, mas que queremos considerar "tudo".) . Os algoritmos / programas de recall são limitados e não podem exibir a imagem inteira.
Por que você pode fazer regressão univariada em cada atribuição de preditor / tratamento.
Isso poderia ajudar na seleção dos preditores a serem incluídos no modelo multivariado básico. A partir desse modelo básico, você procuraria ver se esses preditores são significativos e devem permanecer ou se devem ser removidos com o objetivo de obter um modelo parcimonioso.
Ou pode ser melhor você entender melhor os dados.
fonte
Eu acho que seu supervisor está pedindo para você realizar uma primeira análise dos dados com o objetivo de identificar se alguma das variáveis pode explicar uma fração significativa da variação nos dados.
Depois de concluir se alguma das variáveis pode explicar parte da variabilidade, você poderá avaliar como elas funcionam juntas, se são colineares ou se correlacionam entre si, etc. Em uma fase puramente exploratória, para se fazer uma análise multivariada poderia dificultar uma primeira avaliação, porque, construindo cada variável, você removeria o efeito das outras. Poderia ser mais difícil avaliar se alguma das variáveis poderia explicar alguma variação.
fonte
Essa pode ser uma abordagem para entender os dados, mas a experiência mostra que as previsões variarão quando você usar todos os preditores combinados e cada um deles, um por um. Isso é apenas algo que entendemos a previsibilidade dos dados e o que precisa ser feito para etapas futuras.
Eu já vi muitas vezes quando, com todas as variáveis, o valor p diz que algumas variáveis não são significativas, mas apenas com essas variáveis não significativas, elas foram significativas o suficiente. Isso se deve ao efeito misto: não é que seu supervisor esteja errado, mas para entender os dados, precisamos fazer isso.
fonte