Como um modelo de regressão pode ser útil se você não conhece a função para a qual está tentando obter os parâmetros?
Vi uma pesquisa que dizia que as mães que amamentavam seus filhos eram menos propensas a sofrer de diabetes mais tarde na vida. A pesquisa foi realizada a partir de uma pesquisa com cerca de 1000 mães e controlada por fatores diversos e foi utilizado um modelo loglinear.
Agora, isso significa que eles calculam que todos os fatores que determinam a probabilidade de diabetes se encaixam em uma função agradável (presumivelmente exponencial) que se traduz nitidamente em um modelo linear com registros e que se a mulher que foi amamentada se mostrou estatisticamente significativa?
Estou sentindo falta de algo, tenho certeza, mas como diabos eles conhecem o modelo?
fonte
Respostas:
Ajuda a visualizar a regressão como uma aproximação linear da forma verdadeira. Suponha que o verdadeiro relacionamento seja
fonte
O outro lado da resposta, complementar à resposta de mpiktas, mas não mencionado até agora, é:
"Eles não, mas assim que assumem alguma estrutura de modelo, eles podem compará-la com os dados".
As duas coisas básicas que podem dar errado são: A forma da função, por exemplo, nem é linear nos logs. Então você começaria plotando um resíduo apropriado em relação aos valores esperados. Ou a escolha da distribuição condicional , por exemplo, as contagens observadas superdispersas em relação a Poisson. Portanto, você testaria uma versão do Binomial negativo do mesmo modelo ou veria se as covariáveis extras representam a variação extra.
Você também gostaria de verificar discrepâncias, observações influentes e uma série de outras coisas. Um lugar razoável para ler sobre como verificar esses tipos de problemas de modelo é o capítulo 5 de Cameron e Trivedi 1998. (Há certamente um lugar melhor para o início de pesquisadores epidemiologicamente orientados - talvez outras pessoas possam sugerir isso).
Se esses diagnósticos indicassem que o modelo falhou em ajustar os dados, você alteraria o aspecto relevante do modelo e iniciaria todo o processo novamente.
fonte
Uma excelente primeira pergunta! Concordo com a resposta de mpiktas, ou seja, a resposta curta é "eles não, mas esperam ter uma aproximação ao modelo certo que dê aproximadamente a resposta certa".
No jargão da epidemiologia, esse modelo de incerteza é uma fonte do que é conhecido como ' confusão residual '. Veja a página de Steve Simon 'O que é confusão residual?' para uma boa descrição curta, ou o artigo de Heiko Becher, de 1992, em Statistics in Medicine (requer assinatura), para um tratamento mais longo e matemático, ou o artigo mais recente de Fewell, Davey Smith & Sterne no American Journal of Epidemiology (assinatura solicitada )
Essa é uma das razões pelas quais a epidemiologia dos pequenos efeitos é difícil e os resultados geralmente controversos - se o tamanho do efeito medido for pequeno, é difícil descartar confusão residual ou outras fontes de viés como explicação.
fonte
Existe a famosa citação "Essencialmente, todos os modelos estão errados, mas alguns são úteis" de George Box . Ao ajustar modelos como esse, tentamos (ou devemos) pensar sobre o processo de geração de dados e as relações físicas, no mundo real, entre a resposta e as covariáveis. Tentamos expressar esses relacionamentos em um modelo que se encaixa nos dados. Ou, dito de outra maneira, é consistente com os dados. Como tal modelo empírico é produzido.
Se é útil ou não, é determinado mais tarde - fornece previsões boas e confiáveis, por exemplo, para mulheres que não estão acostumadas ao modelo? Os coeficientes do modelo são interpretáveis e de uso científico? Os tamanhos dos efeitos são significativos?
fonte
As respostas que você já obteve são excelentes, mas vou dar uma resposta (espero) complementar da perspectiva de um epidemiologista. Eu realmente tenho três pensamentos sobre isso:
Primeiro, eles não. Veja também: Todos os modelos estão errados, alguns modelos são úteis. O objetivo não é produzir um número único e definitivo, considerado a "verdade" de uma função subjacente. O objetivo é produzir uma estimativa dessa função, com uma quantificação da incerteza em torno dela, que é uma aproximação razoável e útil da função subjacente.
Isto é especialmente verdade para medidas de efeito grande. A mensagem "retirar" de um estudo que considera um risco relativo de 3,0 não é realmente diferente se o relacionamento "verdadeiro" for 2,5 ou 3,2. Como a @onestop mencionou, isso fica mais difícil com pequenas estimativas de medidas de efeito, porque a diferença entre 0,9, 1,0 e 1,1 pode ser enorme do ponto de vista de saúde e política.
Segundo, há um processo oculto na maioria dos trabalhos de Epidemiologia. Esse é o processo de seleção de modelo real . Tendemos a relatar o modelo com o qual acabamos, não todos os modelos que consideramos (porque isso seria cansativo, se nada mais). Existem várias etapas de construção de modelos, diagramas conceituais, diagnósticos, estatísticas de ajuste, análise de sensibilidade, xingamentos em computadores e rabiscos em quadros brancos envolvidos na análise de pequenos estudos observacionais.
Porque enquanto você está fazendo suposições, muitas delas também são suposições que você pode verificar.
Terceiro, às vezes não. E então vamos a conferências e discutimos sobre isso;)
Se você está interessado nos detalhes da Epidemiologia como um campo e em como realizamos pesquisas, o melhor lugar para começar é provavelmente a Modern Epidemiology 3rd Edition de Rothman, Greenland and Lash. É uma visão geral moderadamente técnica e muito boa de como a pesquisa Epi é conduzida.
fonte