Examinei muitos conjuntos de dados R, postagens no DASL e em outros lugares, e não estou encontrando muitos bons exemplos de conjuntos de dados interessantes que ilustram a análise de covariância para dados experimentais. Existem inúmeros conjuntos de dados "de brinquedo" com dados inventados nos livros de estatística.
Eu gostaria de ter um exemplo em que:
- Os dados são reais, com uma história interessante
- Há pelo menos um fator de tratamento e duas covariáveis
- Pelo menos uma covariável é afetada por um ou mais dos fatores de tratamento e uma não é afetada por tratamentos.
- Experimental, em vez de observacional, de preferência
fundo
Meu objetivo real é encontrar um bom exemplo para colocar na vinheta do meu pacote R. Mas um objetivo maior é que as pessoas precisem ver bons exemplos para ilustrar algumas preocupações importantes na análise de covariância. Considere o seguinte cenário inventado (e entenda que meu conhecimento sobre agricultura é superficial, na melhor das hipóteses).
- Fazemos um experimento em que os fertilizantes são distribuídos aleatoriamente em parcelas e uma colheita é plantada. Após um período de crescimento adequado, colhemos a colheita e medimos algumas características de qualidade - essa é a variável de resposta. Mas também registramos a precipitação total durante o período de crescimento e a acidez do solo no momento da colheita - e, é claro, qual fertilizante foi usado. Assim, temos duas covariáveis e um tratamento.
A maneira usual de analisar os dados resultantes seria ajustar um modelo linear com o tratamento como fator e efeitos aditivos para as covariáveis. Em seguida, para resumir os resultados, calcula-se "médias ajustadas" (médias de mínimos quadrados AKA), que são previsões do modelo para cada fertilizante, na precipitação média e na acidez média do solo3. Isso coloca tudo em pé de igualdade, porque, quando comparamos esses resultados, mantemos a precipitação e a acidez constantes.
Mas isso é provavelmente a coisa errada a se fazer - porque o fertilizante provavelmente afeta a acidez do solo e a resposta. Isso torna os meios ajustados enganosos, porque o efeito do tratamento inclui seu efeito na acidez. Uma maneira de lidar com isso seria retirar a acidez do modelo, e os meios ajustados pelas chuvas forneceriam uma comparação justa. Mas se a acidez é importante, essa equidade tem um grande custo, no aumento da variação residual.
Existem maneiras de contornar isso usando uma versão ajustada da acidez no modelo em vez de seus valores originais. A próxima atualização do meu pacote R lsmeans tornará isso absolutamente fácil. Mas quero ter um bom exemplo para ilustrá-lo. Serei muito grato e reconhecerei devidamente qualquer pessoa que possa me indicar alguns bons conjuntos de dados ilustrativos.
Respostas:
Você pode querer verificar o
mediation
pacote R. Inclui dados experimentais comojobs
eframing
onde a variável de tratamento afeta tanto uma variável de resposta quanto covariáveis (isto é, mediadores do efeito do tratamento), juntamente com covariáveis não afetadas pelo tratamento.Examinei a literatura sobre mediação porque, embora você tenha descrito exatamente um estudo de mediação: o efeito do fertilizante na qualidade da colheita é mediado pelo efeito na acidez do solo. Mesmo que os conjuntos de dados no
mediation
pacote não o satisfaçam, você poderá encontrar um se examinar a literatura de mediação.fonte
framing
dados, os gráficos de interação de LSmeans (com base em um modelo logístico) quando a variável mediadora é mantida fixa são drasticamente diferentes daqueles em que ela é configurada para valores previstos por tratamentos e outras covariáveis, mostrando assim a importância de realizar a mediação. variável em consideração.Pensei em mostrar como sai uma análise com um dos conjuntos de dados no pacote de mediação . Em
framing
, é realizado um experimento em que os sujeitos têm a oportunidade de enviar uma mensagem ao Congresso sobre imigração. No entanto, alguns assuntos (treat=1
) foram mostrados pela primeira vez em uma notícia que retrata os latinos de maneira negativa. Além da resposta binária (se eles enviaram ou não uma mensagem), também medimosemp
o estado emocional dos sujeitos após a aplicação do tratamento. Existem várias variáveis demográficas também.Primeiro, vamos carregar os pacotes necessários em R e alterar os rótulos para
educ
cadeias mais curtas.Agora, ajuste um modelo de regressão logística
Aqui é um visor das médias ajustadas convencionais, em que as previsões são feitas com as co-variáveis
age
,income
eemo
definidos os seus valores médios:Este é um resultado curioso, porque os efeitos do tratamento exibidos são opostos para as mulheres e para os homens, e o efeito da educação não é monótono como se poderia esperar.
Note, no entanto,
emo
é uma medida pós-tratamento. Isso significa que o tratamento poderia ter afetado, ou seja,emo
é uma covariável mediadora; e, portanto, pode não ser significativo comparar as previsões da variável resposta, mantendoemo
constante. Em vez disso, vejamos as previsões em queemo
é definido com os valores previstos fornecidostreat
e as variáveis demográficas.Esse resultado é bem diferente, sugerindo que
emo
desempenha um forte papel mediador. (O pacote de mediação tem funções para estimar a força desses efeitos.) As previsões acima sugerem que, levando em consideração a resposta emocional, os sujeitos do sexo masculino expostos à notícia negativa têm mais probabilidade de enviar a mensagem do que as mulheres ou os que não estão vendo a cena. notícia negativa. Além disso, o efeito deeduc
é (quase) monótono.Mais uma vez obrigado a @MasatoNakagawa por me indicar este exemplo interessante e por me sintonizar com algumas pesquisas recentes sobre causalidade.
fonte
Pesquise estudos GWAS de interação gene-ambiente. A análise estatística que eles executam em essência é o que você descreveu. A questão é: seu ambiente é importante para um fenótipo (recurso observável)? Uma escola de pensamento geralmente ignora todas as informações ambientais e diz que sua composição genética descreve seu fenótipo. Isso contrasta completamente com os estudos ecológicos, nos quais a história é meio ambiente e tudo e eles ignoram os genes. Como as duas partes estão tentando entender o mesmo problema, houve tentativas recentes de unir as duas.
Digamos que estamos estudando o IMC. Tomamos os primeiros componentes principais da matriz genética como efeitos fixos devido aos genes. Ajustamos a educação com um índice 1 para bem educado e 0 para mal educado como efeito fixo. Existe uma correlação razoavelmente forte entre o índice de educação e a riqueza da comunidade da qual a pessoa é. Então, alguém poderia argumentar que as comunidades de baixa renda são mais propensas a ter mais restaurantes de fast food. O fast food atua como um gatilho obesogênico. "Aciona algo em sua configuração genética que incentiva o acúmulo de gordura", de modo que ele aparece na composição genética de alguma forma.
Simular esses dados não é um problema. Olho para cima
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Isso permite simular dados do GWAS (pense nisso como unidades genéticas) responsáveis por um sintoma. Caso contrário, ele gerará 1000 com o sintoma e 1000 controles. A norma nessas simulações que eu uso é 9990 SNPs não causam o sintoma e 10 SNPs. Leia as instruções sobre como elas são simuladas.
A saída será 1 se a pessoa for obesa e 0 se não for. Simule os fatores educacionais (educação universitária concluída / não concluída) com base em alguma correlação razoável com os níveis de obesidade.
Espero que isto ajude!!!
fonte
Eu recomendo a leitura de Freakonomics, e a descoberta dos documentos em que seu trabalho se baseia, além de verificar se você pode obter esses dados. Eles têm um trabalho realmente interessante sobre conjuntos de dados realmente interessantes e, em alguns casos, descobrem maneiras muito inteligentes de testar hipóteses, apesar das limitações nos dados.
fonte