É necessário um bom exemplo de dados com a covariável afetada por tratamentos

19

Examinei muitos conjuntos de dados R, postagens no DASL e em outros lugares, e não estou encontrando muitos bons exemplos de conjuntos de dados interessantes que ilustram a análise de covariância para dados experimentais. Existem inúmeros conjuntos de dados "de brinquedo" com dados inventados nos livros de estatística.

Eu gostaria de ter um exemplo em que:

  • Os dados são reais, com uma história interessante
  • Há pelo menos um fator de tratamento e duas covariáveis
  • Pelo menos uma covariável é afetada por um ou mais dos fatores de tratamento e uma não é afetada por tratamentos.
  • Experimental, em vez de observacional, de preferência

fundo

Meu objetivo real é encontrar um bom exemplo para colocar na vinheta do meu pacote R. Mas um objetivo maior é que as pessoas precisem ver bons exemplos para ilustrar algumas preocupações importantes na análise de covariância. Considere o seguinte cenário inventado (e entenda que meu conhecimento sobre agricultura é superficial, na melhor das hipóteses).

  • Fazemos um experimento em que os fertilizantes são distribuídos aleatoriamente em parcelas e uma colheita é plantada. Após um período de crescimento adequado, colhemos a colheita e medimos algumas características de qualidade - essa é a variável de resposta. Mas também registramos a precipitação total durante o período de crescimento e a acidez do solo no momento da colheita - e, é claro, qual fertilizante foi usado. Assim, temos duas covariáveis ​​e um tratamento.

A maneira usual de analisar os dados resultantes seria ajustar um modelo linear com o tratamento como fator e efeitos aditivos para as covariáveis. Em seguida, para resumir os resultados, calcula-se "médias ajustadas" (médias de mínimos quadrados AKA), que são previsões do modelo para cada fertilizante, na precipitação média e na acidez média do solo3. Isso coloca tudo em pé de igualdade, porque, quando comparamos esses resultados, mantemos a precipitação e a acidez constantes.

Mas isso é provavelmente a coisa errada a se fazer - porque o fertilizante provavelmente afeta a acidez do solo e a resposta. Isso torna os meios ajustados enganosos, porque o efeito do tratamento inclui seu efeito na acidez. Uma maneira de lidar com isso seria retirar a acidez do modelo, e os meios ajustados pelas chuvas forneceriam uma comparação justa. Mas se a acidez é importante, essa equidade tem um grande custo, no aumento da variação residual.

Existem maneiras de contornar isso usando uma versão ajustada da acidez no modelo em vez de seus valores originais. A próxima atualização do meu pacote R lsmeans tornará isso absolutamente fácil. Mas quero ter um bom exemplo para ilustrá-lo. Serei muito grato e reconhecerei devidamente qualquer pessoa que possa me indicar alguns bons conjuntos de dados ilustrativos.

rvl
fonte
1
Embora essa seja, sem dúvida, uma questão importante e interessante, parece que as regras sobre o assunto estão em falta : "As perguntas sobre a obtenção de conjuntos de dados específicos estão fora do tópico (são muito especializadas). "
Glen_b -Reinstate Monica
1
Minha impressão das respostas até agora é que somos cautelosos ao dar um cheque em branco a outras perguntas como essa, decidindo firmemente a favor dela, mas que somos principalmente a favor dessa pergunta em particular e até um pouco ansiosos para ver o que tipos de respostas que você pode obter (talvez essa parte seja apenas eu). O que não gostaríamos são imitações mal escritas desta pergunta que pedem conjuntos de dados com os quais se possa provar pontos com estatísticas, mas não sobre estatísticas. Ou seja, é uma coisa para pedir ajuda em demonstrar um princípio estatístico, mas seria um outro para pedir conjuntos de dados específicos do domínio ...
Nick Stauner
3
OK, parece uma boa ideia. Eu fiz coisas muito piores no passado para diminuir minha reputação ...
rvl
2
@SteveS Concordo que é um bom candidato a uma recompensa; na verdade, eu vim aqui para colocar uma, eu mesma , apenas para descobrir que Russ já havia feito isso. Se não houver boas respostas em uma semana, posso considerar colocar uma segunda recompensa. Russ: recompensas em questões interessantes tendem a atrair atenção suficiente para que as votações subsequentes quase sempre paguem por elas, de modo que a perda de reputação geralmente é muito menos acentuada do que parece à primeira vista.
Glen_b -Reinstala Monica

Respostas:

6

Você pode querer verificar o mediationpacote R. Inclui dados experimentais como jobse framingonde a variável de tratamento afeta tanto uma variável de resposta quanto covariáveis ​​(isto é, mediadores do efeito do tratamento), juntamente com covariáveis ​​não afetadas pelo tratamento.

Examinei a literatura sobre mediação porque, embora você tenha descrito exatamente um estudo de mediação: o efeito do fertilizante na qualidade da colheita é mediado pelo efeito na acidez do solo. Mesmo que os conjuntos de dados no mediationpacote não o satisfaçam, você poderá encontrar um se examinar a literatura de mediação.

Masato Nakazawa
fonte
Obrigado. Eu instalei o pacote e vou olhar para ele. E uma oportunidade de aprender algo novo.
RVL
Interessante que os dados de emprego foi mencionado em dois dos três conversas em uma sessão JSM Eu só assisti ...
RVL
1
Bem, eu gostaria de poder dividir a recompensa de alguma forma. Mas este pacote tem conjuntos de dados prontos que são muito adequados ao que eu pedi, então @MasatoNakazawa recebe a recompensa. Muito obrigado. Usando os framingdados, os gráficos de interação de LSmeans (com base em um modelo logístico) quando a variável mediadora é mantida fixa são drasticamente diferentes daqueles em que ela é configurada para valores previstos por tratamentos e outras covariáveis, mostrando assim a importância de realizar a mediação. variável em consideração.
RVL
1
Obrigado Dr. Lenth. Na verdade, citei seus artigos em minha dissertação. Sinto-me honrado por poder ajudar de alguma forma um estatístico estabelecido como você.
Masato Nakazawa
4

Pensei em mostrar como sai uma análise com um dos conjuntos de dados no pacote de mediação . Em framing, é realizado um experimento em que os sujeitos têm a oportunidade de enviar uma mensagem ao Congresso sobre imigração. No entanto, alguns assuntos ( treat=1) foram mostrados pela primeira vez em uma notícia que retrata os latinos de maneira negativa. Além da resposta binária (se eles enviaram ou não uma mensagem), também medimos empo estado emocional dos sujeitos após a aplicação do tratamento. Existem várias variáveis ​​demográficas também.

Primeiro, vamos carregar os pacotes necessários em R e alterar os rótulos para educcadeias mais curtas.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Agora, ajuste um modelo de regressão logística

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Aqui é um visor das médias ajustadas convencionais, em que as previsões são feitas com as co-variáveis age, incomee emodefinidos os seus valores médios:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Gráfico de interação dos "meios ajustados" convencionais, transformados na escala de resposta)

Este é um resultado curioso, porque os efeitos do tratamento exibidos são opostos para as mulheres e para os homens, e o efeito da educação não é monótono como se poderia esperar.

Note, no entanto, emoé uma medida pós-tratamento. Isso significa que o tratamento poderia ter afetado, ou seja, emoé uma covariável mediadora; e, portanto, pode não ser significativo comparar as previsões da variável resposta, mantendo emoconstante. Em vez disso, vejamos as previsões em que emoé definido com os valores previstos fornecidos treate as variáveis ​​demográficas.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Gráfico de interação das previsões levando em consideração os efeitos da mediação)

Esse resultado é bem diferente, sugerindo que emodesempenha um forte papel mediador. (O pacote de mediação tem funções para estimar a força desses efeitos.) As previsões acima sugerem que, levando em consideração a resposta emocional, os sujeitos do sexo masculino expostos à notícia negativa têm mais probabilidade de enviar a mensagem do que as mulheres ou os que não estão vendo a cena. notícia negativa. Além disso, o efeito de educé (quase) monótono.

Mais uma vez obrigado a @MasatoNakagawa por me indicar este exemplo interessante e por me sintonizar com algumas pesquisas recentes sobre causalidade.

rvl
fonte
3

Pesquise estudos GWAS de interação gene-ambiente. A análise estatística que eles executam em essência é o que você descreveu. A questão é: seu ambiente é importante para um fenótipo (recurso observável)? Uma escola de pensamento geralmente ignora todas as informações ambientais e diz que sua composição genética descreve seu fenótipo. Isso contrasta completamente com os estudos ecológicos, nos quais a história é meio ambiente e tudo e eles ignoram os genes. Como as duas partes estão tentando entender o mesmo problema, houve tentativas recentes de unir as duas.

Digamos que estamos estudando o IMC. Tomamos os primeiros componentes principais da matriz genética como efeitos fixos devido aos genes. Ajustamos a educação com um índice 1 para bem educado e 0 para mal educado como efeito fixo. Existe uma correlação razoavelmente forte entre o índice de educação e a riqueza da comunidade da qual a pessoa é. Então, alguém poderia argumentar que as comunidades de baixa renda são mais propensas a ter mais restaurantes de fast food. O fast food atua como um gatilho obesogênico. "Aciona algo em sua configuração genética que incentiva o acúmulo de gordura", de modo que ele aparece na composição genética de alguma forma.

Simular esses dados não é um problema. Olho para cima

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Isso permite simular dados do GWAS (pense nisso como unidades genéticas) responsáveis ​​por um sintoma. Caso contrário, ele gerará 1000 com o sintoma e 1000 controles. A norma nessas simulações que eu uso é 9990 SNPs não causam o sintoma e 10 SNPs. Leia as instruções sobre como elas são simuladas.

A saída será 1 se a pessoa for obesa e 0 se não for. Simule os fatores educacionais (educação universitária concluída / não concluída) com base em alguma correlação razoável com os níveis de obesidade.

Espero que isto ajude!!!

Sid
fonte
Obrigado. Ainda esperando por alguns dados reais ... Além disso, não tenho certeza do que é um estudo da GWAS. DUH, acabei de descobrir seguindo o link.
RVL
Embora tenha dado a recompensa a outro entrevistado, aprecio essa sugestão e pretendo segui-la. Obrigado.
quer
1

Eu recomendo a leitura de Freakonomics, e a descoberta dos documentos em que seu trabalho se baseia, além de verificar se você pode obter esses dados. Eles têm um trabalho realmente interessante sobre conjuntos de dados realmente interessantes e, em alguns casos, descobrem maneiras muito inteligentes de testar hipóteses, apesar das limitações nos dados.

Nir Friedman
fonte