Como devo modelar interações entre variáveis ​​explicativas quando uma delas pode ter termos quadráticos e cúbicos?

10

Espero sinceramente que tenha formulado esta pergunta de forma que ela possa ser respondida definitivamente - caso contrário, informe-me e tentarei novamente! Eu também acho que devo usar R para essas análises.

Eu tenho várias medidas plant performance (Ys)que eu suspeito que foram influenciadas por quatro tratamentos que eu impus-- flower thinning (X1), fertilization (X2), leaf clipping (X3), e biased flower thinning (X4). Para todos os Ys possíveis, N é pelo menos 242, portanto, meus tamanhos de amostra eram grandes. Todas as parcelas foram submetidas a desbaste ou não, mas cada parcela também foi submetida a um (e apenas um) dos outros três tratamentos (ou não - houve parcelas de controle também). A idéia desse projeto era testar se os outros três tratamentos eram capazes de "mascarar" ou "aumentar" os efeitos do desbaste. Assim, por design, os três últimos tratamentos (X2-X4) não puderam interagir um com o outro porque não foram cruzados, mas cada um pode interagir com o desbaste das flores - e provavelmente o fazem.

Minhas hipóteses explícitas são que 1) o desbaste da floração será significativo e que 2) os termos de interação X1*X2, X1*X3, and X1*X4,entre o desbaste da flor e os outros três tratamentos também serão significativos. Ou seja, o desbaste de flores deve ter importância, mas as maneiras pelas quais isso importa devem ser alteradas significativamente pelo que os outros três tratamentos fizeram.

Eu gostaria de incluir todas essas informações em um modelo misto:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

Mas há um problema: tenho boas razões para acreditar que os efeitos do desbaste em Y são não lineares. Eles são provavelmente quadráticos, mas talvez até cúbicos em alguns casos. Isso ocorre porque os efeitos do desbaste no desempenho provavelmente aumentam mais rapidamente em níveis mais altos de desbaste. Se eu tentar modelar esse relacionamento não linear através da equação acima adicionando termos quadráticos e cúbicos para X1, não tenho certeza de como modelar os termos de interação - devo incluir todas as combinações possíveis de X1, (X1) ^ 2 e (X1) ^ 3 * X2, X3 e X4? Porque isso parece ter muitos parâmetros para tentar estimar, mesmo com o número de pontos de dados que tenho, e não tenho certeza de como interpretar os resultados que obteria. Dito isto, não tenho nenhuma razão biológica para pensar que essa seria uma maneira imprudente de modelar a situação.

Portanto, tenho três pensamentos sobre como resolver esse problema:

  1. Ajuste primeiro um modelo menor, por exemplo Y ~ X1 + X1^2 + X^3 + Random effects, com o único objetivo de descobrir se a relação entre desbaste e Y é linear, quadrática ou cúbica e depois transformar o desbaste por meio de uma raiz quadrada ou de cubo para linearizar o relacionamento adequadamente. A partir daí, os termos de interação podem ser modelados como acima com a variável transformada.
  2. Suponha que interações significativas, se ocorrerem, afetem apenas um dos termos X1 (ou seja, apenas o termo linear, quadrático ou cúbico) e modele as interações adequadamente. Eu nem tenho certeza se essa abordagem faz sentido.
  3. Apenas ajuste o "modelo completo" a todos os termos de interação possíveis entre os termos de desbaste e os outros tratamentos, conforme discutido acima. Em seguida, elimine termos de interação insignificantes e use gráficos e outras técnicas para interpretar os resultados.

Qual dessas abordagens, se houver, faz mais sentido e por quê, considerando que estou interessado em testar hipóteses e não na seleção de modelos? Em particular, se o nº 1 acima não faz sentido, por que isso? Eu li este artigo e este artigo e tentei digerir o que eles podem significar para mim, mas qualquer fonte de leitura adicional também seria muito apreciada!

Bajcz
fonte

Respostas:

7

Nenhuma dessas abordagens funcionará corretamente. A abordagem 3. chegou perto, mas você disse que eliminaria termos insignificantes. Isso é problemático porque as co-linearidades tornam impossível encontrar quais termos remover e porque isso daria a você os graus de liberdade incorretos nos testes de hipótese, se você deseja preservar o erro do tipo I.

Dependendo do tamanho efetivo da amostra e da relação sinal: ruído em seu problema, sugiro ajustar um modelo com todos os termos de produto e efeito principal e interpretar o modelo usando gráficos e "testes de chunk" (vários testes df de termos relacionados, por exemplo, um teste para interação geral, teste para interação não linear, teste para efeito geral, incluindo efeito principal + interação, etc.). O rmspacote R facilita isso para modelos univariados padrão e para modelos longitudinais quando é multivariado normal. Exemplo:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

Quando você vê a anovatabela, verá linhas rotuladas All Interactionsque, para todo o modelo, testam a influência combinada de todos os termos de interação. Para um preditor individual, isso só é útil quando o preditor interage com mais de uma variável. Existe uma opção no printmétodo para anova.rmsmostrar por cada linha da tabela exatamente quais parâmetros estão sendo testados contra zero. Tudo isso funciona com misturas de preditores categóricos e contínuos.

Se você deseja usar polinômios comuns, use em polvez de rcs.

Infelizmente eu não implementei modelos de efeito misto.

Frank Harrell
fonte
11
Obrigado por esta resposta. Eu nunca usei splines antes, mas acho que entendo o seu exemplo. Eu tenho algumas perguntas de acompanhamento, se estiver tudo bem? 1. Ao observar os resultados da anova de ols, como no seu exemplo, o que se entende por "Todas as interações" abaixo de um fator? Ou seja, todas as interações com o quê? 2. Uma abordagem semelhante será permitida em uma abordagem de modelagem mista? Eu acho que estou preso com a necessidade de fatores aleatórios. Seu exemplo é compatível com, por exemplo, lme4? 3. Isso funcionará se alguns dos tratamentos em interação forem categóricos? Por exemplo, e se X2 fosse um fator de dois níveis?
Bajcz
2

Sou fã do uso de regressões de suavização não paramétricas para avaliar formas funcionais de relacionamentos entre variáveis ​​dependentes e preditores, mesmo quando posteriormente vou estimar modelos de regressão paramétricos. Embora muitas vezes encontrei relacionamentos não lineares, nunca encontrei um termo de interação de interação não linear, mesmo quando os efeitos principais são fortemente não lineares. Minha opinião: os efeitos de interação não precisam ser compostos das mesmas formas funcionais dos preditores de que são compostos.

Alexis
fonte
Portanto, para esclarecer, sua opinião é que, se eu escolher a opção 2, posso incluir com segurança apenas termos de interação com o termo X1 linear e não me preocupar com "termos de interação de ordem superior", por exemplo, X1 ^ 2 * X3 e assim por diante?
Bajcz
11
@Bajcz Bem ... acho que estou dizendo duas coisas: (1) consegui sobreviver nos conjuntos de dados que encontrei com interações somente lineares, mas também (2) eu gosto de procurar (usando regressões não paramétricas) e deixe que os dados me digam se devo ou não considerar alternativas não-lineares. [Adotar uma abordagem de ajuste de modelo ou teste de hipóteses para termos não lineares é a IMO a maneira errada de fazê-lo, pois isso implica, por exemplo, inferência baseada, por exemplo, em um conjunto arbitrário de termos polinomiais, e não nos próprios dados.]
Alexis #
3
Não há grandes razões para acreditar que as interações têm maior probabilidade de serem lineares. Encontrei ótimos exemplos de interações não lineares. A idéia de "olhar" e "deixar os dados avisarem" está repleta de problemas de inferência, incluindo problemas de cobertura do intervalo de confiança ruim.
Frank Harrell
11
@FrankHarrell Obrigado! Sua primeira frase é exatamente o ponto que eu estava tentando entender no (2) no comentário acima (minha experiência passada pode variar drasticamente no futuro). OTOH: não deixar os dados falarem é uma ótima estratégia para imputar inferências sobre artefatos de suposições de modelagem em inferências sobre os dados reais.
Alexis #