Acompanhamento: Em uma ANOVA mista entre SEs estimadas ou SEs reais?

14

Atualmente, estou terminando um trabalho e me deparei com essa pergunta de ontem, o que me levou a fazer a mesma pergunta para mim. É melhor fornecer ao meu gráfico o erro padrão real dos dados ou o estimado na minha ANOVA?
Como a pergunta de ontem era bastante inespecífica e a minha é bastante específica, pensei que seria apropriado fazer essa pergunta de acompanhamento.

Detalhes:
Realizei um experimento em algum domínio da psicologia cognitiva (raciocínio condicional) comparando dois grupos (instruções indutivas e dedutivas, isto é, uma manipulação entre sujeitos) com duas manipulações dentro dos sujeitos (tipo e conteúdo do problema, cada um com dois níveis de fator).

Os resultados são assim (painel esquerdo com estimativas de SE da saída ANOVA, painel direito com SEs estimados a partir dos dados): texto alternativo
Observe que as linhas diferentes representam os dois grupos diferentes (isto é, a manipulação entre os sujeitos) e o as manipulações dos sujeitos são plotadas no eixo x (ou seja, os níveis do fator 2x2).

No texto, forneço os respectivos resultados da ANOVA e até comparações planejadas para a interação crítica cruzada no meio. Os SEs estão lá para dar ao leitor alguma dica sobre a variabilidade dos dados. Eu prefiro SEs em vez de desvios padrão e intervalos de confiança, pois não é comum traçar DSs e há problemas graves ao comparar ICs dentro e entre indivíduos (como o mesmo certamente se aplica a SEs, não é tão comum inferir falsamente diferenças significativas deles).

Para repetir minha pergunta: É melhor plotar as SEs estimadas a partir da ANOVA ou devo plotar as SEs estimadas a partir dos dados brutos?

Atualização:
acho que devo ser um pouco mais claro quanto às SEs estimadas. A saída ANOVA no SPSS fornece estimated marginal meansos SEs e ICs correspondentes. Isto é o que é plotado no gráfico esquerdo. Tanto quanto eu entendo isso, eles devem ser os SDs dos resíduos. Mas, ao salvar os resíduos, seus SDs não estão de algum modo próximos dos SEs estimados. Portanto, uma pergunta secundária (potencialmente específica ao SPSS) seria:
O que são essas SEs?


ATUALIZAÇÃO 2: Eu finalmente consegui escrever uma função R que deveria ser capaz de fazer um enredo como eu finalmente gostei (veja minha resposta aceita) por conta própria. Se alguém tiver tempo, eu realmente apreciaria se você pudesse dar uma olhada. Aqui está.

Henrik
fonte
1
Você pode esclarecer a variável prevista, "endosso médio" ?. Essa é uma escala de 0 a 100 que os participantes usaram para responder ou é uma medida da proporção de ensaios em que os participantes disseram "sim, eu apoio" (vs. "não, eu não avalio"). Neste último caso, é inadequado analisar esses dados como proporções. Em vez disso, você deve analisar os dados brutos, tentativa por tentativa, usando um modelo de efeitos mistos com uma função de vínculo binomial.
Mike Lawrence
Desculpe, por omitir isso: é uma escala de resposta de 0 a 100.
Henrik
Você tem muitos 0 ou 100? Caso contrário, consideraria dividir por 100 e executar uma transformação de logit para levar em conta a restrição de alcance nos extremos. Isso é essencialmente o que é alcançado pela função de vínculo binomial quando você tem dados binários, mas é útil se você tiver apenas dados parecidos com a proporção que parece ter aqui. No entanto, você não pode Logit transformar 1 ou 0, então você teria que atirar todas as respostas de 100 ou 0.
Mike Lawrence
Opa, acabei de perceber que meu primeiro comentário não estava 100% correto. Cada média plotada representa a média de duas respostas em uma escala de 0 a 100. Nesses dados, existem muitos valores muito próximos de 100, e alguns diretamente em 100, mas na verdade muito pouco em 0 e em torno de 0. Você tem alguma literatura para justificar sua recomendação?
Henrik
1
Outras pessoas de visualização de dados podem alegar que os gráficos de barras são um crime contra a humanidade: Op
Mike Lawrence

Respostas:

9

Como conseqüência das respostas inspiradoras e discussão da minha pergunta, construí os seguintes gráficos que não se baseiam em nenhum parâmetro baseado em modelo, mas apresentam os dados subjacentes.

As razões são que, independentemente de qualquer tipo de erro padrão que eu possa escolher, o erro padrão é um parâmetro baseado em modelo. Então, por que não apresentar os dados subjacentes e, assim, transmitir mais informações?

Além disso, se escolher a SE da ANOVA, dois problemas surgem para os meus problemas específicos.
Primeiro (pelo menos para mim), de alguma forma, não está claro o que SPSSrealmente são as SEs da ANOVA Output ( veja também esta discussão nos comentários ). Eles estão de alguma forma relacionados ao MSE, mas como exatamente eu não sei.
Segundo, eles só são razoáveis ​​quando as premissas subjacentes são atendidas. No entanto, como mostram os gráficos a seguir, as premissas de homogeneidade de variância são claramente violadas.

Os lotes com boxplots: texto alternativo

Os gráficos com todos os pontos de dados: texto alternativo

Observe que os dois grupos são deslocados um pouco para a esquerda ou para a direita: dedutivos para a esquerda, indutivos para a direita. Os meios ainda são plotados em preto e os dados ou gráficos de caixa em segundo plano em cinza. As diferenças entre os gráficos à esquerda e à direita são se os meios são deslocados da mesma forma que os pontos ou gráficos de caixa ou se são apresentados centralmente.
Desculpe pela qualidade não ótima dos gráficos e pelos rótulos ausentes do eixo x.

A questão que permanece é: qual das parcelas acima é a que você deve escolher agora. Eu tenho que pensar sobre isso e perguntar ao outro autor do nosso artigo. Mas agora, eu prefiro os "pontos com meios deslocados". E eu ainda estaria muito interessado em comentários.


Atualização: Depois de alguma programação, finalmente consegui escrever uma função R para criar automaticamente um gráfico como pontos com meios deslocados. Confira (e me envie comentários) !

Henrik
fonte
Excelente Henrik. Também prefiro os "pontos com meios deslocados". Vincular assuntos com segmentos de linha pode parecer muito confuso. Pena. Quanto à homogeneidade da variância, sou um pouco mais otimista. O problema de variação pode não ser tão ruim quanto parece nos dados brutos. Na maior parte, suspeito que você esteja comparando contrastes - dentro das diferenças de grupo. As variações de contraste serão mais homogêneas que as variações dos dados brutos. Se medidas brutas com diferentes variações forem comparadas (por exemplo, indutivo versus dedutivo no grupo MP-valiad e plausível), um teste não-paramétrico pode ser usado como backup.
Thylacoleo
1
Eu gosto dos pontos com média centralmente. Tem uma representação mais verdadeira das linhas. Você pode diminuir os pontos.
John
8

Você não encontrará uma única barra de erro razoável para fins inferenciais com esse tipo de projeto experimental. Este é um problema antigo, sem solução clara.

Parece impossível ter a estimativa de SE que você tem aqui. Existem dois tipos principais de erro nesse projeto, o erro entre e dentro do S. Eles geralmente são muito diferentes um do outro e não são comparáveis. Realmente não existe uma barra de erro única e boa para representar seus dados.

Alguém poderia argumentar que as SEs ou DSs brutas dos dados são mais importantes em um sentido descritivo do que inferencial. Eles falam sobre a qualidade da estimativa de tendência central (SE) ou a variabilidade dos dados (DP). No entanto, mesmo assim, é algo falso, porque o que você está testando e medindo em S não é esse valor bruto, mas o efeito da variável dentro de S. Portanto, relatar a variabilidade dos valores brutos é sem sentido ou enganoso em relação aos efeitos S.

Normalmente, não apóio barras de erro nesses gráficos e gráficos de efeitos adjacentes, indicando a variabilidade dos efeitos. Pode-se ter ICs nesse gráfico que sejam perfeitamente razoáveis. Veja Masson & Loftus (2003) para exemplos dos gráficos de efeitos. Simplesmente elimine suas barras de erro (praticamente inúteis) em torno dos valores médios que eles mostram e use apenas as barras de erro de efeito.

Para o seu estudo, eu primeiro substituia os dados como o design 2 x 2 x 2 (2 painéis 2x2) e, em seguida, plotava imediatamente adjacente a um gráfico com intervalos de confiança dos efeitos de validade, plausibilidade, instrução e interação. Coloque SDs e SEs para os grupos de instruções em uma tabela ou no texto.

(aguardando a resposta esperada da análise de efeitos mistos;))

ATUALIZAÇÃO: OK, após a edição, fica claro que a única coisa que você deseja é que um SE seja usado para mostrar a qualidade da estimativa do valor. Nesse caso, use os valores do seu modelo. Ambos os valores são baseados em um modelo e não há valor 'verdadeiro' em sua amostra. Use os do modelo que você aplicou aos seus dados. MAS, certifique-se de avisar os leitores na legenda da figura de que essas SEs não têm valor inferencial para os seus efeitos ou interações S.

ATUALIZAÇÃO2: Analisando os dados que você apresentou ... que parecem suspeitosamente porcentagens que não deveriam ter sido analisadas com ANOVA em primeiro lugar. Seja ou não, é uma variável que atinge o máximo de 100 e reduziu as variações nos extremos, portanto ainda não deve ser analisada com ANOVA. Eu gosto muito de suas plotagens rm.plot. Eu ainda ficaria tentado a fazer gráficos separados das condições intermediárias, mostrando os dados brutos e dentro das condições que mostravam os dados com a variabilidade S removida.

John
fonte
1
Tenho boas razões (não estatísticas) para plotar o gráfico como está: Você vê diretamente a resposta para a pergunta da pesquisa. Além disso, não estou procurando barras de erro para fins inferenciais, pois conheço os problemas intermediários. Mas, graças a me indicar de volta à Mason & Loftus, devo ter esquecido que eles tinham um exemplo misto. Eu tenho que pensar se isso serve ou não ao meu propósito.
Henrik
7

Parece uma experiência muito boa, então parabéns!

Concordo com John Christie, é um modelo misto, mas desde que possa ser especificado corretamente em um design ANOVA (e é equilibrado), não vejo por que não pode ser tão formulado. Dois fatores dentro e 1 fator entre os sujeitos, mas o fator entre os sujeitos (indutivo / dedutivo) interage claramente (modifica) os efeitos dentro dos sujeitos. Eu suponho que as médias plotadas são do modelo ANOVA (LHS) e, portanto, o modelo está especificado corretamente. Bem feito - isso não é trivial!

Alguns pontos: 1) O erro "estimado" vs "real" é uma dicotomia falsa. Ambos assumem um modelo subjacente e fazem estimativas nessa base. Se o modelo for razoável, eu diria que é melhor usar as estimativas baseadas no modelo (elas são baseadas no agrupamento de amostras maiores). Mas, como James menciona, os erros diferem dependendo da comparação que você está fazendo, portanto, nenhuma representação simples é possível.

2) Eu preferiria ver gráficos de caixa ou pontos de dados individuais plotados (se não houver muitos), talvez com algum jitter lateral, para que pontos com o mesmo valor possam ser distinguidos.

http://en.wikipedia.org/wiki/Box_plot

3) Se você deve plotar uma estimativa do erro da média, nunca plotar SDs - eles são uma estimativa do desvio padrão da amostra e estão relacionados à variabilidade da população, não uma comparação estatística das médias. Geralmente é preferível traçar intervalos de confiança de 95% em vez de SEs, mas não neste caso (ver 1 e o ponto de John)

4) O único problema com esses dados que me preocupa é que a suposição de variação uniforme provavelmente é violada, pois os dados "MP válidos e plausíveis" são claramente restringidos pelo limite de 100%, especialmente para as pessoas dedutivas. Estou pensando na importância dessa questão. Mover para um logit de efeitos mistos (probabilidade binomial) é provavelmente a solução ideal, mas é uma pergunta difícil. Talvez seja melhor deixar que outras pessoas respondam.

Thylacoleo
fonte
Não tenho muita certeza de entender sua recomendação em 1. Como o SE real [isto é, SD / sqrt (n)] e o SE estimado são baseados no modelo, você recomenda o uso do modelo. Então qual? Ou você quer dizer: vá com o modelo mais complicado (aqui: ANOVA) porque ambos os modelos são razoáveis.
Henrik
de acordo com o ponto 1 completamente
John
Oi Henrik, exemplo simples - compare dois grupos (x1, x2) assumido ND. Pressupostos e modelos: 1) Amostragem independente, variação diferente. SEs para x1, x2 estimados separadamente. Esta é implicitamente a suposição em muitas apresentações gráficas. As SEs estimadas diferem. 2) Indep., Mesma var. Suposição usual de ANOVA. Estime SEs usando RSS agrupado. A estimativa é mais sólida das premissas de FI corretas. 3) Cada x1 tem um par x2. SEs estimados a partir de x1-x2. Para plotá-los efetivamente, você precisa plotar a diferença x1-x2. Depois de misturar 1) e 2), você tem um problema real de plotagem de SEs ou ICs significativos.
Thylacoleo
Henrik, um comentário sobre o enredo. Quantos assuntos você tem? Eu recomendaria fortemente plotar os dados individualmente e usar segmentos de linha para vincular indivíduos. (Os meios de ligação dos segmentos de linha são enganosos.) Não há necessidade de plotar SEs. A idéia é apoiar visualmente sua análise estatística. Desde que o enredo não fique muito confuso, o leitor deve ver (por exemplo) que a maioria clara das pontuações sobe de MP-válido-implausível para AC-inval-plausível para o grupo indutivo e para baixo para o grupo dedutivo. Veja: jstor.org/stable/2685323?seq=1 Especialmente as Figs 1 e 9 painéis inferiores.
Thylacoleo
3

Ultimamente, tenho usado a análise de efeitos mistos e, na tentativa de desenvolver uma abordagem de análise de dados visual que acompanho, utilizo o bootstrap ( veja minha descrição aqui ), que gera intervalos de confiança que não são suscetíveis aos problemas entre versus entre dos ICs convencionais.

Além disso, eu evitaria mapear várias variáveis ​​para a mesma estética visual, como você fez no gráfico acima; você tem três variáveis ​​(MP / AC, válidas / inválidas, plausíveis / implausíveis) mapeadas para o eixo x, o que dificulta a análise do design e dos padrões. Em vez disso, sugiro mapear, por exemplo, MP / AC para o eixo x, válido / inválido para colunas de faceta e plausível / implausível para linhas de faceta. Confira ggplot2 em R para conseguir isso facilmente, por exemplo:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)
Mike Lawrence
fonte
Mike, na função languageR do pacote, a função pvals.fnc faz um MCMC para avaliar as hipóteses do modelo lmer - no entanto, ele não lida com projetos com inclinações aleatórias - que me levam a suspeitar que havia algum motivo para fazer o MCMC com inclinações aleatórias. de alguma forma problemática, você sabe definitivamente que não existe esse problema?
precisa saber é o seguinte
Devo admitir que ainda não descobri como o MCMC funciona, que é uma das razões pelas quais optei pelo bootstrap. Embora o bootstrapping deva ser possível com inclinações aleatórias, como você sugeriu, pode ser que o pvals.fnc não permita que você faça ICs para modelos com inclinações aleatórias porque isso é, por algum motivo, inválido e, além disso, pode ser que essa invalidez se estenda a inicializando esses modelos. Não acho intuitivamente que haveria algum problema com a inicialização, mas isso pode ser uma função da minha experiência limitada.
24810 Mike Lawrence