Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

9

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Gostaria de saber se o número de sites em que ocorreu 100% de mortalidade é significativo com base no tipo de site. Se eu executar um quadrado de 2 x 3, obtive um resultado significativo. Existe uma comparação par-hoc post-hoc que eu possa executar ou devo realmente usar uma ANOVA logística ou regressão com distribuição binomial? Obrigado!

chl
fonte

Respostas:

7

Uma tabela de contingência deve conter todas as categorias mutuamente exclusivas nos dois eixos. A costa costeira / o meio do canal / o mar parecem bons, no entanto, a menos que "mortalidade inferior a 100%" signifique "sobrevivência de 100%" nesse cenário biológico, talvez seja necessário criar tabelas que respondam a todos os casos observados ou explicar por que você restringe sua análise ao extremo extremidades da amostra.

Como 100% de sobrevivência significa 0% de mortalidade, você pode ter uma tabela com as colunas 100% = mortalidade / 100%> mortalidade> 0% / mortalidade = 0%. Nesse caso, você não compararia mais as porcentagens, mas compararia as medidas de mortalidade ordinal em três categorias de tipos de sites. (Que tal usar os valores percentuais originais em vez de categorias?) Uma versão do teste de Kruskal-Wallis pode ser apropriada aqui, que leva os laços em consideração adequadamente (talvez um teste de permutação).

Existem testes post hoc estabelecidos para o teste de Kruskal-Wallis: 1 , 2, 3 . (Uma abordagem de reamostragem pode ajudar a lidar com os laços.)

A regressão logística e a regressão binomial podem ser ainda melhores, pois não apenas fornecem valores de p, mas também estimativas úteis e intervalos de confiança dos tamanhos dos efeitos. No entanto, para configurar esses modelos, seriam necessários mais detalhes sobre os locais 100%> mortalidade> 0%.

GaBorgulya
fonte
4

Suponho que "100% de sobrevivência" significa que seus sites continham apenas um único organismo. então 30 significa que 30 organismos morreram e 31 significa 31 organismos não. Com base nisso, o qui-quadrado deve ser bom, mas informa apenas quais hipóteses não são suportadas pelos dados - não informa se duas hipóteses razoáveis ​​são melhores ou não. Apresento uma análise de probabilidade que extrai essas informações - ela concorda com o teste do qui-quadrado, mas fornece mais informações que o teste do qui-quadrado e uma maneira melhor de apresentar os resultados.

O modelo é um modelo de bernouli para o indicador de "morte", ( indica a célula da tabela , e indica a unidade individual dentro a célula).i 2 × 3 jYijBin(1,θij)i2×3j

Há duas suposições globais subjacentes ao teste do qui-quadrado:

  1. dentro de uma determinada célula da tabela, os são todos iguais, ou seja, θ i j = θ i k = θ iθijθij=θik=θi
  2. o é estatisticamente independente, dado . Isso significa que os parâmetros de probabilidade informam tudo sobre - todas as outras informações são irrelevantes se você souber θ i Y i j θ iYijθiYijθi

Denote como a soma de , (então ) e deixe ser o tamanho do grupo (então ). Agora temos uma hipótese para testar: Y i j X 1 = 30 , X 2 = 10 , X 3 = 1 N i N 1 = 61 , N 2 = 30 , N 3 = 11XiYijX1=30,X2=10,X3=1NiN1=61,N2=30,N3=11

HA:θ1=θ2,θ1=θ3,θ2=θ3

Mas quais são as alternativas? Eu diria as outras combinações possíveis de igual ou não igual.

H B 2 : θ 1θ 2 , q 1 = θ 3 , θ 2θ 3 H B 3 : θ 1 = θ 2 , θ 1θ 3 , θ 2

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
HC:θ1 1θ2,θ1 1θ3,θ2θ3

Uma dessas hipóteses deve ser verdadeira, dadas as suposições "globais" acima. Mas observe que nenhum deles especifica valores específicos para as taxas - portanto, elas devem ser integradas. Agora, considerando que é verdadeiro, temos apenas um parâmetro (porque todos são iguais), e o uniforme anterior é uma escolha conservadora, denote isso e as suposições globais por . então nós temos:HUMAEu0 0

P(X1 1,X2,X3|N1 1,N2,N3,HUMA,Eu0 0)=0 01 1P(X1 1,X2,X3,θ|N1 1,N2,N3,HUMA,Eu0 0)dθ
=(N1 1X1 1)(N2X2)(N3X3)0 01 1θX1 1+X2+X3(1 1-θ)N1 1+N2+N3-X1 1-X2-X3dθ
=(N1 1X1 1)(N2X2)(N3X3)(N1 1+N2+N3+1 1)(N1 1+N2+N3X1 1+X2+X3)

Qual é uma distribuição hipergeométrica dividida por uma constante. Da mesma forma para , teremos: HB1 1

P(X1 1,X2,X3|N1 1,N2,N3,HB1 1,Eu0 0)=0 01 1P(X1 1,X2,X3,θ1 1θ2|N1 1,N2,N3,HB1 1,Eu0 0)dθ1 1dθ2
=(N2X2)(N3X3)(N1 1+1 1)(N2+N3+1 1)(N2+N3X2+X3)

Você pode ver o padrão para os outros. Podemos calcular as chances de dizer simplesmente dividindo as duas expressões acima. A resposta é cerca de , o que significa que os dados suportam sobre em cerca de um fator de - evidência bastante fraca a favor de taxas iguais. As outras probabilidades são dadas abaixo.HUMAvsHB1 14HUMAHB1 14

HypothesEusprobumabEueuEuty(HUMA|D)0.018982265(HB1 1|D)0,004790669(HB2|D)0.051620022(HB3|D)0.484155874(HC|D)0.440451171

Isso mostra uma forte evidência contra taxas iguais, mas não em forte evidência a favor de uma alternativa definitiva. Parece que há fortes evidências de que a taxa "offshore" é diferente das outras duas taxas, mas há evidências inconclusivas sobre se as taxas "costeira" e "mid-channel" diferem. Isso é o que o teste do qui-quadrado não lhe dirá - apenas diz que a hipótese é "porcaria", mas não é a alternativa a ser substituída.UMA

probabilityislogic
fonte
1

Aqui está o código para realizar os testes do qui quadrado, bem como gerar uma variedade de estatísticas de teste. No entanto, testes estatísticos de associação das margens da tabela são inúteis aqui; a resposta é óbvia. Ninguém faz um teste estatístico para ver se o verão é mais quente que o inverno.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)
Patrick McCann
fonte
3
Seria interessante para o leitor (e o OP) se você pudesse fornecer detalhes sobre a sintaxe R diferente (e os testes subjacentes) que você forneceu, e especialmente como um teste de Kruskal-Wallis se compara a um modelo log-linear.
CHL
Você pode ver isso copiando e colando o código no console R.
Patrick McCann
11
Certo. As respostas vêm de si mesmas executando o código, é claro.
chl
0

Eu acredito que você poderia usar os "intervalos de confiança simultâneos" para fazer várias comparações. A referência é Agresti et al. 2008 Intervalos de confiança simultâneos para comparação de parâmetros binomiais. Biometrics 64 1270-1275.

Você pode encontrar o código R correspondente em http://www.stat.ufl.edu/~aa/cda/software.html

Tu.2
fonte