Além de Durbin-Watson, que testes de hipótese podem produzir resultados inconclusivos?

10

A estatística do teste de Durbin-Watson pode estar em uma região inconclusiva, onde não é possível rejeitar ou deixar de rejeitar a hipótese nula (neste caso, de autocorrelação zero).

Que outros testes estatísticos podem produzir resultados "inconclusivos"?

Existe uma explicação geral (acenar com a mão é bom) por que esse conjunto de testes não consegue tomar uma decisão binária de "rejeitar" / "falhar em rejeitar"?

Seria um bônus se alguém pudesse mencionar as implicações teóricas da decisão como parte de sua resposta à última pergunta - a presença de uma categoria adicional de (in) conclusão significa que precisamos considerar os custos do Tipo I e Tipo II erros de uma maneira mais sofisticada?

Silverfish
fonte
2
Um pouco fora de tópico, mas os testes randomizados têm esse sabor. Para alguns valores dos dados, você precisa aleatoriamente aceitar e rejeitar.
Christoph Hanck
@ChristophHanck obrigado, essa foi uma conexão interessante que eu não teria notado. Não era o que eu pretendia, mas estava mantendo a pergunta propositadamente vaga, na esperança de que ela fosse fácil - dependendo da (s) resposta (s), posso reforçar seu foco mais tarde.
Silverfish

Respostas:

10

O artigo da Wikipedia explica que a distribuição da estatística de teste sob a hipótese nula depende da matriz de design - a configuração específica dos valores preditores usados ​​na regressão. Durbin & Watson calcularam limites inferiores para a estatística de teste sob a qual o teste de autocorrelação positiva deve rejeitar, em determinados níveis de significância, para qualquer matriz de design, e limites superiores sobre os quais o teste deve falhar em rejeitar qualquer matriz de design. A "região inconclusiva" é apenas a região em que você teria que calcular valores críticos exatos, levando em consideração sua matriz de design, para obter uma resposta definitiva.

Uma situação análoga seria a realização de um teste t unilateral de uma amostra quando você conhece apenas a estatística t, e não o tamanho da amostra : 1.645 e 6,31 (correspondendo a graus infinitos de liberdade e apenas um). os limites para um teste de tamanho 0,05.

No que diz respeito à teoria da decisão - você tem uma nova fonte de incerteza a ser levada em consideração além da variação da amostra, mas não vejo por que ela não deve ser aplicada da mesma maneira que nas hipóteses nulas compostas. Você está na mesma situação que alguém com um parâmetro incômodo desconhecido, independentemente de como você chegou lá; portanto, se você precisar tomar uma decisão de rejeitar / reter enquanto controla o erro Tipo I sobre todas as possibilidades, rejeite de forma conservadora (por exemplo, quando a estatística Durbin – Watson estiver abaixo do limite inferior ou a estatística t acima de 6,31).

† Ou talvez você tenha perdido suas mesas; mas pode lembrar alguns valores críticos para um gaussiano padrão e a fórmula da função quantílica de Cauchy.

Scortchi - Restabelecer Monica
fonte
(+1) Obrigado. Eu sabia que esse era o caso do teste de Durbin-Watson (deveria ter mencionado isso na minha pergunta), mas me perguntei se esse era um exemplo de um fenômeno mais geral e, se sim, se todos eles funcionam essencialmente da mesma maneira. Meu palpite era que isso pode acontecer, por exemplo, ao executar determinados testes enquanto um só tem acesso a dados resumidos (não necessariamente em uma regressão), mas o DW é o único caso que me lembro de ter visto os valores críticos superiores e inferiores compilados e tabulados . Se você tiver alguma idéia de como posso melhorar a questão, seria muito bem-vindo.
Silverfish
A primeira pergunta é um pouco vaga ("Que outros testes estatísticos [...]?"), Mas não acho que você possa esclarecer isso sem responder à segunda ("Existe uma explicação geral [...]?") você mesmo - no geral, acho que está tudo bem como está.
Scortchi - Restabelecer Monica
7

Outro exemplo de teste com resultados possivelmente inconclusivos é um teste binomial para uma proporção quando apenas a proporção, e não o tamanho da amostra, está disponível. Isso não é completamente irrealista - geralmente vemos ou ouvimos afirmações mal relatadas da forma "73% das pessoas concordam que ..." e assim por diante, onde o denominador não está disponível.

H0 0:π=0,5H1 1:π0,5α=0,05

p=5%1 1195%α=0,05

p=49.%

p=50.%H0 0

p=0 0%p=50.%p=5%p=0 0%p=100%p=16%Pr(X3)0,00221<0,025p=17%Pr(X1 1)0,109>0,025p=16%p=18%Pr(X2)0,0327>0,025p=19%Pr(X3)0,0106<0,025

p=24%p=13%α=0,05: os pontos abaixo da linha são inequivocamente significativos, mas os acima são inconclusivos. O padrão dos valores-p é tal que não haverá limites único inferior e superior na porcentagem observada para que os resultados sejam inequivocamente significativos.

Valor p menos significativo do teste binomial com tamanho de amostra desconhecido

Código R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(O código de arredondamento é extraído desta pergunta StackOverflow .)

Silverfish
fonte