Eu tenho uma amostra de 250 unidades. A distribuição é assimétrica. Quero testar uma hipótese de que a mediana da população é diferente de 3,5, por isso acho que um teste de uma amostra seria apropriado. Eu sei que o teste de Wilcoxon não é apropriado porque a distribuição não é simétrica. Um teste de sinal é apropriado para uso? Se não for, alguém pode recomendar outro teste?
hypothesis-testing
median
LeonRupnik
fonte
fonte
Respostas:
Sinopse
A contagem de dados que excede tem uma distribuição binomial com probabilidade desconhecida p . Utilizar esta para conduzir um teste de binomial p = 1 / 2 contra o alternativa p ≠ 1 / 2 .3.5 p p = 1 / 2 p ≠ 1 / 2
O restante deste post explica o modelo subjacente e mostra como executar os cálculos. Ele fornece
R
código de trabalho para executá-los. Uma explicação detalhada da teoria subjacente ao teste de hipóteses é fornecida na minha resposta a "Qual é o significado dos valores p e valores t nos testes estatísticos?" .O modelo estatístico
Assumindo que os valores são razoavelmente diversa (com alguns laços em ), em seguida, sob o seu hipótese nula, qualquer valor de amostragem aleatória tem um 1 / 2 = 50 % possibilidade de exceder 3,5 (desde 3,5 é caracterizada como o valor médio da população). Supondo que todos os 250 valores foram aleatoriamente e independentemente amostrado, o número delas superior a 3,5 , por conseguinte, ter um binomial ( 250 , 1 / 2 ) de distribuição. Vamos chamar esse número de "contagem", k .3.5 1 / 2 = 50 % 3.5 3.5 250 3.5 ( 250 , 1 / 2 ) k
Por outro lado, se a população difere da mediana de , a probabilidade de um valor de amostragem aleatória superior a 3,5 será diferente de 1 / 2 . Esta é a hipótese alternativa.3.5 3.5 1 / 2
Encontrando um teste adequado
A melhor maneira de distinguir a situação nula de suas alternativas é observar os valores de que são mais prováveis sob o nulo e menos prováveis sob as alternativas. Estes são os valores de perto de 1 / 2 de 250 , igual a 125 . Portanto, uma região crítica para o seu teste consiste em valores relativamente distantes de 125 : próximo a 0 ou próximo a 250 . Mas a que distância devem estar 125 para constituir evidência significativa de que 3,5 não é a mediana da população?k 1 / 2 250 125 125 0 0 250 125 3.5
Depende do seu padrão de significância: isso é chamado de tamanho do teste , geralmente denominado . Sob a hipótese nula, não deve ser perto de - mas não mais do que - um α chance de que k vai ser na região crítica.α α k
Normalmente, quando não temos preconceitos sobre qual alternativa será aplicada - uma mediana maior ou menor que -, tentamos construir a região crítica para que haja metade dessa chance, α / 2 , de que k é baixo e o outro metade, α / 2 , que k é alto. Como sabemos a distribuição de k sob a hipótese nula, essas informações são suficientes para determinar a região crítica.3.5 α / 2 k α / 2 k k
Tecnicamente, existem duas maneiras comuns de realizar o cálculo: calcule as probabilidades binomiais ou aproxime-as com uma distribuição normal.
Cálculo com probabilidades binomiais
Use a função de ponto percentual (quantil). Por
R
exemplo, isso é chamadoqbinom
e seria chamado comoA saída para éα = 0,05
Isso significa que a região crítica compreende todos os valores baixos de entre (e incluindo) 0 e 109 , juntamente com todos os valores altos de k entre (e incluindo) 141 e 250 . Como verificação, podemos pedir para calcular a chance que existe nessa região quando o nulo for verdadeiro:k 0 0 109 k 141 250
R
k
A saída é , muito próxima - mas não maior que-- α . Como a região crítica deve terminar com um número inteiro, geralmente não é possível tornar esse tamanho de teste real exatamente igual ao tamanho nominal de teste α , mas nesse caso os dois valores são muito próximos.0,0497 α α
Cálculo com a aproximação normal
A média de um binomial de distribuição é de 250 × 1 / 2 = 125 e a sua variação é de 250 × 1 / 2 × ( 1 - 1 / 2 ) = 250 / 4 , fazendo o seu desvio padrão igual a √(250,1/2) 250×1/2=125 250×1/2×(1−1/2)=250/4 . Substituiremos a distribuição binomial por uma distribuição normal. A distribuição normal padrão temα/2=0,05/2de sua probabilidade menor que-1,95996, conforme calculado pelocomando250/4−−−−−√≈7.9 α/2=0.05/2 −1.95996
R
Esse teste, porque não assume nada sobre a população (exceto que não tem muita probabilidade focada diretamente na sua mediana), não é tão poderoso quanto outros testes que fazem suposições específicas sobre a população. Se o teste rejeitar o nulo, não há necessidade de se preocupar com falta de energia. Caso contrário, é necessário fazer algumas trocas delicadas entre o que você está disposto a assumir e o que é capaz de concluir sobre a população.
fonte