isso parece uma pergunta muito ingênua, mas estou tendo dificuldades para ver a resposta.
Eu tenho um conjunto de 30 valores. Independentemente, obtive um 31º valor. A hipótese nula é que o 31º valor faça parte da mesma distribuição. Alternativa é que é diferente. Eu quero algum tipo de valor de p ou medida de probabilidade.
Alguns pensamentos que tive:
- Isso é semelhante a querer fazer um teste t de duas amostras - exceto que para a segunda amostra eu só tenho um valor único e os 30 valores não são necessariamente normalmente distribuídos.
- Se, em vez de 30 medidas, eu tivesse 10000, a classificação da única medida poderia fornecer algumas informações úteis.
Como posso calcular essa probabilidade ou valor de p?
Obrigado! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
fonte
fonte
Respostas:
No caso unimodal, a desigualdade Vysochanskij-Petunin pode fornecer um intervalo de previsão aproximado. Aqui está o site da wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
Existem alguns problemas com essa abordagem. Você realmente não sabe o desvio médio ou padrão; você está usando estimativas. E, em geral, você não terá distribuições unimodais, o que significa que terá que usar versões especializadas da desigualdade de Chebyshev. Mas pelo menos você tem um ponto de partida.
fonte
Corrigir. A idéia é um pouco como um teste t com um único valor. Como a distribuição não é conhecida e a normalidade com apenas 30 pontos de dados pode ser um pouco difícil de engolir, isso exige algum tipo de teste não paramétrico.
Mesmo com 30 medições, a classificação pode ser informativa.
Como o @whuber apontou, você deseja algum tipo de intervalo de previsão. Para o caso não paramétrico, o que você está perguntando é essencialmente o seguinte: qual é a probabilidade de um dado ponto de dados ter por acaso a classificação que observamos na sua 31ª medição?
Isso pode ser resolvido através de um teste de permutação simples. Aqui está um exemplo com 15 valores e um romance (16ª observação) que é realmente maior que qualquer um dos anteriores:
Executamos N permutações, em que a ordem dos elementos da lista é embaralhada e, em seguida, fazemos a pergunta: qual é a classificação do valor do primeiro elemento na lista (embaralhada)?
Executar N = 1.000 permutações nos dá 608 casos em que a classificação do primeiro elemento da lista é igual ou melhor à classificação do novo valor (na verdade igual, pois o novo valor é o melhor). Executando a simulação novamente por 1.000 permutações, obtemos 658 casos, depois 663 ...
Se executarmos N = 1.000.000 de permutações, obteremos 62825 casos em que a classificação do primeiro elemento da lista é igual ou melhor à classificação do novo valor (simulações adicionais fornecem 62871 casos e 62840 ...). Se tomar a razão entre os casos em que a condição é satisfeita e o número total de permutações, obtemos números como 0,062825, 0,062871, 0,06284 ...
Você pode ver esses valores convergirem para 1/16 = 0,0625 (6,25%), o que, como @whuber observa, é a probabilidade de um determinado valor (de 16) sorteado aleatoriamente ter a melhor classificação possível entre eles.
Para um novo conjunto de dados, em que o novo valor é o segundo melhor valor (ou seja, classificação 2):
obtemos (para N = 1.000.000 de permutações): 125235, 124883 ... casos favoráveis que, novamente, aproximam a probabilidade de que um determinado valor (de 16) sorteado aleatoriamente tenha a segunda melhor classificação possível entre eles: 2/16 = 0,125 (12,5%).
fonte