Esse valor único corresponde a essa distribuição?

10

isso parece uma pergunta muito ingênua, mas estou tendo dificuldades para ver a resposta.

Eu tenho um conjunto de 30 valores. Independentemente, obtive um 31º valor. A hipótese nula é que o 31º valor faça parte da mesma distribuição. Alternativa é que é diferente. Eu quero algum tipo de valor de p ou medida de probabilidade.

Alguns pensamentos que tive:

  • Isso é semelhante a querer fazer um teste t de duas amostras - exceto que para a segunda amostra eu só tenho um valor único e os 30 valores não são necessariamente normalmente distribuídos.
  • Se, em vez de 30 medidas, eu tivesse 10000, a classificação da única medida poderia fornecer algumas informações úteis.

Como posso calcular essa probabilidade ou valor de p?

Obrigado! Yannick

Yannick Wurm
fonte
4
Você está solicitando um intervalo de previsão . Seu segundo pensamento leva a intervalos de previsão não paramétricos (que eu acredito que não foram mencionados neste site antes).
whuber
O que mais você pode nos dizer sobre sua população? Todos os valores são positivos? Você esperaria que fosse simétrico? Unimodal?
soakley
Obrigado e desculpas, eu deveria ter fornecido mais informações. Estamos dando uma olhada nos intervalos de previsão. Basicamente, temos o comprimento de uma previsão de gene focal. E os comprimentos de genes semelhantes encontrados nos bancos de dados. Portanto, todos os números são números inteiros positivos. Em um caso fácil, a distribuição dos comprimentos é unimodal. Na realidade, eles freqüentemente não são; nesta fase, podemos supor que são. Algumas parcelas de distribuições são mostrados aqui: github.com/monicadragan/gene_prediction/tree/master/...
Yannick Wurm
Não estou convencido de que queremos um "intervalo de previsão". Não queremos prever ... e não queremos um intervalo ...?
Yannick Wurm
11
I3031II

Respostas:

7

No caso unimodal, a desigualdade Vysochanskij-Petunin pode fornecer um intervalo de previsão aproximado. Aqui está o site da wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

λ=3

x¯3s

Existem alguns problemas com essa abordagem. Você realmente não sabe o desvio médio ou padrão; você está usando estimativas. E, em geral, você não terá distribuições unimodais, o que significa que terá que usar versões especializadas da desigualdade de Chebyshev. Mas pelo menos você tem um ponto de partida.

[x(i),x(j)]Xjin+1.X[x(1),x(30)].

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

n=30,λ=3.2

Soakley
fonte
Isso parece ser uma aplicação incorreta da desigualdade: assume que a média e a variação são conhecidas , onde a variação só pode ser estimada a partir dos dados nesse contexto. A diferença pode ser enorme, especialmente com pequenos conjuntos de dados. Nos meus estudos de simulação de propostas semelhantes com a desigualdade de Chebyshev, encontrei um desempenho incrivelmente baixo. Intuitivamente, isso é semelhante ao insight do aluno de que a distribuição t deve ser usada em vez da distribuição Normal para a construção de ICs; porque um PI está muito mais "lá fora" nas caudas, a diferença é ampliada.
whuber
2
2/316.456.45
0

Alguns pensamentos que tive:

Isso é semelhante a querer fazer um teste t de duas amostras - exceto que para a segunda amostra eu só tenho um valor único e os 30 valores não são necessariamente normalmente distribuídos.

Corrigir. A idéia é um pouco como um teste t com um único valor. Como a distribuição não é conhecida e a normalidade com apenas 30 pontos de dados pode ser um pouco difícil de engolir, isso exige algum tipo de teste não paramétrico.

Se, em vez de 30 medidas, eu tivesse 10000, a classificação da única medida poderia fornecer algumas informações úteis.

Mesmo com 30 medições, a classificação pode ser informativa.

Como o @whuber apontou, você deseja algum tipo de intervalo de previsão. Para o caso não paramétrico, o que você está perguntando é essencialmente o seguinte: qual é a probabilidade de um dado ponto de dados ter por acaso a classificação que observamos na sua 31ª medição?

Isso pode ser resolvido através de um teste de permutação simples. Aqui está um exemplo com 15 valores e um romance (16ª observação) que é realmente maior que qualquer um dos anteriores:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Executamos N permutações, em que a ordem dos elementos da lista é embaralhada e, em seguida, fazemos a pergunta: qual é a classificação do valor do primeiro elemento na lista (embaralhada)?

Executar N = 1.000 permutações nos dá 608 casos em que a classificação do primeiro elemento da lista é igual ou melhor à classificação do novo valor (na verdade igual, pois o novo valor é o melhor). Executando a simulação novamente por 1.000 permutações, obtemos 658 casos, depois 663 ...

Se executarmos N = 1.000.000 de permutações, obteremos 62825 casos em que a classificação do primeiro elemento da lista é igual ou melhor à classificação do novo valor (simulações adicionais fornecem 62871 casos e 62840 ...). Se tomar a razão entre os casos em que a condição é satisfeita e o número total de permutações, obtemos números como 0,062825, 0,062871, 0,06284 ...

Você pode ver esses valores convergirem para 1/16 = 0,0625 (6,25%), o que, como @whuber observa, é a probabilidade de um determinado valor (de 16) sorteado aleatoriamente ter a melhor classificação possível entre eles.

Para um novo conjunto de dados, em que o novo valor é o segundo melhor valor (ou seja, classificação 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

obtemos (para N = 1.000.000 de permutações): 125235, 124883 ... casos favoráveis ​​que, novamente, aproximam a probabilidade de que um determinado valor (de 16) sorteado aleatoriamente tenha a segunda melhor classificação possível entre eles: 2/16 = 0,125 (12,5%).

mais píton
fonte