“Todos esses pontos de dados vêm da mesma distribuição.” Como testar?

16

Sinto que já vi esse tópico discutido aqui antes, mas não consegui encontrar nada específico. Por outro lado, também não tenho muita certeza do que procurar.

Eu tenho um conjunto unidimensional de dados ordenados. Eu suponho que todos os pontos do conjunto sejam retirados da mesma distribuição.

Como posso testar esta hipótese? É razoável testar contra uma alternativa geral de "as observações neste conjunto de dados são extraídas de duas distribuições diferentes"?

Idealmente, eu gostaria de identificar quais pontos vêm da "outra" distribuição. Como meus dados são ordenados, posso identificar um ponto de corte, depois de testar de alguma forma se é "válido" cortar os dados?

Edit: de acordo com a resposta de Glen_b, eu estaria interessado em distribuições estritamente positivas e unimodais. Eu também estaria interessado no caso especial de assumir uma distribuição e, em seguida, testar diferentes parâmetros .

shadowtalker
fonte
O que você quer dizer com "mesma distribuição"? As observações de Gamma são consideradas como provenientes da mesma distribuição ou são consideradas a soma das distribuições exponenciais?
Metariat 22/01
Marcar com +1 esta é uma pergunta muito boa para você se perguntar.
user541686
@Metallica contanto que cada observação é uma soma exponencial, eu diria que eles são da mesma distribuição
shadowtalker
@ Mehrdad Não tenho treinamento formal em estatística além da minha graduação e algumas aulas diversas em meus mestres. Se você olhar para a minha história resposta, é claro que eu sei muito sobre regressão linear e não muito sobre qualquer outra coisa 🤐
shadowtalker
2
Uma maneira possível de abordar essa questão é considerar uma mistura finita de, por exemplo, alguma classe de distribuições e verificar se você precisa de mais de um componente de mistura para descrever bem seus dados. No entanto, a questão é se existe uma classe de distribuições que seja suficientemente flexível para descrever sua "hipótese nula" por um único componente de mistura (por exemplo, se você usar uma mistura finita de distribuições gama, elas podem não ser flexíveis em termos de assimetria ou cauda. comportamento, dependendo do que você está tentando fazer), enquanto contém a alternativa em potencial como uma mistura de vários componentes.
Björn

Respostas:

29

Imagine dois cenários:

  1. os pontos de dados foram todos retirados da mesma distribuição - uma que era uniforme (16,36)

  2. os pontos de dados foram extraídos de uma mistura 50-50 de duas populações:

    uma. população A, com a seguinte forma:

insira a descrição da imagem aqui

b. população B, com a seguinte forma:

insira a descrição da imagem aqui

... de modo que a mistura dos dois se pareça exatamente com o caso em 1.

Como eles poderiam ser distinguidos?

Quaisquer que sejam as formas que você escolher para duas populações, sempre haverá uma única distribuição de população com a mesma forma. Esse argumento demonstra claramente que, para o caso geral , você simplesmente não pode fazê-lo. Não há como se diferenciar.

Se você introduzir informações sobre as populações (suposições, efetivamente), muitas vezes poderá haver maneiras de prosseguir *, mas o caso geral está encerrado.

* por exemplo, se você pressupõe que as populações são unimodais e têm meios suficientemente diferentes, você pode chegar a algum lugar

[As restrições adicionadas à pergunta não são suficientes para evitar uma versão diferente do tipo de problema que descrevi acima - ainda podemos escrever um nulo unimodal na meia-linha positiva como uma mistura 50-50 de duas distribuições unimodais na meia-linha positiva. Obviamente, se você tiver um nulo mais específico, isso se tornará muito menos problemático. Como alternativa, ainda deve ser possível restringir ainda mais a classe de alternativas até estarmos em posição de testar contra alguma alternativa de mistura. Ou algumas restrições adicionais podem ser aplicadas a nulos e alternativos que os tornariam distinguíveis.]

Glen_b -Reinstate Monica
fonte
1
Obrigado, ótimo contra-exemplo. Então, tudo se resume a restringir adequadamente a hipótese alternativa, correto?
shadowtalker
@ssdecontrol sim, em essência; se (dadas as suposições) a alternativa for distinguível da nula, você tem alguma esperança de um teste com poder superior ao seu nível de significância.
Glen_b -Reinstala Monica
0

Obviamente, você precisa ter alguma teoria para falar sobre distribuição (s) e indicar hipóteses para testar. Algo que agrupa assuntos em um ou mais grupos e algo que faz medições para separar.

Como você pode chegar lá? Eu vejo três opções:

  • Se você já sabe disso, basta traduzi-lo para o idioma da hipótese estatística
  • Traçar os gráficos e reconhecer padrões para se tornarem hipóteses para testar
  • Crie uma lista de distribuições em que você possa se encaixar e faça um experimento matemático. Programação probabilística é a palavra-chave aqui

O exercício permitirá concluir que há um ou mais grupos representados na sua amostra ou apenas um. Ou nenhum grupo.

Diego
fonte