Sinto que já vi esse tópico discutido aqui antes, mas não consegui encontrar nada específico. Por outro lado, também não tenho muita certeza do que procurar.
Eu tenho um conjunto unidimensional de dados ordenados. Eu suponho que todos os pontos do conjunto sejam retirados da mesma distribuição.
Como posso testar esta hipótese? É razoável testar contra uma alternativa geral de "as observações neste conjunto de dados são extraídas de duas distribuições diferentes"?
Idealmente, eu gostaria de identificar quais pontos vêm da "outra" distribuição. Como meus dados são ordenados, posso identificar um ponto de corte, depois de testar de alguma forma se é "válido" cortar os dados?
Edit: de acordo com a resposta de Glen_b, eu estaria interessado em distribuições estritamente positivas e unimodais. Eu também estaria interessado no caso especial de assumir uma distribuição e, em seguida, testar diferentes parâmetros .
fonte
Respostas:
Imagine dois cenários:
os pontos de dados foram todos retirados da mesma distribuição - uma que era uniforme (16,36)
os pontos de dados foram extraídos de uma mistura 50-50 de duas populações:
uma. população A, com a seguinte forma:
b. população B, com a seguinte forma:
... de modo que a mistura dos dois se pareça exatamente com o caso em 1.
Como eles poderiam ser distinguidos?
Quaisquer que sejam as formas que você escolher para duas populações, sempre haverá uma única distribuição de população com a mesma forma. Esse argumento demonstra claramente que, para o caso geral , você simplesmente não pode fazê-lo. Não há como se diferenciar.
Se você introduzir informações sobre as populações (suposições, efetivamente), muitas vezes poderá haver maneiras de prosseguir *, mas o caso geral está encerrado.
* por exemplo, se você pressupõe que as populações são unimodais e têm meios suficientemente diferentes, você pode chegar a algum lugar
[As restrições adicionadas à pergunta não são suficientes para evitar uma versão diferente do tipo de problema que descrevi acima - ainda podemos escrever um nulo unimodal na meia-linha positiva como uma mistura 50-50 de duas distribuições unimodais na meia-linha positiva. Obviamente, se você tiver um nulo mais específico, isso se tornará muito menos problemático. Como alternativa, ainda deve ser possível restringir ainda mais a classe de alternativas até estarmos em posição de testar contra alguma alternativa de mistura. Ou algumas restrições adicionais podem ser aplicadas a nulos e alternativos que os tornariam distinguíveis.]
fonte
Obviamente, você precisa ter alguma teoria para falar sobre distribuição (s) e indicar hipóteses para testar. Algo que agrupa assuntos em um ou mais grupos e algo que faz medições para separar.
Como você pode chegar lá? Eu vejo três opções:
O exercício permitirá concluir que há um ou mais grupos representados na sua amostra ou apenas um. Ou nenhum grupo.
fonte