Eu tenho 2 conjuntos de dados distribuídos exponencialmente e quero ter certeza de que eles são de diferentes distribuições. Infelizmente, um erro necessário na detecção dos dados me obriga a descartar todos os dados sob um determinado limite. Em cada conjunto, tenho cerca de 3000 pontos de dados e a plotagem dos dados me faz pensar que o valor lambda é diferente. O ajuste também gera valores diferentes para lambda.
Como posso ter certeza de que os dois conjuntos de dados são originários de uma distribuição diferente?
Aqui está um gráfico de como os conjuntos se parecem (observe que todos os valores em tempo de vida = 3seg precisam ser descartados):
ATUALIZAÇÃO: As distribuições acima são normalizadas em ambos os casos em N apenas para compará-las melhor em um gráfico porque o número total de pontos de dados N é diferente.
UPDATE2: Após o truncamento, tenho cerca de 150 valores vitalícios para o conjunto de dados vermelho e 350 para o conjunto de dados azul. Acontece que 3000 foi exagerado (me desculpe).
UPDATE3: Obrigado por me acompanhar. Aqui estão os dados brutos:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Até agora, ajustei uma função exponencial nos dois conjuntos de dados e comparei as inclinações. Como qualquer normalização não deve alterar a inclinação dos dados, diferentes inclinações devem implicar diferentes distribuições exponenciais subjacentes (minha experiência com análise estatística é muito limitada).
Os valores abaixo do limite são descartados porque a medição detecta muitos eventos com muita frequência nesse regime.
ATUALIZAÇÃO4: Acabei de perceber que meu problema é muito mais complicado do que eu pensava. Na verdade, eu deixei os dados censurados (não sei o início de alguns eventos) e os censos à direita (não sei o final de alguns eventos) E tenho que descartar todas as vidas abaixo de 3s (truncamento). Existe alguma maneira de incorporar tudo isso em uma análise? Até agora, encontrei alguma ajuda sobre como trabalhar com dados censurados (análise de sobrevivência), mas o que devo fazer com o truncamento?
Respostas:
As vidas exponencialmente distribuídas são um caso especialmente simples para a análise de sobrevivência . Analisá-los é frequentemente o primeiro exemplo trabalhado para iniciar os alunos antes de passar para situações mais complicadas. Além disso, a análise de sobrevivência é naturalmente adequada para dados censurados. Em resumo, sugiro que você use a análise de sobrevivência com um indicador de agrupamento para as duas distribuições como efeito do tratamento. Você pode usar um modelo paramétrico (por exemplo, o modelo Weibull, pois o exponencial é um caso especial do Weibull ) ou usar métodos não paramétricos, como o teste de classificação de log , se preferir.
fonte
Você está interessado no seguinte teste: que é o único parâmetro que identifica exclusivamente a distribuição exponencial com a qual você está lidando. Como também corresponde à média dessa distribuição, você está essencialmente interessado em testar a diferença de médias nessas duas distribuições.λ i λH0:λ1=λ2 λi λ
Como você tem um tamanho de amostra grande, para testar isso, podemos recorrer ao teorema do limite central, que nos diz o seguinte:
Teorema do limite central: suponha que é uma sequência de variáveis aleatórias iid com . Então, quando aproxima do infinito, a variável aleatória converge na distribuição para uma distribuição normal de . E [ X i ] = μ e V a r [ X i ] = σ 2 < ∞ n √X1,X2,...Xn E[Xi]=μ and Var[Xi]=σ2<∞ n n−−√(X¯−μ) N(0,σ2)
Em outras palavras, sua média de amostra para cada um dos dois grupos é distribuída aproximadamente normalmente. Como você não conhece o verdadeiro valor de , pode executar um teste t para obter uma diferença de médias.σ2
fonte