Estou estudando duas populações geograficamente isoladas da mesma espécie. Inspecionando as distribuições, vejo que ambas são bimodais (há certa sazonalidade em sua ocorrência), mas os picos em uma população são muito mais altos e mais estreitos (ou seja, a variação dos picos locais é menor).
Que tipo de teste estatístico seria apropriado para determinar se essas diferenças são significativas?
Para esclarecer, meu eixo y é o número de indivíduos identificados em uma armadilha em um dia específico, e o eixo x é o dia juliano.
distributions
statistical-significance
variance
Atticus29
fonte
fonte
Respostas:
Essas distribuições são de alguma coisa ao longo do tempo? Conta, talvez? (Se sim, então você pode precisar de algo bem diferente das discussões aqui até agora)
O que você descreve não parece ser muito bem entendido como uma diferença na variação das distribuições.
Parece que você está descrevendo algo vagamente assim (ignore os números nos eixos, é apenas para dar uma idéia do tipo geral de padrão que você parece estar descrevendo):
Se estiver certo, considere:
Embora a largura de cada pico sobre os centros locais seja mais estreita para a curva azul, a variação geral das distribuições de vermelho e azul dificilmente difere.
Se você identificar os modos e antimodos de antemão, poderá medir a variabilidade local.
fonte
Antes de tudo, acho que você deve examinar as distribuições sazonais separadamente, já que a distribuição bimodal provavelmente será o resultado de dois processos bastante separados. As duas distribuições podem ser controladas por mecanismos diferentes, de modo que, por exemplo, as distribuições de inverno sejam mais sensíveis ao clima anual. Se você quiser examinar as diferenças populacionais e as razões para isso, acho que é mais útil estudar as distribuições sazonais separadamente.
Quanto a um teste, você pode tentar o teste de Levine (basicamente um teste de homocedasticidade), usado para comparar variações entre os grupos. O teste de Bartlett é uma alternativa, mas o teste de Levene deve ser mais robusto à não normalidade (especialmente ao usar a mediana para o teste). Em R, os testes de Levene e Bartlett são encontrados em
library(car)
.fonte
leveneTest(y ~ as.factor(group), data= datafile)
para um teste de diferença de variância entre grupos e, se você usar a opção `center =" mediana ", será mais robusta à não normalidade. Estritamente, acho que é chamado teste de Brown-Forsythe se for baseado na mediana.Concordo com o que os outros disseram - ou seja, que "variação" é provavelmente a palavra errada a ser usada (visto que a função que você está considerando não é uma distribuição de probabilidade, mas uma série temporal).
Eu acho que você pode querer abordar esse problema de uma perspectiva diferente - basta ajustar as duas séries temporais com curvas LOWESS. Você pode calcular intervalos de confiança de 95% e comentar qualitativamente suas formas. Não sei se você precisa fazer algo mais sofisticado do que isso.
Eu escrevi alguns códigos do MATLAB abaixo para ilustrar o que estou dizendo. Estou com pressa, mas posso fornecer esclarecimentos em breve. Muito do que fiz pode ser retirado diretamente daqui: http://blogs.mathworks.com/loren/2011/01/13/data-driven-fitting/
Você pode normalizar as duas séries temporais para comparar suas tendências relativas em vez de seus níveis absolutos.
Agora faça LOWESS se encaixa ...
Por fim, você pode criar faixas de confiança de 95% da seguinte maneira:
Agora você pode interpretar a figura final como desejar e possui os ajustes LOWESS para apoiar sua hipótese de que os picos na curva vermelha são realmente mais amplos que a curva azul. Se você tiver uma idéia melhor de qual é a função, poderá fazer uma regressão não linear.
Edit: Com base em alguns comentários úteis abaixo, estou adicionando mais alguns detalhes sobre a estimativa de largura de pico explicitamente. Primeiro, você precisa criar uma definição para o que você considera um "pico" em primeiro lugar. Talvez qualquer aumento que ultrapasse algum limite (algo como 0,05 nas parcelas que fiz acima). O princípio básico é que você deve encontrar uma maneira de separar picos "reais" ou "notáveis" do ruído.
Então, para cada pico, você pode medir sua largura de duas maneiras. Como mencionei nos comentários abaixo, acho razoável examinar a "meia largura máxima", mas você também pode observar o tempo total em que o pico está acima do seu limite. Idealmente, você deve usar várias medidas diferentes de largura de pico e relatar a consistência de seus resultados com essas opções.
Quaisquer que sejam suas métricas de escolha, você pode usar a inicialização para calcular um intervalo de confiança para cada pico em cada rastreamento.
Esse código cria 1000 ajustes autoinicializados para os traços azul e vermelho nos gráficos acima. Um detalhe que abordarei é a escolha do fator de suavização 0,15 - você pode escolher este parâmetro para minimizar o erro de validação cruzada (consulte o link que eu publiquei). Agora tudo o que você precisa fazer é escrever uma função que isola os picos e estima sua largura:
Em seguida, você executa esse código nas 1000 curvas de cada conjunto de dados e calcula os percentis 2,5 e 97,5 para a largura de cada pico. Ilustrarei isso na série temporal Y1 - você faria o mesmo na série temporal Y2 ou em qualquer outro conjunto de dados de interesse.
Se desejar, você pode executar testes de hipóteses em vez de calcular intervalos de confiança. Observe que o código acima é simplista - ele assume que cada curva de bootess com bootstrap terá 2 picos. Essa suposição nem sempre é válida, portanto, tenha cuidado. Eu só estou tentando ilustrar a abordagem que eu adotaria.
Nota: a função "mylowess" é fornecida no link que eu postei acima. Isto é o que parece...
fonte