Teste de Kolmogorov-Smirnov?

8

Estou estudando distúrbios causados ​​pelo tráfego de navios para pequenas aves marinhas. Observei os animais focais por um período determinado e registrei se eles voavam ou não da água durante a observação. Este pássaro em particular não voa com altas probabilidades quando não é perturbado (cerca de 10% do tempo). Post hoc, acrescentei a distância do navio mais próximo a cada observação (os navios de interesse tinham localizadores de GPS registrando um ponto a cada 5 s).

Plotamos a função de distribuição cumulativa para TODAS as observações e para as observações em que o pássaro voou da água em função da distância do navio mais próximo. Como esperado, a maioria das observações nas quais o pássaro voou foi observada quando o navio estava perto.

plotagem ecdf, voar, não voou, tudo obs

Posso usar o teste Kolmogorov-Smirnov para testar se há uma diferença estatística na distribuição das observações de voo e no total de observações? Meu pensamento é que, se essas duas distribuições forem diferentes, isso sugere que a distância do navio influencia o vôo. Eu me preocupo porque essas funções de distribuição não são independentes, pois as observações de vôo são um subconjunto do total de observações.

Pensamentos?

Depois de ler um pouco mais sobre este site, acho que posso testar a distribuição das observações nas quais o voo ocorreu (F) e a distribuição das observações nas quais não ocorreu (NF), pois são independentes. Se essas distribuições são as mesmas F = NF, podemos assumir que a distribuição de (F) e (TOT = todas as observações) é a mesma que sabemos que a distribuição de (F) é igual a si mesma e (F) + (T) = (TOT). Direita?

ATUALIZAÇÃO: 12/2/14

Seguindo as sugestões de @ Scortchi, investiguei a relação da incidência de vôo versus distância com o navio mais próximo em uma estrutura de regressão logística. Houve uma pequena relação presente (inclinação negativa), mas o valor de p não foi significativo, sugerindo que a inclinação verdadeira poderia ser zero. Com base nas estatísticas descritivas (incluindo as plotagens de ecdf), suspeitei que o efeito de navios próximos estivesse sendo abafado pelas muitas observações quando o navio não estava afetando o comportamento. Em seguida, usei o pacote R segmentado ( http://cran.r-project.org/web/packages/segmented/segmented.pdf) para tentar encontrar um ponto de interrupção no modelo. O programa descobriu que quebrar os dados a 2,6 km do navio e ajustar dois coeficientes separados era melhor que o modelo de coeficiente único. O coeficiente para a inclinação da aproximação de navios próximos foi negativo e sugere que os navios afetem a resposta do voo até cerca de 2,6 km (valor de p <0,001). O coeficiente para o segundo declive foi ligeiramente positivo, mas o valor de p não foi significativo no nível alfa de 0,05 (valor de p = 0,11). Portanto, em resumo, a linha de regressão segmentada foi capaz de detectar uma diferença de limiar na qual a probabilidade de vôo aumenta. A estimativa para a probabilidade de vôo quando o navio estiver além de 2,6 km é de 0,11. Apropriadamente, observei 79 aves quando nenhum navio estava na baía de estudo (>

Obrigado por todas as sugestões. Espero que esta pergunta, juntamente com as sugestões e respostas, ajude outras pessoas.

Marcellt
fonte
Por que não a regressão logística com voou / não voou como resposta e a distância ao navio mais próximo como preditor?
Scortchi - Restabelece Monica
Eu tentei isso. A interceptação é significativa, mas a inclinação não é. Há muito ruído (voo) nos dados a distâncias não relevantes biologicamente. Este é o vôo natural que ocorre nesta espécie. Estou tentando identificar a distância em que o navio afeta o voo para que eu possa agrupar as observações como "na presença" ou "na ausência" de navios. Acho que a distância máxima ou o ponto em que a estatística D é calculada pode me aproximar mais desse objetivo.
marcellt
2
Má ideia - veja aqui . E usar a variável de resposta para decidir onde quebrar uma variável contínua é especialmente ruim, influenciando as estimativas do coeficiente. Você verificou a curvatura na relação do logit da resposta com o preditor?
Scortchi - Restabelece Monica
1
Nada de errado com seu teste (F vs NF) ou com a determinação da distância em que os ECDFs estão mais afastados; mas (a) usar seus dados para definir grupos de controle e tratamento, testar / modelar os mesmos dados nesses grupos é inválido; (b) a menos que você pense realmente que há uma distância além da qual os pássaros não são afetados e dentro dos quais são afetados, é uma maneira ruim de modelá-lo, mesmo para dados futuros; (c) dadas as diferenças evidentes entre os ECDFs, uma regressão logística adequadamente especificada deve mostrar um efeito significativo da distância do navio na probabilidade de vôo.
Scortchi - Restabelece Monica
1
(i) Você realmente não deseja comparar (A vs A + B) porque perde a independência dos dois e qualquer teste terá que ser ajustado para isso (o que será complicado em muitos casos). Teste A vs B e mantenha a independência. Nenhum dos testes padrão funcionará de outra maneira. (ii) você deseja evitar discretizar os preditores, se puderem ser evitados.
Glen_b -Reinstala Monica

Respostas:

1

Problema interessante. Tenho dois pensamentos, um geral e outro sobre como caracterizar seus dados ...

Primeiro, no que diz respeito à comparação de distribuições, concordo com @Glen_b e @Scortchi que você não deseja comparar o Fly vs All conforme mostrado no gráfico (mas é uma boa idéia sobrepor o gráfico da estatística D). Como você tem uma forte crença sobre onde é provável que as distribuições sejam diferentes, e não apenas que são diferentes, convém comparar os quantis das duas distribuições. Há um bom post sobre o assunto, que funciona através do código R para desenvolver o método de teste. E existe um pacote R, o WRS , que implementa métodos de teste baseados em quantil.

Segundo, consideraria abandonar completamente o uso de um teste formal de comparação e, em vez disso, usar o Peso de Evidência (WOE). Essa abordagem é comumente usada em indústrias que precisam de estruturas de decisão que lidam com diferentes níveis de risco em vários preditores. Exemplos incluem subscrição de seguros, avaliação de crédito e ensaios clínicos.

Na sua configuração, existe um "risco" básico de voo (você disse 10%), mas as chances de vôo parecem aumentar muito na presença de navios a determinadas distâncias. Usando a abordagem WOE, você pode transmitir a mudança nas chances de vôo em função da distância dos navios, o que é fácil de entender para o público leigo (bem, pelo menos mais fácil do que entender os valores de p associados às estatísticas de teste). Observe que isso está intimamente relacionado à sugestão de @ Scortchi de usar a regressão logística, mas com o WOE você não está tentando ajustar um modelo de regressão.

Existe uma boa documentação no site da Statistica para a aplicação do método, mas a melhor introdução que encontrei está em um livro Pontuação de crédito, modelagem de respostas e classificação de seguros: um guia prático para prever o comportamento do consumidor . Se você pesquisar o termo "WOE", encontrará várias seções discutindo a idéia, e a seção 5.1 mostra um exemplo completo de cálculo do WOE (é muito fácil) e avaliação dos resultados para tomada de decisão. Por fim, observe que há uma postagem sobre o stackoverflow sobre esse tópico, que não é muito desenvolvida, mas há um link para PDF mostrando outro exemplo no contexto da codificação SAS.

Josh Hemann
fonte