Análise estatística de águias desaparecendo

8

Resumo do destino da tag por modelo de tag

As águias com marcas de satélite estão desaparecidas na Escócia, e a tabela acima mostra o destino das marcas por modelo. Estou particularmente interessado nas etiquetas "Paradas - sem mau funcionamento", porque é possível que essas aves também estejam sendo mortas e que os corpos e etiquetas estejam sendo descartados.

Eu já vi afirmar que esta tabela e somente essa tabela são evidências de que "Mesmo com a análise estatística mais remota, fica claro que existem relações entre" Interrompido - sem mau funcionamento "e o tipo de tag usado" Então, minha pergunta é: fazer backup da instrução?

42/135  (31%) tags stopped for all types 
 8/17   (47%) tags stopped for 80NS     
29/77   (38%) tags stopped for 70GPS    
 3/22   (14%) tags stopped for 105GPS   
 2/13   (15%) tags stopped for 70GSM    
 0/6     (0%) tags stopped for 95BTOGSM 

Então, acho que a afirmação é verdadeira se a taxa de falha de 80NS de 47% for significativamente pior que a média global de 31%. E não seria verdade se a probabilidade de obter 8 falhas em uma amostra aleatória de 17 tags das 135 fosse realmente bastante alta. Mais abstratamente, se houvesse 42 bolas pretas e 93 brancas em uma sacola e eu escolhesse 17 aleatoriamente, qual é a probabilidade de escolher 8 pretas e 9 brancas?

Posso calcular a probabilidade de os 8 primeiros serem pretos como (42/135) * (41/134) etc., mas estou tentando resolver a probabilidade de qualquer 8 dos 17 ser preto


EDIT: As tags de satélite foram anexadas às aves durante um período de 13 anos, de 2004 a 2016. Esta tabela mostra 131 tags em vez de 135. 4 tags foram excluídas porque não foram capazes de determinar o local preciso da implantação de quatro tags anteriores.

Tipo de tag por ano da tag

Aqui está outra tabela do relatório que mostra alguns dados sobre a vida útil das tags 70GPS / 70GSM:

Parado sem etiqueta de mau funcionamento duração da operação

Colin
fonte
2
Colin, sua pergunta não tem uma variável-chave: tempo desde que a tag foi aplicada. Também é possível que outras variáveis ​​possam ser confundidas com o modelo de tag: por exemplo, talvez modelos diferentes sejam usados ​​em espécies diferentes, ou pássaros de tamanhos diferentes, ou alguns sejam mais velhos e outros mais jovens. Supondo, então, que esse seja um problema real de preocupação genuína, considere incluir esses dados em sua análise.
whuber
2
@ Antonine Eu posso ver por que você pensou que era lição de casa, mas eu tenho medo de estar velho demais agora para lição de casa. Esta é uma questão do mundo real em que estou interessado. Em parte porque estou interessado em estatísticas e no uso indevido de estatísticas, e em parte porque não gosto de perseguição a aves de rapina. É o meu primeiro post na área de estatísticas das trocas de pilha isso, se é inadequada, peço desculpas
Colin
5
Não é de todo inapropriado! Nós apenas recebemos muitas pessoas que colam seus deveres de casa e parecem esperar que respondamos por eles, então há alguma sensibilidade nisso. Mas, como uma pergunta REAL, isso definitivamente está no tópico.
jbowman
2
Se você não se importa, deixe o horário marcado. Isso adiciona desafios interessantes à pergunta. Você sabe em que anos as tags foram perdidas? Idealmente, poderíamos conectar o anexo, destino e tipo correspondentes para cada tag.
gung - Restabelece Monica
1
Para sua pergunta: "É possível fazer backup da declaração?" Eu responderia que sim, pode. No entanto, o relacionamento não é causal, existem fatores de confusão óbvios, como a idade dos dispositivos que não podem ser controlados. Para qualquer afirmação "é óbvio ver tal e tal relação causal", não é necessário responder com uma inferência causal adequada, mostrando a conclusão oposta. É preciso simplesmente encontrar uma variável confusa que ameace a identificação dessa relação causal. Agora, se seu objetivo é conduzir uma inferência causal adequada, essa é uma história diferente.
dv_bn

Respostas:

0

Eu encontrei uma maneira de chegar à minha resposta deste comentário " procure a distribuição hipergeométrica " em math.stackexchange:

Da entrada da Wikipedia sobre distribuição hipergeométrica

Na teoria da probabilidade e na estatística, a distribuição hipergeométrica é uma distribuição de probabilidade discreta que descreve a probabilidade de k sucessos (sorteios aleatórios para os quais o objeto desenhado tem um recurso especificado) em n sorteios, sem substituição.

Em seguida, use uma calculadora hipergeométrica on-line e as seguintes figuras:

População: 135

Número de sucessos na população: 42

Tamanho da amostra: 17

Número de sucessos na amostra: 8

Acho que a probabilidade de obter exatamente 8 é 0,0703 e a probabilidade de obter 8 ou mais é 0,1095

Penso que o número "8 ou mais" é o mais relevante nesse caso, e devo dizer que essa probabilidade é menor do que minha intuição prevista.

Portanto, os números sugerem que há uma probabilidade de 89% de que haja algo diferente na taxa de falhas quando segregados por tipo de tag. Isso não significa que a causa da diferença seja o tipo de tag.

Colin
fonte
1
Isso não controla a idade das tags, criando algumas dúvidas sobre o significado ou a utilidade da probabilidade.
whuber
@whuber, temos um "cientista" alegando que "certas tags têm perdas percentuais muito mais altas (80NS a 47%) [...] se seguirmos por tag, isso significa que pode haver tags e chicotes mais propensos a falhas desconhecidas do que o descansar ", então a primeira coisa que eu queria saber era qual era a probabilidade de obter uma taxa de falha de 47% se assumíssemos que todas as tags tinham a mesma taxa de falha.
Colin
@whuber Na verdade, o argumento provavelmente é discutível, porque se você ler o relatório original, o 80NS é amplamente ignorado na discussão sobre a confiabilidade das tags e o argumento para afirmar que os resultados de "não interromperam o mau funcionamento" são em grande parte devido à perseguição, principalmente devido à perseguição. evidência das tags 70GPS / GSM. O modelo 80NS foi implantado apenas nos primeiros anos, é considerado menos confiável e usou um design de arnês com maior probabilidade de cair prematuramente.
Colin