Imagine uma situação: temos registros históricos (20 anos) de três minas. A presença de prata aumenta a probabilidade de encontrar ouro no próximo ano? Como testar essa pergunta?
Aqui estão dados de exemplo:
mine_A <- c("silver","rock","gold","gold","gold","gold","gold",
"rock","rock","rock","rock","silver","rock","rock",
"rock","rock","rock","silver","rock","rock")
mine_B <- c("rock","rock","rock","rock","silver","rock","rock",
"silver","gold","gold","gold","gold","gold","rock",
"silver","rock","rock","rock","rock","rock")
mine_C <- c("rock","rock","silver","rock","rock","rock","rock",
"rock","silver","rock","rock","rock","rock","silver",
"gold","gold","gold","gold","gold","gold")
time <- seq(from = 1, to = 20, by = 1)
r
time-series
hypothesis-testing
stochastic-processes
Ladislav Naďo
fonte
fonte
Respostas:
Minha melhor tentativa: ... o uso de matrizes de transição sugeridas por @AndyW provavelmente não é a solução que estou procurando (com base no comentário de @ Tim). Então, eu tentei uma abordagem diferente. Eu encontrei este link que lida com como fazer a regressão logística em que a variável de resposta y e uma variável preditora x são binárias .
De acordo com o exemplo, eu deveria criar uma tabela 2 × 2 com base nos meus dados:
Como extraí os valores:
E construa um modelo:
É uma boa solução? O valor p (0,673) significa que a presença de prata não aumenta a probabilidade de encontrar ouro?
fonte
yes = c(2, 14), no = c(7, 34)
, o que significa colocar Silver: sim primeiro. Então, quando você fazas.factor(c(0, 1))
0, corresponde a prata: sim, qual é o seu nível de referência e, portanto, o seu intercepto. O valor p de 0,67 corresponde ao pequeno aumento positivo que você tem na probabilidade de encontrar ouro passando de prata: sim para prata: não.