Como testar se o "estado anterior" influencia o "estado subsequente" em R

10

Imagine uma situação: temos registros históricos (20 anos) de três minas. A presença de prata aumenta a probabilidade de encontrar ouro no próximo ano? Como testar essa pergunta?


insira a descrição da imagem aqui

Aqui estão dados de exemplo:

mine_A <- c("silver","rock","gold","gold","gold","gold","gold",
            "rock","rock","rock","rock","silver","rock","rock",
            "rock","rock","rock","silver","rock","rock")
mine_B <- c("rock","rock","rock","rock","silver","rock","rock",
            "silver","gold","gold","gold","gold","gold","rock",
            "silver","rock","rock","rock","rock","rock")
mine_C <- c("rock","rock","silver","rock","rock","rock","rock",
            "rock","silver","rock","rock","rock","rock","silver",
            "gold","gold","gold","gold","gold","gold")
time <- seq(from = 1, to = 20, by = 1)

Ladislav Naďo
fonte
11
Você pode estar interessado em calcular matrizes de transição .
27515 Andy
Oi @AndyW! Obrigado pelo comentário. Eu estou familiarizado com o pacote de matrizes de transição: makkovchain - markovchainFit (). Posso usar os valores de probabilidade da matriz de transição como valores-p? Existe alguma maneira de testar a hipótese: "Existe uma relação" prata-ouro "". (valor-p = xx)?
Ladislav Naďo
11
As probabilidades de transição @LadislavNado não podem ser interpretadas como valores-p (eles não informam nada sobre a rejeição de qualquer H0), consulte stats.stackexchange.com/questions/31/… para saber mais sobre valores-p.
Tim
11
Vejo um problema com a maneira como você extraiu seus dados. Considere o cenário "prata: não" e "ouro: sim", você também deve contar suas execuções consecutivas de "ouro", pois isso atende aos critérios lógicos.
11
Com a célula corrigida de 1 a 14, o modelo muda para: Coeficientes: Estimativa Padrão. Erro z valor Pr (> | z |) (Interceptação) -1,2528 0,8018 -1,562 0,118 as.factor (c (0, 1)) 1 0,3655 0,8624 0,424 0,672

Respostas:

4

Minha melhor tentativa: ... o uso de matrizes de transição sugeridas por @AndyW provavelmente não é a solução que estou procurando (com base no comentário de @ Tim). Então, eu tentei uma abordagem diferente. Eu encontrei este link que lida com como fazer a regressão logística em que a variável de resposta y e uma variável preditora x são binárias .

De acordo com o exemplo, eu deveria criar uma tabela 2 × 2 com base nos meus dados:

               gold (yes)  gold (no)
silver (yes)       2           7
silver (no)       14          34

Como extraí os valores: insira a descrição da imagem aqui

E construa um modelo:

response <- cbind(yes = c(2, 14), no = c(7, 34))

mine.logistic <- glm(response ~ as.factor(c(0,1)),
                      family = binomial(link=logit))

summary(mine.logistic)
# Coefficients:
#                     Estimate Std. Error z value Pr(>|z|)
# (Intercept)          -1.2528     0.8018  -1.562    0.118
# as.factor(c(0, 1))1   0.3655     0.8624   0.424    0.672

É uma boa solução? O valor p (0,673) significa que a presença de prata não aumenta a probabilidade de encontrar ouro?

Ladislav Naďo
fonte
Como você gerou esses bons gráficos? Tikz?
shadowtalker
Oi @ssdecontrol! Os gráficos foram feitos à mão no Inkscape.
Ladislav Naďo
Sim, é uma interpretação decente. Além disso, se você apenas olhar para as linhas da sua mesa 2x2, na linha superior (prata: sim) você tem 9 caixas, duas das quais com ouro, portanto, a probabilidade de prata com prata no próximo ano é 2/9 = 0,222. Na linha inferior (prata: não), você tem 48 caixas, 14 das quais tinham ouro no próximo ano, portanto, dada a probabilidade de prata, a prata é 14 / (14 + 34) = 0,292. Dado tudo isso, parece que a prata prejudica sua chance de encontrar ouro, embora os valores-p não sejam "estatisticamente significativos".
Gregor Thomas
Lembre-se também de sua codificação, para começar yes = c(2, 14), no = c(7, 34), o que significa colocar Silver: sim primeiro. Então, quando você faz as.factor(c(0, 1))0, corresponde a prata: sim, qual é o seu nível de referência e, portanto, o seu intercepto. O valor p de 0,67 corresponde ao pequeno aumento positivo que você tem na probabilidade de encontrar ouro passando de prata: sim para prata: não.
Gregor Thomas
Um último comentário: você está usando matrizes de transição. Sua matriz 2, 7, 14, 34 é uma matriz de transição.
Gregor Thomas