Eu estava tentando criar alguns dados de teste para regressão logística e encontrei este post Como simular dados artificiais para regressão logística?
É uma boa resposta, mas cria apenas variáveis contínuas. Que tal uma variável categórica x3 com 5 níveis (ABCDE) associada a y para o mesmo exemplo que no link?
r
logistic
simulation
user1301295
fonte
fonte
Respostas:
O modelo
Deixe se alguém tiver a categoria "B" e caso contrário. Defina , e . Se , temos a categoria "A" (ou seja, "A" é o nível de referência). Seu modelo pode ser escrito comoxB=1 xB=0 xC xD xE xB=xC=xD=xE=0
Geração de dados em R
(uma)
O
x
vetor possuin
componentes (um para cada indivíduo). Cada componente é "A", "B", "C", "D" ou "E". Cada um de "A", "B", "C", "D" e "E" é igualmente provável.b)
dummy(x)
é uma matriz comn
linhas (uma para cada indivíduo) e 5 colunas correspondentes a , , , e . Os preditores lineares (um para cada indivíduo) podem ser escritos comoc)
As probabilidades de sucesso seguem o modelo logístico:
d)
Agora podemos gerar a variável de resposta binária. O th resposta vem de uma variável aleatória binomial com e :i Bin(n,p) n=1 p=
pi[i]
Algumas simulações rápidas para verificar isso estão OK
fonte