Como testar se meus dados são discretos ou contínuos?

11

Parece-me que, para escolher as ferramentas estatísticas certas, primeiro preciso identificar se meu conjunto de dados é discreto ou contínuo.

Você poderia me ensinar como posso testar se os dados são discretos ou contínuos com o R?

evdstat
fonte
Você quer dizer se determinadas variáveis ​​precisam ser adicionadas como preditores contínuos ou categóricos (discretos) em um modelo de tipo de regressão?
Nick Sabbe
Como os dados foram coletados e como as variáveis ​​foram registradas provavelmente fornecerão algumas pistas sobre isso; além disso, é provável que dependa se você deseja modelar seus dados como contínuos ou discretos (consulte, por exemplo, pergunta relacionada a itens do Likert e análise de escalas discretas). Ponto não relacionado: seria bom se você pudesse registrar sua conta de uma vez por todas e talvez considere aceitar respostas ou revisar suas perguntas anteriores.
chl
fazer uma qqnorm e se os pontos estão todos ao longo da diagonal dos dados é contínua (se é em linhas horiontal é discreto)
user222362

Respostas:

14

A única razão pela qual consigo pensar imediatamente em exigir essa decisão é decidir sobre a inclusão de uma variável como contínua ou categórica em uma regressão.

Primeiro, às vezes você não tem escolha: variáveis ​​ou fatores de caracteres (onde alguém que forneceu os dados.quadro tomou a decisão por você) é obviamente categórico.

x11.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Eu diria que uma variável que possui apenas 5% de valores únicos pode ser chamada com segurança de discreta (mas, como mencionado: isso é subjetivo). No entanto: isso não o torna um bom candidato para incluí-la como uma variável categórica no seu modelo: se você tiver 1000000 observações e 5% de valores únicos, isso ainda deixa 50000 'categorias': se você incluir isso como categórico, você ' vamos gastar muitos graus de liberdade.

Acho que essa ligação é ainda mais subjetiva e depende muito do tamanho da amostra e do método de escolha. Sem mais contexto, é difícil dar orientações aqui.

x012

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
E[y]=β0+β1x1+2β1x2

χ2

Nick Sabbe
fonte
3
+1 Bom exemplo de como melhorar uma pergunta estranha com ótima resposta.
11
Bem, de fato, qualquer contínuo pode ser discreto, fazendo com que os histogramas mostrem apenas como é feito na prática. Provavelmente misturei dados de contagem (dados de valor inteiro) com categóricos ... embora meu primeiro palpite fosse sobre distribuições discretas e contínuas, não apenas pontos de dados (e pesquisadores malucos que atribuem valores reais a categorias), então ... excluí os meus de qualquer maneira , já que não acho que isso resolve o problema (1)
Dmitrij Celov
11
parece que @Dmitrij removeu sua resposta, você poderia reeditá-la para refletir isso? É uma ótima resposta (+1), para que a referência ao conteúdo não existente se destaque um pouco.
mpiktas