Análise de dados variáveis ​​contínua e categórica

9

Eu tenho três variáveis:

  • distância (infinito contínuo de faixa variável e infinito positivo)
  • isLand (categórico / booleano discreto, intervalo variável 1 ou 0)
  • ocupantes (categóricos discretos, faixa variável de 0 a 7)

Quero responder às seguintes perguntas estatísticas:

  • Como comparar distribuições que possuem variáveis ​​categóricas e contínuas. Por exemplo, eu gosto de determinar se a distribuição de dados da distância versus ocupantes varia dependendo do valor de isLand.
  • Dada duas das três variáveis, posso prever a terceira usando alguma equação?
  • Como posso determinar a independência com mais de duas variáveis?
Elpezmuerto
fonte
1
Eu recomendaria que você dividisse isso em três perguntas separadas.
Shane
Na verdade, agora que li isso um pouco mais de perto, vejo que a resposta para cada um está muito intimamente relacionada.
Shane
Eu senti que o cerne da questão está comparando duas distribuições diferentes; por acaso, listo três maneiras diferentes de fazer isso.
Elpezmuerto
Pelo occupantsque você tem é uma variável ordinal, então eu não pensaria nisso como categórico. Especialmente com 8 valores, é quase contínuo.
Mike Dunlavey

Respostas:

5

Eu recomendaria a leitura sobre modelos logísticos ou log-lineares em particular, e métodos de análise de dados categóricos em geral. As notas no curso a seguir são muito boas para começar: Análise de dados discretos . O livro de Agresti é bastante bom. Você também pode considerar o Kleinbaum para um início rápido.

ars
fonte
Na verdade, tenho o livro Agresti em minha mesa agora e já o uso. O problema é que eu não sabia qual metodologia específica deveria estar usando.
Elpezmuerto
2
@Elpezmuerto Muito brevemente, para complementar a resposta @ars, a pergunta 1 pode ser respondida com um gráfico condicional ou de treliça, por exemplo, como dist ~ occ | isLandusar Lattice, ou ver a coplot()função no vcdpacote - isso é para fins exploratórios; a questão 2 exige um modelo de previsão; dependendo da variável que você considera como resultado, pode ser uma regressão logística (por exemplo, se Y = isLand), uma regressão linear (por exemplo, se Y = distância) ou diretamente um modelo log-linear, desde que você categorize sua medição contínua; a questão 3 é claramente um modelo log-linear, conforme sugerido por @ars.
chl
1
@Elpezmuerto @ars Graças ao trabalho de Laura Thompson, o livro de Agresti também está disponível em R, j.mp/9fXheu :-)
chl
2
@chl: essa é uma ótima descoberta! Obrigado. @Elpezmuerto: Há uma série de exemplos em Agresti sobre caranguejos - tenho certeza de que há uma variável contínua (tamanho do caranguejo?) Junto com uma cor (faixa) e um booleano (não consigo lembrar). Tão bem perto do seu caso - provavelmente é instrutivo ler os exemplos que abrangem pelo menos 2 capítulos (um capítulo é a regressão logística, acredito).
ars
@ars Estes são esp. Capítulos 4 e 5, com a largura da carapaça e peso como variáveis contínuas e condição espinha como outro (ordinal) variável categórica, utilizados em Poisson e regressão logística :)
CHL
2
  1. Para examinar a relação entre um fator contínuo e categórico, um bom começo é usar gráficos de caixas lado a lado, contínuos à esquerda e categóricos na parte inferior. Os meios são diferentes? Use ANOVA para verificar.

  2. Para examinar a relação entre fatores categóricos, um bom começo é usar um gráfico de mosaico, bem como uma tabela de contingência. Você pode agrupar primeiro e depois fazer plotagens separadas.

  3. Para prever os ocupantes, a regressão logística ordinal é provavelmente o melhor caminho a percorrer.

  4. Para prever isLand, a regressão logística (binomial) deve fazer o truque.

  5. Para prever a distância, a regressão OLS funcionará.

Neil McGuigan
fonte