Eu tenho três variáveis:
- distância (infinito contínuo de faixa variável e infinito positivo)
- isLand (categórico / booleano discreto, intervalo variável 1 ou 0)
- ocupantes (categóricos discretos, faixa variável de 0 a 7)
Quero responder às seguintes perguntas estatísticas:
- Como comparar distribuições que possuem variáveis categóricas e contínuas. Por exemplo, eu gosto de determinar se a distribuição de dados da distância versus ocupantes varia dependendo do valor de isLand.
- Dada duas das três variáveis, posso prever a terceira usando alguma equação?
- Como posso determinar a independência com mais de duas variáveis?
categorical-data
continuous-data
Elpezmuerto
fonte
fonte
occupants
que você tem é uma variável ordinal, então eu não pensaria nisso como categórico. Especialmente com 8 valores, é quase contínuo.Respostas:
Eu recomendaria a leitura sobre modelos logísticos ou log-lineares em particular, e métodos de análise de dados categóricos em geral. As notas no curso a seguir são muito boas para começar: Análise de dados discretos . O livro de Agresti é bastante bom. Você também pode considerar o Kleinbaum para um início rápido.
fonte
dist ~ occ | isLand
usar Lattice, ou ver acoplot()
função novcd
pacote - isso é para fins exploratórios; a questão 2 exige um modelo de previsão; dependendo da variável que você considera como resultado, pode ser uma regressão logística (por exemplo, se Y = isLand), uma regressão linear (por exemplo, se Y = distância) ou diretamente um modelo log-linear, desde que você categorize sua medição contínua; a questão 3 é claramente um modelo log-linear, conforme sugerido por @ars.Para examinar a relação entre um fator contínuo e categórico, um bom começo é usar gráficos de caixas lado a lado, contínuos à esquerda e categóricos na parte inferior. Os meios são diferentes? Use ANOVA para verificar.
Para examinar a relação entre fatores categóricos, um bom começo é usar um gráfico de mosaico, bem como uma tabela de contingência. Você pode agrupar primeiro e depois fazer plotagens separadas.
Para prever os ocupantes, a regressão logística ordinal é provavelmente o melhor caminho a percorrer.
Para prever isLand, a regressão logística (binomial) deve fazer o truque.
Para prever a distância, a regressão OLS funcionará.
fonte