Estou tentando determinar se probabilidades simples funcionarão para o meu problema ou se será melhor usar (e aprender sobre) métodos mais sofisticados, como regressão logística.
A variável de resposta nesse problema é uma resposta binária (0, 1). Eu tenho um número de variáveis preditoras que são todas categóricas e não ordenadas. Eu estou tentando determinar quais combinações das variáveis preditoras produzem a maior proporção de 1's. Preciso de regressão logística? Como seria uma vantagem apenas calcular proporções no meu conjunto de amostras para cada combinação dos preditores categóricos?
r
probability
logistic
Rachel
fonte
fonte
Respostas:
A regressão logística, até a imprecisão numérica, fornecerá exatamente os mesmos ajustes que as porcentagens tabuladas. Portanto, se suas variáveis independentes forem objetos de fator
factor1
etc. e os resultados dependentes (0 e 1) foremx
, você poderá obter os efeitos com uma expressão comoCompare isso com
Como exemplo, vamos gerar alguns dados aleatórios:
O resumo é obtido com
Sua saída inclui
Para referência futura, a estimativa para fatores nos níveis (1,2,0) na linha 6 da produção é 0,5.
A regressão logística renuncia a seus coeficientes da seguinte maneira:
Para usá-los, precisamos da função logística:
Para obter, por exemplo, a estimativa de fatores nos níveis (1,2,0), calcule
(Observe como todas as interações devem ser incluídas no modelo e todos os coeficientes associados devem ser aplicados para obter uma estimativa correta.)
concordando com os resultados de
aggregate
. (O cabeçalho "(Intercepto)" na saída é um vestígio da entrada e efetivamente sem sentido para esse cálculo.)A mesma informação em outra forma aparece na saída de
table
. Por exemplo, a (longa) saída deinclui este painel:
factor1
x
aggregate
glm
Finalmente, uma combinação de fatores que produz a maior proporção no conjunto de dados é convenientemente obtida a partir da saída de
aggregate
:fonte
Para uma rápida olhada na proporção de respostas binárias em cada categoria e / ou condicional em várias categorias, gráficos gráficos podem ser úteis. Em particular, para visualizar simultaneamente proporções condicionadas a muitas variáveis independentes categóricas, sugiro gráficos em mosaico .
Abaixo está um exemplo de uma postagem de blog, Noções básicas sobre gráficos baseados em área: gráficos em mosaico dos gráficos estatísticos e mais no blog. Este exemplo visualiza a proporção de sobreviventes no Titanic em azul, condicional à classe do passageiro. Pode-se avaliar simultaneamente a proporção de sobreviventes, enquanto ainda aprecia o número total de passageiros em cada um dos subgrupos (informações úteis com certeza, especialmente quando determinados subgrupos são em número escasso e esperamos uma variação mais aleatória).
(fonte: theusrus.de )
Pode-se, então, condicionar as plotagens subsequentes de mosaico a múltiplas variáveis independentes categóricas. O próximo exemplo da mesma postagem de blog em um rápido resumo visual demonstra que todas as crianças passageiros na primeira e segunda classes sobreviveram, enquanto na terceira classe as crianças não se saíram tão bem. Também mostra claramente que as mulheres adultas tiveram uma taxa de sobrevivência muito maior em comparação aos homens em cada classe, embora a proporção de mulheres sobreviventes entre as classes tenha diminuído consideravelmente da primeira para a segunda para a terceira classe (e depois foi relativamente alta novamente para a equipe, embora note novamente que não existem muitas tripulantes, dado o quão estreito o bar é).
(fonte: theusrus.de )
É impressionante a quantidade de informação exibida, proporções em quatro dimensões (Classe, Adulto / Criança, Sexo e Proporção de Sobreviventes)!
Concordo que se você estiver interessado em previsão ou em mais explicações causais em geral, desejará recorrer a uma modelagem mais formal. As plotagens gráficas podem ser pistas visuais muito rápidas quanto à natureza dos dados e podem fornecer outros insights frequentemente perdidos ao simplesmente estimar modelos de regressão (especialmente ao considerar as interações entre as diferentes variáveis categóricas).
fonte
Nb
significa? Eu sempre digo melhor com números também!Dependendo de suas necessidades, você pode achar que o particionamento recursivo fornece um método fácil de interpretar para prever uma variável de resultado. Para uma introdução do R a esses métodos, consulte a página do modelo baseado em árvore do Quick-R . Geralmente, sou a favor da
ctree()
implementação no pacote `R ', pois não é necessário se preocupar com a remoção e, por padrão, produz gráficos bonitos.Isso se enquadra na categoria de algoritmos de seleção de recurso sugerida em uma resposta anterior e geralmente fornece previsões tão boas, se não melhores, quanto a regressão logística.
fonte
Se você tiver menos dados, deseja aprender menos parâmetros. Você pode reduzir o número de parâmetros assumindo, por exemplo, que configurações de preditores individuais tenham efeitos consistentes na variável de resposta.
Se você acredita que seus preditores são independentes um do outro, a regressão logística é o algoritmo único que faz a coisa certa. (Mesmo que não sejam independentes, ainda pode funcionar bastante bem.)
Em resumo, a regressão logística assume uma influência independente dos preditores, o que reduz o número de parâmetros do modelo e produz um modelo fácil de aprender.
fonte
Você deve olhar para os algoritmos de seleção de recursos. Um que seja adequado ao seu caso (classificação binária, variáveis categóricas) é o método "mínimo de redundância máxima de relevância" (mRMR). Você pode experimentá-lo on-line rapidamente em http://penglab.janelia.org/proj/mRMR/
fonte
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Eu trabalho no campo da pontuação de crédito, onde o que aqui está sendo apresentado como um caso estranho é a norma.
Utilizamos regressão logística e convertemos variáveis categóricas e contínuas em pesos de evidência (WOEs), que são então utilizados como preditores na regressão. É gasto muito tempo agrupando as variáveis categóricas e discretizando (classificando / classificando) as variáveis contínuas.
O peso da evidência é um cálculo simples. É o log das probabilidades para a classe, menos o log das probabilidades para a população:
WOE = ln (Bom (classe) / Ruim (classe)) - ln (Bom (ALL) / Ruim (ALL)) metodologia de transformação padrão para quase todos os modelos de pontuação de crédito criados usando regressão logística. Você pode usar os mesmos números em uma abordagem por partes.
A beleza disso é que você sempre saberá se os coeficientes atribuídos a cada WOE fazem sentido. Coeficientes negativos são contrários aos padrões contidos nos dados e geralmente resultam de multicolinearidade; e coeficientes acima de 1,0 indicam supercompensação. A maioria dos coeficientes sairá entre zero e um.
fonte