Qual é a diferença entre o modelo Logit e Probit ? Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit. Se houver alguma literatura que o defina usando R , isso também seria
Refere-se a qualquer modelo em que uma variável aleatória esteja relacionada a uma ou mais variáveis aleatórias por uma função que seja linear em um número finito de parâmetros.
Qual é a diferença entre o modelo Logit e Probit ? Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit. Se houver alguma literatura que o defina usando R , isso também seria
Qual é a diferença entre regressão linear e regressão logística? Quando você usaria cada
Estou executando modelos de regressão linear e me perguntando quais são as condições para remover o termo de interceptação. Ao comparar os resultados de duas regressões diferentes, em que uma tem a interceptação e a outra não, percebo que o da função sem a interceptação é muito maior. Existem...
Em um modelo linear simples com uma única variável explicativa, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Acho que remover o termo de interceptação melhora muito o ajuste (o valor de varia de 0,3 a 0,9). No entanto, o termo de interceptação parece ser...
O coeficiente de correlação de Pearson de x e y é o mesmo, calculando pearson (x, y) ou pearson (y, x). Isso sugere que fazer uma regressão linear de y dado x ou x dado y deve ser o mesmo, mas não acho que seja esse o caso. Alguém pode esclarecer quando o relacionamento não é simétrico e como isso...
Em geral, o que se quer dizer com dizer que a fração da variação em uma análise como PCA é explicada pelo primeiro componente principal? Alguém pode explicar isso intuitivamente, mas também fornecer uma definição matemática precisa do que "variação explicada" significa em termos de análise de...
Quais gráficos de diagnóstico (e talvez testes formais) você considera mais informativos para regressões em que o resultado é uma variável de contagem? Estou especialmente interessado em Poisson e nos modelos binomiais negativos, bem como nos modelos com inflado zero e obstáculos de cada um. A...
A distribuição gama pode assumir uma ampla variedade de formas e, dado o vínculo entre a média e a variação através de seus dois parâmetros, parece adequado para lidar com a heterocedasticidade em dados não negativos, de uma maneira que o OLS transformado em log pode sem o WLS ou algum tipo de...
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...
Eu tenho um conjunto de dados com cerca de 30 variáveis independentes e gostaria de construir um modelo linear generalizado (GLM) para explorar o relacionamento entre elas e a variável dependente. Estou ciente de que o método que me foi ensinado para essa situação, a regressão gradual, agora é...
Percebi que o intervalo de confiança para os valores previstos em uma regressão linear tende a ser estreito em torno da média do preditor e a gordura em torno dos valores mínimo e máximo do preditor. Isso pode ser visto nas parcelas dessas 4 regressões lineares: Inicialmente, pensei que isso...
Qual é a diferença entre os termos 'função de link' e 'função de link canônico'? Além disso, existem vantagens (teóricas) em usar uma sobre a outra? Por exemplo, uma variável de resposta binária pode ser modelada usando muitas funções de link, como logit , probit , etc. Mas, logit aqui é...
Como interpretar os principais efeitos (coeficientes do fator codificado por dummy) em uma regressão de Poisson? Suponha o seguinte exemplo: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29,...
Ao responder a essa pergunta, John Christie sugeriu que o ajuste dos modelos de regressão logística fosse avaliado pela avaliação dos resíduos. Eu estou familiarizado com a interpretação de resíduos no OLS, eles estão na mesma escala que o DV e muito claramente a diferença entre y e y previstos...
Em geral, é recomendável obter a raiz quadrada quando você tiver dados de contagem. (Para alguns exemplos no CV, consulte a resposta de @ HarveyMotulsky aqui ou a resposta de @ whuber aqui .) Por outro lado, ao ajustar um modelo linear generalizado com uma variável de resposta distribuída como...
Existem vários tópicos neste site para recomendações de livros sobre estatísticas introdutórias e aprendizado de máquina, mas estou procurando um texto sobre estatísticas avançadas, incluindo, em ordem de prioridade: probabilidade máxima, modelos lineares generalizados, análise de componentes...
Estou tentando entender a filosofia por trás do uso de um modelo linear generalizado (GLM) vs um modelo linear (LM). Criei um exemplo de conjunto de dados abaixo em que: registro( y) = x + εregistro(y)=x+ε\log(y) = x + \varepsilon O exemplo não possui o erro em função da magnitude de y ,...
Digamos que eu tenho um objeto de classe glm(correspondente a um modelo de regressão logística) e gostaria de transformar as probabilidades previstas fornecidas predict.glmusando o argumento type="response"em respostas binárias, ou seja, ou Y = 0 . Qual é a maneira mais rápida e canônica de fazer...
Estou lidando com dados lineares com valores discrepantes, alguns dos quais estão a mais de 5 desvios-padrão da linha de regressão estimada. Estou procurando uma técnica de regressão linear que reduz a influência desses pontos. Até agora, o que fiz foi estimar a linha de regressão com todos os...
Como são todas as versões do mesmo método estatístico