Ainda sou muito novo em modelos lineares generalizados e luto com muita notação na maioria dos textos GLM que peguei. Existem livros GLM extremamente populares que se prestam melhor à
Ainda sou muito novo em modelos lineares generalizados e luto com muita notação na maioria dos textos GLM que peguei. Existem livros GLM extremamente populares que se prestam melhor à
Eu tenho um modelo linear clássico, com 5 possíveis regressores. Eles não estão correlacionados entre si e têm uma correlação bastante baixa com a resposta. Cheguei a um modelo em que três dos regressores têm coeficientes significativos para sua estatística t (p <0,05). A adição de uma ou das...
Eu sei que os Pearson Residuals padronizados são obtidos de uma maneira probabilística tradicional: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} Residuais de Deviance e Deviance são obtidos de uma maneira mais estatística (a contribuição de cada ponto...
Eu sempre tenho dificuldade em explicar técnicas estatísticas para o público sem formação estatística. Se eu quisesse explicar o que o GLM é para esse público (sem jogar fora o jargão estatístico), qual seria a maneira melhor ou mais eficaz? Eu normalmente explico o GLM com três partes - (1) o...
Considere o modelo linear simples: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon onde ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2) e X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} ,p≥2p≥2p\geq2 eXXX contém uma coluna de constantes. Meu questão é, dado...
Na prática, o uso de um teste T padrão para verificar a significância de um coeficiente de regressão linear é prática comum. A mecânica do cálculo faz sentido para mim. Por que a distribuição T pode ser usada para modelar a estatística de teste padrão usada no teste de hipótese de regressão...
Conforme explicado neste folheto do curso (página 1) , um modelo linear pode ser escrito no formato: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, onde yyy é a variável de resposta e xixix_{i} é o ithithi^{th} variável de motivos. Freqüentemente,...
Nos modelos lineares, precisamos verificar se existe um relacionamento entre as variáveis explicativas. Se eles se correlacionam demais, há colinearidade (ou seja, as variáveis se explicam parcialmente). Atualmente, estou apenas olhando para a correlação pareada entre cada uma das variáveis...
Atualmente, estou avaliando a multicolinearidade em meus conjuntos de dados. Quais valores limite de VIF e índice de condição abaixo / acima sugerem um problema? VIF: Ouvi dizer que VIF é um problema.≥10≥10\geq 10 Após remover duas variáveis problemáticas, o VIF é para cada variável. As...
Eu estaria interessado em encontrar maneiras em R para atualizar eficientemente um modelo linear quando uma observação ou um preditor é adicionado. O biglm possui um recurso de atualização ao adicionar observações, mas meus dados são pequenos o suficiente para residir na memória (embora eu tenha um...
Ao fazer um GLM e você obtém o erro "não definido por causa de singularidades" na saída anova, como combater esse erro? Alguns sugeriram que é devido à colinearidade entre covariáveis ou que um dos níveis não está presente no conjunto de dados (consulte: interpretando "não definido por causa de...
Estou interessado em alterar as hipóteses nulas usando glm()em R. Por exemplo: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) testa a hipótese de que p=0.5p=0.5p = 0.5 . E se eu quiser alterar o valor nulo para ppp = algum valor arbitrário glm()? Sei que isso também pode ser...
Digamos que eu tenha N observações, possivelmente vários fatores, e repito cada observação duas vezes (ou M vezes). Como uma regressão nesse novo conjunto de tamanho NM se compara a uma regressão apenas nas observações
Depois de procurar esclarecimentos sobre os coeficientes do modelo linear aqui , tenho uma pergunta de acompanhamento referente a não-significativo (alto valor de p) para coeficientes de níveis de fatores. Exemplo: se meu modelo linear incluir um fator com 10 níveis e apenas 3 desses níveis...
Uma distribuição Tweedie pode modelar dados assimétricos com uma massa de pontos em zero quando o parâmetro (expoente na relação média-variância) estiver entre 1 e 2.ppp Da mesma forma, um modelo inflado a zero (seja ele contínuo ou discreto) pode ter um grande número de zeros. Estou tendo...
Quais são os benefícios de especificar uma estrutura de covariância em um GLM (em vez de tratar todas as entradas fora da diagonal na matriz de covariância como zero)? Além de refletir o que se sabe dos dados, ele faz melhorar a qualidade do ajuste? melhorar a precisão preditiva em dados...
Sou engenheiro de software trabalhando em aprendizado de máquina. Pelo meu entendimento, regressão linear (como OLS) e classificação linear (como regressão logística e SVM) fazem uma previsão com base em um produto interno entre coeficientes treinados variáveis de recurso → x...
Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-
Então, eu tenho brincado com SVMs e me pergunto se isso é uma boa coisa a fazer: Eu tenho um conjunto de recursos contínuos (0 a 1) e um conjunto de recursos categóricos que converti em variáveis fictícias. Nesse caso em particular, codifico a data da medição em uma variável dummy: Existem 3...
Na regressão linear (perda ao quadrado), usando matriz, temos uma notação muito concisa para o objetivo minimizar ∥ A x - b ∥ 2minimizar __UMAx-b__2\text{minimize}~~ \|Ax-b\|^2 Onde é a matriz de dados, x são os coeficientes eb é a resposta.UMAUMAAxxxbbb Existe uma notação matricial...