Estou procurando uma distribuição melhor comportada para a variável independente em questão, ou para reduzir o efeito de outliers ou algo
Estratégias de modelagem de regressão
Estou procurando uma distribuição melhor comportada para a variável independente em questão, ou para reduzir o efeito de outliers ou algo
Eu estou querendo saber qual é o valor em pegar uma variável preditora contínua e dividi-la (por exemplo, em quintis), antes de usá-la em um modelo. Parece-me que, ao separar a variável, perdemos informações. É só assim que podemos modelar efeitos não lineares? Se mantivéssemos a variável...
Como a RF pode lidar com a não linearidade, mas não pode fornecer coeficientes, seria aconselhável usar a floresta aleatória para reunir os recursos mais importantes e depois conectá-los a um modelo de regressão linear múltipla para obter seus coeficientes?
É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão
Estou refletindo sobre a discussão em torno desta questão e, em particular, o comentário de Frank Harrell de que a estimativa de variação em um modelo reduzido (ou seja, do qual várias variáveis explicativas foram testadas e rejeitadas) deve usar os graus de liberdade generalizados de Ye . O...
Como todos sabemos, existem 2 métodos para avaliar o modelo de regressão logística e eles estão testando coisas muito diferentes Poder preditivo: Obtenha uma estatística que mede o quão bem você pode prever a variável dependente com base nas variáveis independentes. Os bem conhecidos Pseudo R...
Suponha que eu tenha treinado vários modelos no conjunto de treinamento, escolha o melhor usando o conjunto de validação cruzada e o desempenho medido no conjunto de teste. Então agora eu tenho um melhor modelo final. Devo treiná-lo novamente em todos os dados disponíveis ou enviar soluções...
Além de algumas circunstâncias únicas em que devemos absolutamente entender a relação média condicional, quais são as situações em que um pesquisador deve escolher o OLS em vez da regressão quantílica? Não quero que a resposta seja "se não houver utilidade para entender os relacionamentos da...
Dediquei muito tempo ao desenvolvimento de métodos e softwares para validar modelos preditivos no domínio estatístico freqüentista tradicional. Ao colocar mais idéias bayesianas em prática e ensinar, vejo algumas diferenças importantes a serem adotadas. Primeiro, a modelagem preditiva bayesiana...
Os métodos de seleção de variáveis algorítmicas passo a passo tendem a selecionar modelos que enviesam mais ou menos todas as estimativas em modelos de regressão ( ββ\beta s e seus SEs, valores de p , estatísticas F , etc.) e têm a probabilidade de excluir preditores verdadeiros como incluir...
Frank Harrell iniciou um blog ( Statistical Thinking) . Em seu post principal , ele lista algumas características principais de sua filosofia estatística. Entre outros itens, inclui: Torne o tamanho da amostra uma variável aleatória sempre que possível O que significa "tornar o tamanho...
Esta é a minha primeira postagem no StackExchange, mas eu a uso como um recurso há um bom tempo, farei o possível para usar o formato apropriado e fazer as edições apropriadas. Além disso, esta é uma pergunta com várias partes. Eu não tinha certeza se deveria dividir a pergunta em várias postagens...
Na análise discriminante, a variável dependente é categórica, mas posso usar uma variável categórica (por exemplo, status residencial: rural, urbano) juntamente com alguma outra variável contínua como variável independente na análise discriminante
Depois de procurar esclarecimentos sobre os coeficientes do modelo linear aqui , tenho uma pergunta de acompanhamento referente a não-significativo (alto valor de p) para coeficientes de níveis de fatores. Exemplo: se meu modelo linear incluir um fator com 10 níveis e apenas 3 desses níveis...
Usando estes dados: head(USArrests) nrow(USArrests) Eu posso fazer um PCA da seguinte maneira: plot(USArrests) otherPCA <- princomp(USArrests) Eu posso obter os novos componentes em otherPCA$scores ea proporção de variância explicada pelos componentes com summary(otherPCA) Mas e se eu...
Estou confuso com a suposição de linearidade ao logit para variáveis preditivas contínuas na análise de regressão logística. Precisamos verificar a relação linear ao rastrear possíveis preditores usando análise de regressão logística univariada? No meu caso, estou usando a análise de regressão...
A correspondência do escore de propensão é usada para fazer inferências causais em estudos observacionais (consulte o artigo de Rosenbaum / Rubin ). Qual é a intuição simples por trás de por que funciona? Em outras palavras, por que, se garantirmos que a probabilidade de participar do tratamento...
Suponha que temos covariáveis x 1 , … , x n e uma variável binária de resultado y . Algumas dessas covariáveis são categóricas com vários níveis. Outros são contínuos. Como você escolheria o "melhor" modelo? Em outras palavras, como você escolhe quais covariáveis incluir no...
Uma das suposições da regressão logística é a linearidade no logit. Então, uma vez que eu tenho meu modelo em funcionamento, testei a não-linearidade usando o teste Box-Tidwell. Um dos meus preditores contínuos (X) testou positivo para não-linearidade. O que devo fazer a seguir? Como isso é uma...
Atualmente, estou me ensinando a fazer a classificação e, especificamente, estou analisando três métodos: máquinas de vetores de suporte, redes neurais e regressão logística. O que estou tentando entender é por que a regressão logística teria um desempenho melhor do que os outros dois. Do meu...