Perguntas com a marcação «linear-model»

8
Por que usar bayesglm?

Minha pergunta geral é: por que usar em bayesglmvez de outros métodos de classificação? Nota: Estou interessado apenas em previsão. Eu tenho uma quantidade decente de dados (~ 100.000 obs). Sinto que o tamanho da amostra é grande o suficiente para que os parâmetros de uma regressão logística...

8
Procurando o 'cotovelo' nos dados

Subitização é a enumeração rápida e precisa de telas de baixa numerosidade, diferenciada da contagem por uma não linearidade acentuada no gráfico dos tempos de resposta. Abaixo está um gráfico representativo, de Watson, DG, Maylor, EA e Bruce, LAM (2007). Observe que o tempo médio de enumeração...

8
Regressão monotônica robusta em R

Eu tenho a seguinte tabela em R df <- structure(list(x = structure(c(12458, 12633, 12692, 12830, 13369, 13455, 13458, 13515), class = "Date"), y = c(6080, 6949, 7076, 7818, 0, 0, 10765, 11153)), .Names = c("x", "y"), row.names = c("1", "2", "3", "4", "5", "6", "8", "9"), class =...

8
Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...

8
Quais são algumas das razões pelas quais os mínimos quadrados com ponderação iterativa não convergiriam quando usados ​​para regressão logística?

Eu tenho usado a função glm.fit em R para ajustar parâmetros a um modelo de regressão logística. Por padrão, o glm.fit usa mínimos quadrados ponderados iterativamente para ajustar os parâmetros. Quais são algumas das razões pelas quais esse algoritmo falharia ao convergir quando usado para...

8
Encontre distribuição e transforme em distribuição normal

Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732,...