Perguntas com a marcação «scikit-learn»

12
Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

11
R / mgcv: Por que os produtos tensores te () e ti () produzem superfícies diferentes?

O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1,...

11
Análise e regressão de componentes principais em Python

Estou tentando descobrir como reproduzir em Python algum trabalho que fiz no SAS. Usando esse conjunto de dados , onde a multicolinearidade é um problema, eu gostaria de executar a análise de componentes principais em Python. Analisei o scikit-learn e o statsmodels, mas não sei como obter sua saída...

10
Qual é a diferença entre função de decisão, previsão deproba e função de previsão para o problema de regressão logística?

Venho examinando a documentação do sklearn, mas não consigo entender o objetivo dessas funções no contexto da regressão logística. Pois decision_functiondiz que é a distância entre o hiperplano e a instância de teste. como essas informações específicas são úteis? e como isso se relaciona com...

10
Como incorporar um outlier inovador na observação 48 no meu modelo ARIMA?

Estou trabalhando em um conjunto de dados. Depois de usar algumas técnicas de identificação de modelos, criei um modelo ARIMA (0,2,1). Usei a detectIOfunção no pacote TSAem R para detectar um outlier inovador (IO) na 48ª observação do meu conjunto de dados original. Como faço para incorporar esse...

10
Modelo de Histórico de Eventos em Tempo Discreto (Sobrevivência) em R

Estou tentando ajustar um modelo de tempo discreto no R, mas não sei como fazê-lo. Eu li que você pode organizar a variável dependente em linhas diferentes, uma para cada observação no tempo, e usar a glmfunção com um link logit ou cloglog. Neste sentido, tem três colunas: ID, Event(1 ou 0, em...