Perguntas com a marcação «python»

13
Usando o BIC para estimar o número de k em KMEANS

No momento, estou tentando calcular o BIC para o meu conjunto de dados de brinquedos (ofc iris (:). Quero reproduzir os resultados conforme mostrado aqui (Fig. 5). Esse documento também é minha fonte para as fórmulas do BIC. Eu tenho 2 problemas com isso: Notação: ninin_i = número de elementos...

13
Ruby como bancada de estatística

Essa também é uma questão que se relaciona muito com o Python como bancada de estatística e o Excel como bancada de estatística . Eu sei que há uma enorme discussão sobre Ruby versus Python, mas este não é o ponto nesta questão. Eu pensei que Ruby ser mais rápido que Python e ter uma sintaxe muito...

12
Pacote GBM vs. Caret usando GBM

Estive usando o ajuste de modelo caret, mas depois executei novamente o modelo usando o gbmpacote. Entendo que o caretpacote usa gbme a saída deve ser a mesma. No entanto, apenas um teste rápido usando data(iris)mostra uma discrepância no modelo de cerca de 5% usando RMSE e R ^ 2 como métrica de...

12
É possível avaliar o GLM no Python / scikit-learn usando as distribuições Poisson, Gamma ou Tweedie como a família para a distribuição de erros?

Tentando aprender um pouco de Python e Sklearn, mas para o meu trabalho eu preciso executar regressões que usem distribuições de erro das famílias Poisson, Gamma e, especialmente, Tweedie. Não vejo nada na documentação sobre eles, mas eles estão em várias partes da distribuição R, então eu queria...

12
Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

12
Interpretação de saída Scikit predict_proba

Estou trabalhando com a biblioteca scikit-learn em python. No código abaixo, estou prevendo probabilidade, mas não sei ler a saída. Testando dados from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X =

12
Como usar um filtro Kalman?

Eu tenho uma trajetória de um objeto em um espaço 2D (uma superfície). A trajetória é dada como uma sequência de (x,y)coordenadas. Sei que minhas medições são barulhentas e às vezes tenho discrepâncias óbvias. Então, eu quero filtrar minhas observações. Tanto quanto eu entendi o filtro Kalman, ele...

12
Como executar o PCA para dados de dimensionalidade muito alta?

Para executar a análise de componentes principais (PCA), é necessário subtrair os dados de cada coluna, calcular a matriz do coeficiente de correlação e, em seguida, localizar os vetores próprios e os valores próprios. Bem, pelo contrário, foi o que fiz para implementá-lo no Python, exceto que...