Perguntas com a marcação «scikit-learn»

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

15
Método de pontuação RandomForestClassifier OOB

A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados...

15
Previsão de similaridade de sentença

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened a new mailbox" Previsão...

15
Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp",...

14
Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost

12
Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...

12
Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável...

12
O scikit-learn usa regularização por padrão?

Acabei de ajustar uma curva logística a alguns dados falsos. Fiz os dados essencialmente uma função de etapa. data = -------------++++++++++++++ Mas quando olho para a curva ajustada, a inclinação é muito pequena. A função que melhor minimiza a função de custo, assumindo entropia cruzada, é a...

11
Existem bons modelos de linguagem prontos para uso em python?

Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well...

11
Parâmetro scikit-learn n_jobs sobre uso e memória da CPU

Na maioria dos estimadores no scikit-learn, há um n_jobsparâmetro em fit/ predictmethods para criar trabalhos paralelos usando joblib. Notei que configurá-lo para -1criar apenas 1 processo Python e maximizar os núcleos, fazendo com que o uso da CPU atinja 2500% no topo. Isso é bem diferente de...