Perguntas com a marcação «scikit-learn»

16

Qual é o motivo por trás da transformação de log de poucas variáveis contínuas?

Estou com um problema de classificação e li o código e os tutoriais de muitas pessoas. Uma coisa que eu notei é que muitas pessoas tomam np.logou logde variável contínua como loan_amountou applicant_incomeetc. Eu só quero entender a razão por trás disso. Isso ajuda a melhorar a precisão da...

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

Onde no fluxo de trabalho devemos lidar com dados ausentes?

Estou construindo um fluxo de trabalho para criar modelos de aprendizado de máquina (no meu caso, usando Python pandase sklearnpacotes) a partir de dados extraídos de um banco de dados muito grande (aqui, Vertica por meio de SQL e pyodbc), e uma etapa crítica nesse processo envolve a imputação de...

machine-learning python pandas scikit-learn

15

Método de pontuação RandomForestClassifier OOB

A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados...

random-forest scikit-learn

15

Previsão de similaridade de sentença

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened a new mailbox" Previsão...

python nlp scikit-learn similarity text

15

Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp",...

python scikit-learn

15

Como posso verificar a correlação entre os recursos e a variável de destino?

Estou tentando criar um Regressionmodelo e estou procurando uma maneira de verificar se há alguma correlação entre recursos e variáveis de destino? Esta é a minha amostra dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849...

machine-learning scikit-learn regression linear-regression

14

Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost

scikit-learn pandas xgboost

12

Qual é a diferença entre cross_validate e cross_val_score?

Entendo cross_validate e como ele funciona, mas agora estou confuso sobre o que cross_val_score realmente faz. Alguém pode me dar um

machine-learning scikit-learn

12

Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável...

scikit-learn feature-selection random-forest xgboost categorical-data

12

Colunas categóricas de conversão em massa no Pandas (não codificação one-hot)

Eu tenho um dataframe de pandas com toneladas de colunas categóricas, que planejo usar na árvore de decisão com o scikit-learn. Eu preciso convertê-los em valores numéricos (não um vetores quentes). Eu posso fazer isso com o LabelEncoder do scikit-learn. O problema é que existem muitos deles e não...

scikit-learn pandas categorical-data labels

12

Quando usar o Standard Scaler e quando o Normalizer?

Entendo o que o Standard Scalar faz e o que o Normalizer faz, de acordo com a documentação do scikit: Normalizer , Standard Scaler . Eu sei quando o Scaler padrão é aplicado. Mas em que cenário o Normalizer é aplicado? Existem cenários em que um é preferido em relação ao...

python scikit-learn data-cleaning normalization

12

O scikit-learn usa regularização por padrão?

Acabei de ajustar uma curva logística a alguns dados falsos. Fiz os dados essencialmente uma função de etapa. data = -------------++++++++++++++ Mas quando olho para a curva ajustada, a inclinação é muito pequena. A função que melhor minimiza a função de custo, assumindo entropia cruzada, é a...

logistic-regression scikit-learn

12

Seleção de recursos usando importâncias de recursos em florestas aleatórias com o scikit-learn

Eu plotei as importâncias do recurso em florestas aleatórias com o scikit-learn . Para melhorar a previsão usando florestas aleatórias, como posso usar as informações da plotagem para remover recursos? Ou seja, como descobrir se um recurso é inútil ou pior ainda, o desempenho das florestas...

feature-selection random-forest scikit-learn

12

Redução eficiente da dimensionalidade para grandes conjuntos de dados

Eu tenho um conjunto de dados com ~ 1M linhas e ~ 500K recursos esparsos. Quero reduzir a dimensionalidade para algum lugar da ordem dos recursos densos de 1 a 5 mil. sklearn.decomposition.PCAnão funciona com dados esparsos e tentei usar, sklearn.decomposition.TruncatedSVDmas obtive um erro de...

python scikit-learn dimensionality-reduction

11

Existem bons modelos de linguagem prontos para uso em python?

Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

11

Como usar a Propagação de etiquetas Scikit-Learn em dados estruturados em gráficos?

Como parte da minha pesquisa, estou interessado em realizar a propagação de rótulos em um gráfico. Estou especialmente interessado nesses dois métodos: Xiaojin Zhu e Zoubin Ghahramani. Aprendendo com dados rotulados e não rotulados com propagação de rótulo. Relatório Técnico CMU-CALD-02-107,...

scikit-learn graphs

11

Parâmetro scikit-learn n_jobs sobre uso e memória da CPU

Na maioria dos estimadores no scikit-learn, há um n_jobsparâmetro em fit/ predictmethods para criar trabalhos paralelos usando joblib. Notei que configurá-lo para -1criar apenas 1 processo Python e maximizar os núcleos, fazendo com que o uso da CPU atinja 2500% no topo. Isso é bem diferente de...

python scikit-learn

11

Qual é a diferença entre um vetorizador de hash e um vetorizador de tfidf

Estou convertendo um corpus de documentos de texto em vetores de palavras para cada documento. Eu tentei isso usando um TfidfVectorizer e um HashingVectorizer Entendo que um HashingVectorizernão leva em consideração as IDFpontuações como um TfidfVectorizerfaz. A razão pela qual ainda estou...

nlp scikit-learn text-mining tfidf