Perguntas com a marcação «unsupervised-learning»

15

A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Como escolher um número ideal de fatores latentes na fatoração matricial não negativa?

Dada uma matriz , a fatoração de matriz não negativa (NMF) encontra duas matrizes não negativas e ( ou seja, com todos os elementos ) para representar a matriz decomposta como:W m × k H k × n ≥0Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge...

cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

15

O que é uma Rede Neural Artificial?

À medida que nos aprofundamos na literatura das Redes Neurais , conseguimos identificar outros métodos com topologias neuromórficas (arquiteturas semelhantes à "Rede Neural"). E não estou falando do Teorema da Aproximação Universal . Exemplos são dados abaixo. Então, isso me faz pensar: qual é a...

machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

14

Como medir a forma do cluster?

Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D,...

unsupervised-learning clustering

13

Escolhendo os hiperparâmetros usando T-SNE para classificação

No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta. Eu e outros participantes aplicamos a geração de recursos por um tempo...

machine-learning dimensionality-reduction unsupervised-learning tsne

13

Inicializando centros K-means por meio de subamostras aleatórias do conjunto de dados?

Se eu tiver um determinado conjunto de dados, quão inteligente seria inicializar os centros de cluster usando meios de amostras aleatórias desse conjunto de dados? Por exemplo, suponha que eu queira 5 clusters. Tomo 5 random samples, digamos, size=20%o conjunto de dados original. Eu poderia então...

clustering k-means unsupervised-learning

12

Você pode comparar diferentes métodos de armazenamento em cluster em um conjunto de dados sem uma verdade básica por validação cruzada?

Atualmente, estou tentando analisar um conjunto de dados de documento de texto que não tem nenhuma verdade. Disseram-me que você pode usar a validação cruzada k-fold para comparar diferentes métodos de armazenamento em cluster. No entanto, os exemplos que eu vi no passado usam uma verdade básica....

machine-learning clustering cross-validation unsupervised-learning

12

Existe alguma diferença entre supervisão distante, auto-treinamento, aprendizado auto-supervisionado e supervisão fraca?

Pelo que li: Supervisão distante : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this...

machine-learning terminology unsupervised-learning semi-supervised

12

Aplicando o aprendizado de máquina à filtragem DDoS

No curso de aprendizado de máquina de Stanford, Andrew Ng mencionou a aplicação de ML em TI. Algum tempo depois, quando obtive DDoS de tamanho moderado (cerca de 20k bots) em nosso site, decidi lutar contra ele usando um classificador simples da Rede Neural. Eu escrevi esse script python em cerca...

classification neural-networks unsupervised-learning

11

Como entender uma rede de crenças convolucionais profundas para classificação de áudio?

Em " Redes de crenças profundas convolucionais para o aprendizado não supervisionado e escalável de representações hierárquicas ", de Lee et. al. ( PDF ) São propostos DBNs convolucionais. O método também é avaliado para a classificação de imagens. Isso parece lógico, pois existem recursos naturais...

classification unsupervised-learning intuition deep-belief-networks

11

Cluster SOM para variáveis nominais / circulares

Basta saber se alguém está familiarizado com o agrupamento de entradas nominais. Eu estive olhando o SOM como uma solução, mas aparentemente ele só funciona com recursos numéricos. Existem extensões para recursos categóricos? Especificamente, eu estava pensando em "Dias da semana" como possíveis...

clustering unsupervised-learning self-organizing-maps

10

Precisamos definir o conjunto de treinamento e o conjunto de testes para clustering?

Quando fazemos classificação e regressão, geralmente definimos conjuntos de teste e treinamento para nos ajudar a construir e aprimorar modelos. No entanto, quando fazemos cluster, também precisamos definir conjuntos de teste e treinamento? Por

machine-learning clustering unsupervised-learning

10

Número ideal de componentes em uma mistura gaussiana

Portanto, obter uma "idéia" do número ideal de clusters em k-means está bem documentado. Encontrei um artigo sobre como fazer isso em misturas gaussianas, mas não tenho certeza se estou convencido disso, não o entendo muito bem. Existe uma maneira ... mais gentil de fazer

classification k-means mixture unsupervised-learning

10

SN-t com variáveis binárias contínuas e binárias

Atualmente, estou investigando a visualização de dados de alta dimensão usando t-SNE. Eu tenho alguns dados com variáveis binárias e contínuas mistas e os dados parecem agrupar os dados binários com muita facilidade. Obviamente, isso é esperado para dados em escala (entre 0 e 1): a distância...

python dimensionality-reduction unsupervised-learning tsne mixed-type-data

10

Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?

Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

9

Como preparar / construir recursos para detecção de anomalias (dados de segurança da rede)

Meu objetivo é analisar os logs de rede (por exemplo, Apache, syslog, auditoria de segurança do Active Directory e assim por diante) usando a detecção de cluster / anomalia para fins de detecção de intrusão. Nos logs, tenho muitos campos de texto como endereço IP, nome de usuário, nome do host,...

feature-selection outliers unsupervised-learning feature-construction

9

Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1...

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

9

Não é possível fazer com que esta rede de autoencoder funcione corretamente (com camadas convolutional e maxpool)

As redes de codificadores automáticos parecem ser muito mais complicadas do que as redes MLP classificadoras normais. Depois de várias tentativas usando Lasagne, tudo o que recebo na saída reconstruída é algo que se assemelha, na melhor das hipóteses, a uma média borrada de todas as imagens do...

machine-learning neural-networks dimensionality-reduction unsupervised-learning autoencoders

9

Seleção de recursos para problemas de cluster

Estou tentando agrupar conjuntos de dados diferentes usando algoritmos não supervisionados (clustering). O problema é que tenho muitos recursos (~ 500) e uma pequena quantidade de casos (200-300). Até agora, costumava fazer apenas problemas de classificação para os quais sempre rotulava dados como...

r clustering feature-selection unsupervised-learning

9

Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas

Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última...

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty