Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-
Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-
Dada uma matriz , a fatoração de matriz não negativa (NMF) encontra duas matrizes não negativas e ( ou seja, com todos os elementos ) para representar a matriz decomposta como:W m × k H k × n ≥0Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge...
À medida que nos aprofundamos na literatura das Redes Neurais , conseguimos identificar outros métodos com topologias neuromórficas (arquiteturas semelhantes à "Rede Neural"). E não estou falando do Teorema da Aproximação Universal . Exemplos são dados abaixo. Então, isso me faz pensar: qual é a...
Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D,...
No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta. Eu e outros participantes aplicamos a geração de recursos por um tempo...
Se eu tiver um determinado conjunto de dados, quão inteligente seria inicializar os centros de cluster usando meios de amostras aleatórias desse conjunto de dados? Por exemplo, suponha que eu queira 5 clusters. Tomo 5 random samples, digamos, size=20%o conjunto de dados original. Eu poderia então...
Atualmente, estou tentando analisar um conjunto de dados de documento de texto que não tem nenhuma verdade. Disseram-me que você pode usar a validação cruzada k-fold para comparar diferentes métodos de armazenamento em cluster. No entanto, os exemplos que eu vi no passado usam uma verdade básica....
Pelo que li: Supervisão distante : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them and this...
No curso de aprendizado de máquina de Stanford, Andrew Ng mencionou a aplicação de ML em TI. Algum tempo depois, quando obtive DDoS de tamanho moderado (cerca de 20k bots) em nosso site, decidi lutar contra ele usando um classificador simples da Rede Neural. Eu escrevi esse script python em cerca...
Em " Redes de crenças profundas convolucionais para o aprendizado não supervisionado e escalável de representações hierárquicas ", de Lee et. al. ( PDF ) São propostos DBNs convolucionais. O método também é avaliado para a classificação de imagens. Isso parece lógico, pois existem recursos naturais...
Basta saber se alguém está familiarizado com o agrupamento de entradas nominais. Eu estive olhando o SOM como uma solução, mas aparentemente ele só funciona com recursos numéricos. Existem extensões para recursos categóricos? Especificamente, eu estava pensando em "Dias da semana" como possíveis...
Quando fazemos classificação e regressão, geralmente definimos conjuntos de teste e treinamento para nos ajudar a construir e aprimorar modelos. No entanto, quando fazemos cluster, também precisamos definir conjuntos de teste e treinamento? Por
Portanto, obter uma "idéia" do número ideal de clusters em k-means está bem documentado. Encontrei um artigo sobre como fazer isso em misturas gaussianas, mas não tenho certeza se estou convencido disso, não o entendo muito bem. Existe uma maneira ... mais gentil de fazer
Atualmente, estou investigando a visualização de dados de alta dimensão usando t-SNE. Eu tenho alguns dados com variáveis binárias e contínuas mistas e os dados parecem agrupar os dados binários com muita facilidade. Obviamente, isso é esperado para dados em escala (entre 0 e 1): a distância...
Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois...
Meu objetivo é analisar os logs de rede (por exemplo, Apache, syslog, auditoria de segurança do Active Directory e assim por diante) usando a detecção de cluster / anomalia para fins de detecção de intrusão. Nos logs, tenho muitos campos de texto como endereço IP, nome de usuário, nome do host,...
Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1...
As redes de codificadores automáticos parecem ser muito mais complicadas do que as redes MLP classificadoras normais. Depois de várias tentativas usando Lasagne, tudo o que recebo na saída reconstruída é algo que se assemelha, na melhor das hipóteses, a uma média borrada de todas as imagens do...
Estou tentando agrupar conjuntos de dados diferentes usando algoritmos não supervisionados (clustering). O problema é que tenho muitos recursos (~ 500) e uma pequena quantidade de casos (200-300). Até agora, costumava fazer apenas problemas de classificação para os quais sempre rotulava dados como...
Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última...