Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-
Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-
Em que ponto começamos a classificar as redes neurais multicamadas como redes neurais profundas ou, de outra forma, 'Qual é o número mínimo de camadas em uma rede neural
A Descida de gradiente padrão calcularia o gradiente para todo o conjunto de dados de treinamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para um número predefinido de épocas, primeiro calculamos o...
Eu estava lendo sobre o otimizador de Adam para o Deep Learning e me deparei com a seguinte frase no novo livro Deep Learning de Begnio, Goodfellow e Courtville: Adam inclui correções de viés nas estimativas dos momentos de primeira ordem (o termo momentum) e dos momentos de segunda ordem (sem...
Existem vídeos ou outros livros / notas que alguém já encontrou que seguem o reconhecimento de padrões e o aprendizado de máquina de Chris Bishop? Comprei este livro para aprender Machine Learning e estou tendo alguns problemas para
No reconhecimento de padrões de livros e aprendizado de máquina (fórmula 1.27), fornece py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | ondex=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x)é o pdf que corresponde...
Estou tentando entender a curva de recall de precisão, entendo o que são precisão e recall, mas o que não entendo é o valor da "linha de base". Eu estava lendo este link https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ e eu não entendo a parte da linha de...
Estou trabalhando em um problema de cluster de texto. Os dados contêm várias frases. Existe um bom algoritmo que alcance alta precisão em textos curtos? Você pode fornecer boas referências? Algoritmos como KMeans, clustering espectral não funcionam bem para esse problema....
Existem muitas publicações que enfatizam o método de Maximização de Expectativas em modelos de mistura (Mistura de Gaussiana, Modelo de Markov Oculto, etc.). Por que EM é importante? O EM é apenas uma maneira de otimizar e não é amplamente usado como método baseado em gradiente (gradiente decente...
Questões Depende se a árvore é rasa ou profunda? Ou podemos dizer isso independentemente da profundidade / níveis da árvore? Por que o viés é baixo e a variância é alta? Por favor, explique intuitivamente e
Eu tenho um modelo de previsão testado com quatro métodos, como você pode ver na figura do boxplot abaixo. O atributo que o modelo prevê está no intervalo de 0 a 8. Você pode perceber que há um limite superior externo e três limites inferiores indicados por todos os métodos. Gostaria de saber se é...
Eu tenho dois conjuntos de dados (dados de origem e destino) que seguem a distribuição diferente. Estou usando o MMD - que é uma distribuição de distância não paramétrica - para calcular a distribuição marginal entre os dados de origem e de destino. dados de origem, Xs dados de destino,...
http://www.deeplearningbook.org/contents/ml.html página 116 explica o erro de bayes como abaixo O modelo ideal é um oráculo que simplesmente conhece a verdadeira distribuição de probabilidade que gera os dados. Mesmo esse modelo ainda apresentará algum erro em muitos problemas, porque ainda pode...
Praticamente qualquer banco de dados que desejamos fazer previsões usando algoritmos de aprendizado de máquina encontrará valores ausentes para algumas das características. Existem várias abordagens para resolver esse problema, para excluir linhas que possuem valores ausentes até que sejam...
Entendo o raciocínio por trás da divisão dos dados em um conjunto de teste e um conjunto de validação. Também entendo que o tamanho da divisão dependerá da situação, mas geralmente variará de 50/50 a 90/10. Eu construí um RNN para corrigir a ortografia e começar com um conjunto de dados de frases...
Estou estudando este tutorial sobre auto-codificadores variacionais de Carl Doersch . Na segunda página, afirma: Um dos frameworks mais populares é o Autoencoder Variacional [1, 3], o assunto deste tutorial. As suposições deste modelo são fracas e o treinamento é rápido via retropropagação. Os...
Estou procurando fazer um projeto de reconhecimento óptico de caracteres (OCR). Depois de fazer algumas pesquisas, encontrei uma arquitetura que parece interessante: CNN + RNN + CTC. Eu estou familiarizado com redes neurais complicadas (CNN) e redes neurais recorrentes (RNN), mas o que é...
Suponhamos que temos duas árvores de regressão (árvore A e B) que árvore mapa de entrada a saída y ∈ R . Vamos y = f A ( x ) para a árvore A e F B ( x ) para a árvore B. Cada árvore utiliza separações binárias, com hiperplanos como as funções de separação.x ∈ Rdx∈Rdx \in \mathbb{R}^dy^∈...
Não encontrei uma resposta satisfatória para isso no google . Obviamente, se os dados que tenho são da ordem de milhões, então o aprendizado profundo é o caminho. E li que, quando não tenho big data, talvez seja melhor usar outros métodos no aprendizado de máquina. A razão apresentada é...
À medida que nos aprofundamos na literatura das Redes Neurais , conseguimos identificar outros métodos com topologias neuromórficas (arquiteturas semelhantes à "Rede Neural"). E não estou falando do Teorema da Aproximação Universal . Exemplos são dados abaixo. Então, isso me faz pensar: qual é a...