Como posso provar que o produto pontual de duas funções do kernel é uma função do
Como posso provar que o produto pontual de duas funções do kernel é uma função do
Eu sei como executar uma regressão linear em um conjunto de pontos. Ou seja, eu sei como ajustar um polinômio de minha escolha a um determinado conjunto de dados (no sentido LSE). No entanto, o que não sei é como forçar minha solução a passar por alguns pontos específicos de minha escolha. Já vi...
Estou fazendo regressão usando florestas aleatórias para prever preços com base em vários atributos. O código é escrito em Python usando o Scikit-learn. Como você decide se deve transformar suas variáveis usando exp/ logantes de usá-las para se ajustar ao modelo de regressão? É necessário ao...
Existe uma maneira de executar a regressão gaussiana de processo na saída multidimensional (possivelmente correlacionada) usando GPML ? No script de demonstração, só consegui encontrar um exemplo 1D. Uma pergunta semelhante no CV que trata de casos de entrada multidimensional. Examinei o livro...
Não tenho formação em matemática, mas entendo como o Perceptron simples funciona e acho que entendo o conceito de um hiperplano (imagino-o geometricamente como um plano no espaço 3D que separa duas nuvens de pontos, assim como uma linha separa nuvens de dois pontos no espaço 2D). Mas não entendo...
Existe alguma literatura que examine a escolha do tamanho de minibatch ao realizar a descida do gradiente estocástico? Na minha experiência, parece ser uma escolha empírica, geralmente encontrada por meio de validação cruzada ou usando regras práticas variadas. É uma boa ideia aumentar lentamente...
Entendo que o princípio básico por trás do algoritmo para LLE consiste em três etapas. Localizando a vizinhança de cada ponto de dados por alguma métrica como k-nn. Encontre pesos para cada vizinho que denotem o efeito que o vizinho tem no ponto de dados. Construa a incorporação de baixa dimensão...
Recentemente, aprendi sobre o uso do truque Kernel, que mapeia dados em espaços dimensionais mais altos, na tentativa de linearizar os dados nessas dimensões. Existem casos em que devo evitar o uso dessa técnica? É apenas uma questão de encontrar a função correta do kernel? Para dados lineares, é...
Eu sou bastante novo em aprendizado de máquina, técnicas CART e similares, e espero que minha ingenuidade não seja muito óbvia. Como a Random Forest lida com estruturas de dados hierárquicas / multiníveis (por exemplo, quando a interação entre níveis é interessante)? Ou seja, conjuntos de dados...
MLE = Estimativa de Máxima Verossimilhança MAP = Máximo a posteriori O MLE é intuitivo / ingênuo, pois começa apenas com a probabilidade de observação dada o parâmetro (ou seja, a função de verossimilhança) e tenta encontrar o parâmetro que melhor se adequa à observação . Mas não leva em...
Acabei de terminar "Uma Introdução à Aprendizagem Estatística" . Perguntei-me se o uso da validação cruzada para encontrar os melhores parâmetros de ajuste para várias técnicas de aprendizado de máquina é diferente da espionagem de dados. Estamos verificando repetidamente qual valor do parâmetro...
No aprendizado de máquina, podemos usar a área sob a curva ROC (frequentemente AUC abreviada ou AUROC) para resumir o quão bem um sistema pode discriminar entre duas categorias. Na teoria de detecção de sinal, frequentemente o d′d′d' (índice de sensibilidade) é usado para uma finalidade semelhante....
Digamos, é dependente de α . Rigorosamente falando,XXXαα\alpha se e α são variáveis aleatórias, poderíamos escrever p ( X ∣ α ) ;XXXαα\alphap ( X∣ α )p(X∣α)p(X\mid\alpha) no entanto, se é uma variável aleatória e α é um parâmetro, temos que escrever p ( X ; α ) .XXXαα\alphap ( X; α )p(X;α)p(X;...
Eu sei que a seleção de recursos e a redução de dimensionalidade visam reduzir o número de recursos no conjunto original de recursos. Qual é a diferença exata entre os dois se estivermos fazendo a mesma coisa nos
Lendo a excelente modelagem estatística: As duas culturas (Breiman 2001) , podemos aproveitar toda a diferença entre modelos estatísticos tradicionais (por exemplo, regressão linear) e algoritmos de aprendizado de máquina (por exemplo, Bagging, Random Forest, Boosted trees ...). Breiman critica os...
De acordo com este tutorial sobre aprendizado profundo , a redução de peso (regularização) geralmente não é aplicada aos termos de viés b por quê? Qual é o significado (intuição) por trás
Estou fazendo o curso de aprendizado de máquina de Andrew Ng e não consegui obter a resposta correta para essa pergunta após várias tentativas. Por favor, ajude a resolver isso, embora eu tenha passado pelo nível. Suponha que alunos tenham participado de alguma aula e a turma tenha um exame...
Eu estava lendo o livro de Yoshua Bengio sobre aprendizado profundo e está escrito na página 224: As redes convolucionais são simplesmente redes neurais que usam a convolução no lugar da multiplicação geral da matriz em pelo menos uma de suas camadas. no entanto, eu não tinha 100% de certeza...
Eu tenho um conjunto de dados que consiste em 15 mil amostras marcadas (de 10 grupos). Quero aplicar a redução de dimensionalidade em duas dimensões, que levariam em consideração o conhecimento dos rótulos. Quando uso técnicas de redução de dimensionalidade não supervisionadas "padrão", como o...
Acabei de abordar as Redes Neurais Artificiais no curso de Aprendizado de Máquina do Coursera e gostaria de conhecer mais teorias por trás delas. Acho a motivação que eles imitam a biologia um tanto insatisfatória. Na superfície, parece que em cada nível substituímos as covariáveis por uma...