O uso de "variacional" sempre se refere à otimização por inferência variacional? Exemplos: "Auto-codificador variacional" "Métodos bayesianos variacionais" "Grupo de renormalização
O uso de "variacional" sempre se refere à otimização por inferência variacional? Exemplos: "Auto-codificador variacional" "Métodos bayesianos variacionais" "Grupo de renormalização
Estou tentando entender o processo de treinamento de uma máquina de vetores de suporte linear . Percebo que as propriedades dos SMVs permitem que elas sejam otimizadas muito mais rapidamente do que usando um solucionador de programação quadrática, mas, para fins de aprendizado, gostaria de ver como...
Antecedentes e problema Estou usando Processos Gaussianos (GP) para regressão e subsequente otimização bayesiana (BO). Para regressão, uso o pacote gpml do MATLAB com várias modificações personalizadas, mas o problema é geral. É um fato bem conhecido que, quando duas entradas de treinamento estão...
Aqui está o problema de desvio menos absoluto em questão:. Eu sei que pode ser reorganizado como problema de LP da seguinte maneira:argminwL(w)=∑ni=1|yi−wTx|argminwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min...
No aprendizado de máquina (para problemas de regressão), geralmente vejo o erro médio quadrático (MSE) ou o erro médio absoluto (MAE) sendo usado como a função de erro para minimizar (mais o termo de regularização). Gostaria de saber se há situações em que o uso do coeficiente de correlação seria...
Aqui está um exemplo de código keras que o usa: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu',
Minha cabeleireira Stacey sempre mostra uma cara feliz, mas costuma ficar estressada com a possibilidade de administrar seu tempo. Hoje, Stacey estava atrasada para minha consulta e se desculpou muito. Enquanto cortava o cabelo, eu me perguntava: quanto tempo deveriam durar as consultas regulares?...
Estou tentando implementar o algoritmo Nelder-Mead para otimizar uma função. A página da Wikipedia sobre Nelder-Mead é surpreendentemente clara sobre todo o algoritmo, exceto por seu critério de parada. Lá, infelizmente, diz: Verifique a convergência [esclarecimentos necessários] . Eu mesmo...
Eu tenho uma função probabilidade para a probabilidade dos meus dados dado alguns parâmetros do modelo , o que eu gostaria de estimar. Assumindo anteriores planos nos parâmetros, a probabilidade é proporcional à probabilidade posterior. Eu uso um método MCMC para provar essa probabilidade.L (d|...
Estou procurando o método ideal de binning (discretização) de uma variável contínua em relação a uma variável binária de resposta (destino) e com o número máximo de intervalos como parâmetro. exemplo: eu tenho um conjunto de observações de pessoas com variáveis "height" (numeral contínuo) e...
Este é um tópico difícil para o google, pois ter as palavras otimização e estocástico em uma pesquisa quase automaticamente padroniza as pesquisas por otimização estocástica. Mas o que realmente quero saber são quais métodos existem para otimizar modelos de computador quando a saída do modelo de...
Ao escolher o parâmetro de regularização lambda em Ridge ou Lasso, o método recomendado é tentar diferentes valores de lambda, medir o erro no conjunto de validação e finalmente escolher o valor de lambda que retorna o erro mais baixo. Não é óbvio para mim se a função f (lambda) = erro é convexa....
De acordo com as referências Livro 1 , Livro 2 e papel . Foi mencionado que existe uma equivalência entre a regressão regularizada (Ridge, LASSO e Elastic Net) e suas fórmulas de restrição. Também examinei o Cross Validated 1 e o Cross Validated 2 , mas não vejo uma resposta clara que mostre essa...
O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1,...
Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Alguém pode...
Se eu tiver uma matriz de design , em que é o número de observações da dimensão , qual é a complexidade da solução para com LASSO, wrt e ? Acho que a resposta deve se referir a como uma iteração do LASSO é escalonada com esses parâmetros, e não como o número de iterações (convergência), a menos que...
Estou tentando ajustar um modelo de tempo discreto no R, mas não sei como fazê-lo. Eu li que você pode organizar a variável dependente em linhas diferentes, uma para cada observação no tempo, e usar a glmfunção com um link logit ou cloglog. Neste sentido, tem três colunas: ID, Event(1 ou 0, em...
O sistema de classificação Elo usa um algoritmo de minimização de descida de gradiente da função de perda de entropia cruzada entre a probabilidade esperada e observada de um resultado em comparações pareadas. Podemos escrever as funções gerais de perda
Basicamente, quero converter medidas de similaridade em pesos que são usados como preditores. As semelhanças estarão em [0,1], e restringirei os pesos para também estar em [0,1]. Gostaria de uma função paramétrica que faça esse mapeamento que provavelmente otimizarei usando a descida de...
Estou seguindo o tutorial do Tensorflow mnist ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). O tutorial usa tf.train.Optimizer.minimize(especificamente tf.train.GradientDescentOptimizer). Não vejo nenhum argumento sendo passado em...