Eu quero usar o aprendizado profundo para treinar uma detecção binária de face / sem face, que perda devo usar, acho que é SigmoidCrossEntropyLoss ou perda de dobradiça . Está certo, mas também gostaria de usar o softmax, mas com apenas duas
Eu quero usar o aprendizado profundo para treinar uma detecção binária de face / sem face, que perda devo usar, acho que é SigmoidCrossEntropyLoss ou perda de dobradiça . Está certo, mas também gostaria de usar o softmax, mas com apenas duas
Estou tentando fazer um detector de objetos que ocorrem muito raramente (em imagens), planejando usar um classificador binário da CNN aplicado em uma janela deslizante / redimensionada. Eu construí conjuntos de teste e treinamento positivo-negativos equilibrados 1: 1 (é a coisa certa a se fazer...
Ok - minha mensagem original falhou em obter uma resposta; então, deixe-me colocar a questão de forma diferente. Começarei explicando meu entendimento sobre estimativa de uma perspectiva teórica da decisão. Não tenho treinamento formal e não me surpreenderia se meu pensamento fosse defeituoso de...
Encontrei esses slides (slides 16 e 17) em um dos cursos on-line. O instrutor estava tentando explicar como a Estimativa Máxima Posterior (PAM) é realmente a solução , onde é o verdadeiro parâmetro.L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Alguém pode...
Estou trabalhando no artigo de Cho 2014 , que introduziu a arquitetura codificador-decodificador para modelagem seq2seq. No artigo, eles parecem usar a probabilidade da saída fornecida (ou é uma probabilidade negativa de log) como a função de perda para uma entrada de comprimento e saída de...
Eu tenho um problema de classificação em que os pixels serão rotulados com rótulos flexíveis (que denotam probabilidades) em vez de rótulos rígidos 0,1. No início, com 0,1 pixel rígido rotulando a função de perda de entropia cruzada (sigmoidCross entropyLossLayer da Caffe) estava obtendo resultados...
Tenho uma dúvida sobre como exatamente é treinada a função de perda de uma Deep Q-Learning Network. Estou usando uma rede feedforward de 2 camadas com camada de saída linear e relu camadas ocultas. Vamos supor que eu tenho 4 ações possíveis. Portanto, a saída da minha rede para o estado atual é ....
Considere a perda quadrática , com o dado previamente que . Seja a probabilidade. Encontre o estimador de Bayes .L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim
Estou treinando uma rede neural convolucional simples para regressão, onde a tarefa é prever a localização (x, y) de uma caixa em uma imagem, por exemplo: A saída da rede possui dois nós, um para x e um para y. O restante da rede é uma rede neural convolucional padrão. A perda é um erro...
Em várias competições de kaggle, a pontuação foi baseada em "logloss". Isso está relacionado ao erro de classificação. Aqui está uma resposta técnica, mas estou procurando uma resposta intuitiva. Gostei muito das respostas para esta pergunta sobre a distância de Mahalanobis, mas o PCA não é...
Estou tentando reconciliar diferentes definições da função de custo / perda do SVM de margem flexível na forma primária. Existe um operador "max ()" que eu não entendo. Eu aprendi sobre o SVM há muitos anos no livro de graduação em nível " Introdução à mineração de dados " de Tan, Steinbach e...
A perda de L2, juntamente com a perda de L0 e L1, são três funções de perda "padrão" muito comuns usadas ao resumir uma posterior pela mínima perda posterior esperada. Uma razão para isso é talvez o fato de serem relativamente fáceis de calcular (pelo menos para distribuições 1d), L0 resulta no...
Suponha que você queira estimar um modelo linear: ( nnn observações da resposta p + 1p+1p+1 preditores) E ( yEu) = β0 0+ ∑j = 1pβjxeu jE(yEu)=β0 0+∑j=1pβjxEuj\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} Uma maneira de fazer isso é através da solução OLS, ou seja, escolha os...
Eu sei que vi as duas coisas, então há uma diferença entre as duas, e qual delas é mais
Atualmente, estou olhando para a forma primária irrestrita do classificador one-vs-all ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) Onde...
Descrição do Problema Estou iniciando a construção da rede para um problema que eu acho que poderia ter uma função de perda muito mais criteriosa do que uma simples regressão MSE. Meu problema lida com a classificação de várias categorias ( veja minha pergunta no SO para o que quero dizer com...
TL; DR (muito longo, não leu): Estou trabalhando em um problema de previsão de séries temporais, que formulo como um problema de regressão usando o Deep Learning (keras). Quero otimizar a correlação de Pearson entre minha previsão e os rótulos verdadeiros. Estou confuso pelo fato de que o uso do...
Estou usando regressão logística para prever a probabilidade de ocorrência de um evento. Por fim, essas probabilidades são colocadas em um ambiente de produção, onde nos concentramos o máximo possível em atingir nossas previsões de "sim". Portanto, é útil ter uma idéia do que "hits" ou "não hits"...
Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...
Um estimador de Bayes é aquele que minimiza o risco de Bayes. Especificamente, se e somente se δΛ=argminBR(Λ,δ):=∫R(θ,δ)dΛ(θ)=∫(∫L(θ,δ(x))dx)dΛ(θ)δΛ=argminBR(Λ,δ):=∫R(θ,δ)dΛ(θ)=∫(∫L(θ,δ(x))dx)dΛ(θ)\delta_{\Lambda} = \arg\min \operatorname{BR}(\Lambda,\delta) := \int R(\theta, \delta) d...