Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 4 anos . Estou treinando um modelo usando o...
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 4 anos . Estou treinando um modelo usando o...
Apenas uma pergunta geral. Se você possui dados de séries temporais, quando é melhor usar técnicas de séries temporais (aka, ARCH, GARCH, etc) sobre técnicas de aprendizado de máquina / estatística (KNN, regressão)? Se houver uma pergunta semelhante sobre validação cruzada, aponte-me para ela -...
Qual é a dimensão VC do algoritmo k-vizinho mais próximo se k for igual ao número de pontos de treinamento usados? Contexto: Essa pergunta foi feita em um curso que eu faço e a resposta dada foi 0. Eu, no entanto, não entendo por que esse é o caso. Minha intuição é que a VC-Dimension seja 1,...
Entendo que o pré-treinamento é usado para evitar alguns dos problemas do treinamento convencional. Se eu usar a retropropagação com, digamos, um autoencodificador, sei que vou ter problemas de tempo porque a retropropagação é lenta, e também que posso ficar preso no ótimo local e não aprender...
Na seção 7 do artigo Random Forests (Breiman, 1999), o autor afirma a seguinte conjectura: "Adaboost é uma floresta aleatória". Alguém já provou ou refutou isso? O que foi feito para provar ou refutar este post de
Costumo ver pessoas falando sobre validação cruzada 5x2 como um caso especial de validação cruzada aninhada . Suponho que o primeiro número (aqui: 5) se refira ao número de dobras no loop interno e o segundo número (aqui: 2) se refira ao número de dobras no loop externo? Então, como isso difere de...
Eu tenho procurado uma explicação clara de "bucketização" no aprendizado de máquina sem sorte. O que eu entendo até agora é que a bucketização é semelhante à quantização no processamento de sinal digital, onde uma faixa de valores contínuos é substituída por um valor discreto. Isso está...
Eu queria saber se era possível treinar um SVM (digamos um linear, para facilitar as coisas) usando a retropropagação? Atualmente, estou em um obstáculo, porque só consigo pensar em escrever a saída do classificador como f( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = sgn ( g( x ; θ , b )...
Eu estava lendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mas não consigo entender exatamente por que a fórmula foi construída do jeito que é. O que eu entendo: A FDN deve, em algum nível, medir a frequência com que um termo S aparece em cada um dos documentos, diminuindo em...
Estou tentando trabalhar no caminho do primeiro conjunto de problemas do material do curso de classe on-line stanford cs224d e estou tendo alguns problemas com o problema 3A: Ao usar o modelo skip gram word2vec com a função de previsão softmax e a função de perda de entropia cruzada, deseja...
Atualmente, estou lendo a técnica de visualização t-SNE e foi mencionado que uma das desvantagens do uso da análise de componentes principais (PCA) para visualizar dados de alta dimensão é que ela preserva apenas grandes distâncias em pares entre os pontos. Os pontos de significado que estão...
Para trabalhos de casa, recebi dados para criar / treinar um preditor que usa regressão do laço. Crio o preditor e o treino usando a biblioteca lasso python do scikit learn. Então agora eu tenho esse preditor que, quando recebida, pode prever a saída. A segunda pergunta foi "Estenda seu preditor...
Recentemente, me interessei pelo empilhamento de modelos como uma forma de aprendizado por conjunto. Em particular, experimentei um pouco com alguns conjuntos de dados de brinquedos para problemas de regressão. Eu basicamente implementei regressores individuais de "nível 0", armazenei as previsões...
Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é
O algoritmo SVM é bastante antigo - foi desenvolvido nos anos 1960, mas era extremamente popular nos anos 1990 e 2000. É uma parte clássica (e bastante bonita) dos cursos de aprendizado de máquina. Hoje, parece que no processamento de mídia (imagens, som etc.) as redes neurais dominam...
O Support Vector Machines com kernel de função de base radial é um classificador supervisionado de uso geral. Embora conheça os fundamentos teóricos desses SVMs e seus pontos fortes, não conheço os casos em que eles são o método preferido. Então, existe uma classe de problemas para os quais os...
Recentemente, comecei a usar a validação cruzada de amostras de importância suavizada Pareto (PSIS-LOO), descrita nestes documentos: Vehtari, A. e Gelman, A. (2015). Pareto suavizou a amostragem de importância. pré-impressão do arXiv ( link ). Vehtari, A., Gelman, A. e Gabry, J. (2016). Avaliação...
Tudo está no título, faz sentido usar a seleção de recursos antes de usar a floresta
No momento, estou com alguns problemas ao analisar um conjunto de dados de tweet com máquinas de vetores de suporte. O problema é que tenho um conjunto de treinamento de classe binária desequilibrado (5: 2); que deve ser proporcional à distribuição de classe real. Ao prever, obtenho uma baixa...
No PCA, faz diferença se escolhermos os principais componentes da matriz de covariância inversa OU se deixarmos cair autovetores da matriz de covariância correspondentes a grandes valores próprios? Isso está relacionado à discussão neste post