É possível ter pesos negativos (após épocas suficientes) para redes neurais convolucionais profundas quando usamos ReLU para todas as camadas de
É possível ter pesos negativos (após épocas suficientes) para redes neurais convolucionais profundas quando usamos ReLU para todas as camadas de
Eu sei que os modelos estatísticos tradicionais como Cox Riscos Proporcionais de regressão e alguns modelos de Kaplan-Meier podem ser usados para prever dias até a próxima ocorrência de uma falha digamos evento etc. ie análise de sobrevida Questões Como a versão de regressão de modelos de...
Antecedentes: recentemente entendi em um nível mais profundo a importância do aumento de dados ao treinar redes neurais convolucionais depois de assistir a essa excelente palestra de Geoffrey Hinton . Ele explica que as redes neurais convolucionais da geração atual não são capazes de generalizar...
Estou tentando treinar uma rede neural para classificação, mas os rótulos que tenho são bastante barulhentos (cerca de 30% deles estão errados). A perda de entropia cruzada realmente funciona, mas eu queria saber se existem alternativas mais eficazes nesse caso. ou a perda de entropia cruzada é a...
Quero saber o que é e como é diferente do conjunto? Suponha que eu queira alcançar alta precisão na classificação e segmentação, para uma tarefa específica, se eu usar redes diferentes, como CNN, RNN, etc. para conseguir isso, isso é chamado de modelo de ponta a ponta? (arquitetura?) ou...
Sou bastante novo no campo dos processos gaussianos e como eles estão sendo aplicados no aprendizado de máquina. Eu continuo lendo e ouvindo sobre as funções de covariância sendo a principal atração desses métodos. Então, alguém poderia explicar de maneira intuitiva o que está acontecendo nessas...
Minha pergunta vem do seguinte fato. Eu tenho lido posts, blogs, palestras e livros sobre aprendizado de máquina. Minha impressão é que os profissionais de aprendizado de máquina parecem indiferentes a muitas coisas com as quais os estatísticos / econométricos se preocupam. Em particular, os...
Eu li alguns artigos sobre imagens manualmente inventadas para "enganar" uma rede neural (veja abaixo). Isso ocorre porque as redes modelam apenas a probabilidade condicional p ( y| x)p(y|x)p(y|x) ? Se uma rede puder modelar a probabilidade conjunta p ( y, X )p(y,x)p(y,x) , esses casos ainda...
No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta. Eu e outros participantes aplicamos a geração de recursos por um tempo...
No artigo de 2015 da DeepMind sobre aprendizado profundo por reforço, ele afirma que "as tentativas anteriores de combinar RL com redes neurais falharam amplamente devido ao aprendizado instável". O artigo lista algumas causas disso, com base nas correlações entre as observações. Por favor, alguém...
Eu tenho dados brutos que possuem cerca de 20 colunas (20 recursos). Dez deles são dados contínuos e 10 deles são categóricos. Alguns dos dados categóricos podem ter 50 valores diferentes (Estados dos EUA). Depois que eu pré-processo os dados, as 10 colunas contínuas se tornam 10 colunas preparadas...
Eu queria saber quanto do aprendizado de máquina requer otimização. Pelo que ouvi, estatísticas é um tópico matemático importante para pessoas que trabalham com aprendizado de máquina. Da mesma forma, qual é a importância de alguém que trabalha com aprendizado de máquina para aprender sobre...
O classificador Naive Bayes é o classificador que atribui itens a uma classe base na maximização do posterior para associação à classe e assume que os recursos dos itens são independentes.CxxxCCCP(C|x)P(C|x)P(C|x) A perda de 0-1 é a perda que atribui a qualquer classificação incorreta uma perda de...
Quando as pessoas falam sobre redes neurais, o que elas significam quando dizem "tamanho do kernel"? Kernels são funções de similaridade, mas o que isso diz sobre o tamanho do
Uma medida comum usada para comparar dois ou mais modelos de classificação é usar a área sob a curva ROC (AUC) como uma maneira de avaliar indiretamente seu desempenho. Nesse caso, um modelo com uma AUC maior é geralmente interpretado como tendo um desempenho melhor do que um modelo com uma AUC...
Como treinar o modelo LSTM em vários dados de séries temporais? Caso de uso: tenho vendas semanais de 20.000 agentes nos últimos 5 anos. Precisa prever as próximas vendas semanais para cada agente. Preciso seguir uma técnica de processamento em lote - pegue um agente de cada vez, treine o modelo...
RNNs são notavelmente bons para capturar a dependência de tempo de dados seqüenciais. No entanto, o que acontece quando os elementos da sequência não são igualmente espaçados no tempo? Por exemplo, a primeira entrada na célula LSTM acontece na segunda-feira, depois não há dados de terça a...
Com o conhecimento limitado que tenho sobre SVM, é bom para uma matriz de dados curta e gorda (muitos recursos e poucas instâncias), mas não para big data.XXX Entendo que um dos motivos é a Matriz do Kernel é uma matriz que é o número de instâncias nos dados. Se tivermos dito, 100K dados, a matriz...
Se tudo o que você está fazendo é re-amostragem da distribuição empírica, por que não apenas estudar a distribuição empírica? Por exemplo, em vez de estudar a variabilidade por amostragem repetida, por que não quantificar a variabilidade a partir da distribuição
Deixe-me dizer desde o início que sou muito novo em aprendizado de máquina e não sou bom em matemática. Entendo o que o TF-IDF faz, mas no livro que estou lendo, também observa o seguinte (está discutindo como o scikit-learn faz as coisas): As duas classes [TfidfTransformer e TfidfVectorizer]...