Qual é a diferença entre a descida de gradiente e a descida de gradiente estocástica? Eu não estou muito familiarizado com isso, você pode descrever a diferença com um pequeno
Qual é a diferença entre a descida de gradiente e a descida de gradiente estocástica? Eu não estou muito familiarizado com isso, você pode descrever a diferença com um pequeno
Fechado . Esta questão é baseada em opiniões . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela possa ser respondida com fatos e citações editando esta postagem . Fechado há 5 anos . Não sei se este...
É melhor codificar recursos como mês e hora como fator ou numérico em um modelo de aprendizado de máquina? Por um lado, acho que a codificação numérica pode ser razoável, porque o tempo é um processo progressivo (o quinto mês é seguido pelo sexto mês), mas, por outro lado, acho que a codificação...
Atualmente, estou trabalhando com o Python e o Scikit para fins de classificação e, lendo o GridSearch, achei que essa era uma ótima maneira de otimizar meus parâmetros do estimador para obter os melhores resultados. Minha metodologia é esta: Dividir meus dados em treinamento / teste. Use o...
Existem muitas técnicas para a visualização de conjuntos de dados de alta dimensão, como T-SNE, isomap, PCA, PCA supervisionado, etc. " Alguns desses métodos de incorporação (aprendizado múltiplo) são descritos aqui . Mas essa "imagem bonita" é realmente significativa? Que idéias possíveis...
Eu sempre ouvi pessoas dizendo que por que as redes neurais convolucionais ainda são pouco compreendidas. Sabe-se por que as redes neurais convolucionais sempre acabam aprendendo recursos cada vez mais sofisticados à medida que avançamos nas camadas? O que os levou a criar uma pilha de recursos e...
Eu estava lendo sobre a solução para esse desafio OTTO Kaggle e a solução em primeiro lugar parece usar várias transformações para os dados de entrada X, por exemplo Log (X + 1), sqrt (X + 3/8) etc. orientação geral sobre quando aplicar quais transformações de tipo a vários classificadores? Eu...
Estou procurando um artigo detalhando os princípios básicos do aprendizado profundo. Idealmente, como o curso de Andrew Ng para aprendizado profundo. Você sabe onde eu posso encontrar
Como calcular o mAP (Precisão média média) para a tarefa de detecção das tabelas de classificação Pascal VOC? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Disse - na página 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf Precisão Média...
Recentemente, um amigo meu foi questionado se os algoritmos da árvore de decisão são lineares ou não-lineares em uma entrevista. Tentei procurar respostas para essa pergunta, mas não consegui encontrar nenhuma explicação satisfatória. Alguém pode responder e explicar a solução para esta pergunta?...
Eu estava examinando a documentação oficial do scikit-learn learn depois de ler um livro sobre ML e me deparei com o seguinte: Na documentação, isso é dado, sklearn.preprocessing.OrdinalEncoder()enquanto no livro sklearn.preprocessing.LabelEncoder(), quando verifiquei a funcionalidade deles,...
Gostaria de saber se existe algum cenário em que a descida do gradiente não converja ao mínimo. Estou ciente de que nem sempre é garantido que a descida do gradiente converja para um ótimo global. Também estou ciente de que ele pode divergir de um ótimo se, digamos, o tamanho da etapa for muito...
Quero calcular a precisão, recall e pontuação F1 para o meu modelo binário KerasClassifier, mas não encontro nenhuma solução. Aqui está o meu código real: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3,...
Ao ler este artigo, há uma linha que diz "classificadores lineares não compartilham parâmetros entre recursos e classes". Qual é o significado desta afirmação? Isso significa que classificadores lineares, como a regressão logística, precisam de recursos que sejam mutuamente...
Quando eu estava lendo sobre o uso StandardScaler, a maioria das recomendações dizia que você deveria usar StandardScaler antes de dividir os dados em treinamento / teste, mas quando eu estava verificando alguns dos códigos publicados on-line (usando o sklearn), havia dois usos principais. 1-...
Geralmente, o modelo de aprendizado de máquina é construído em conjuntos de dados. Gostaria de saber se existe alguma maneira de gerar um conjunto de dados sintético usando esse modelo de aprendizado de máquina treinado, preservando as características originais do conjunto de dados? [dados...
As funções de ativação são usadas para introduzir não linearidades na saída linear do tipo w * x + bem uma rede neural. O que eu sou capaz de entender intuitivamente para as funções de ativação como sigmoide. Entendo as vantagens do ReLU, que evita neurônios mortos durante a retropropagação. No...
Estou participando de uma competição de kaggle. O conjunto de dados possui cerca de 100 recursos e todos são desconhecidos (em termos do que realmente representam). Basicamente, são apenas números. As pessoas estão realizando muita engenharia de recursos nesses recursos. Eu estou querendo saber...
Fiquei me perguntando como é que vamos decidir quantos nós nas camadas ocultas e quantas camadas ocultas colocar quando construirmos uma arquitetura de rede neural. Entendo que a camada de entrada e saída depende do conjunto de treinamento que temos, mas como decidimos a camada oculta e a...
O problema que estou enfrentando é categorizar textos curtos em várias classes. Minha abordagem atual é usar frequências de termo ponderadas tf-idf e aprender um classificador linear simples (regressão logística). Isso funciona razoavelmente bem (cerca de 90% da macro F-1 no conjunto de testes,...