Qual a diferença entre PCA e MDS clássico? E quanto ao MDS versus o MDS não métrico? Existe um momento em que você prefere um sobre o outro? Como as interpretações
Técnica que transforma (dis) semelhanças observadas ou computadas entre objetos em distâncias em um espaço de baixa dimensão (geralmente euclidiano). Assim, ele constrói dimensões para os dados; os objetos podem ser traçados e conceitualizados nessas dimensões
Qual a diferença entre PCA e MDS clássico? E quanto ao MDS versus o MDS não métrico? Existe um momento em que você prefere um sobre o outro? Como as interpretações
Uma boa prática comum no Machine Learning é apresentar normalização ou padronização de dados das variáveis preditoras, é isso, centralizar os dados subtraindo a média e normalizá-los dividindo pela variação (ou desvio padrão também). Para auto-contenção e para minha compreensão, fazemos isso para...
Estou tentando prever o resultado de um sistema complexo usando redes neurais (RNAs). Os valores do resultado (dependentes) variam entre 0 e 10.000. As diferentes variáveis de entrada têm intervalos diferentes. Todas as variáveis têm distribuições aproximadamente normais. Considero diferentes...
Para o LASSO (e outros procedimentos de seleção de modelo), é crucial redimensionar os preditores. A recomendação geral que sigo é simplesmente usar uma média de 0, 1 normalização de desvio padrão para variáveis contínuas. Mas o que há com manequins? Por exemplo, alguns exemplos aplicados da...
Ultimamente, tenho lido algumas perguntas sobre t-SNE ( Incorporação estocástica de vizinhos t-distribuídos ) e também visitou algumas perguntas sobre MDS ( Multidimensional Scaling ). Eles costumam ser usados de forma análoga; portanto, parecia uma boa idéia fazer essa pergunta, pois há muitas...
Meu entendimento do t-SNE e da aproximação de Barnes-Hut é que todos os pontos de dados são necessários para que todas as interações de força possam ser calculadas ao mesmo tempo e que cada ponto possa ser ajustado no mapa 2d (ou menor dimensão). Existem versões do t-sne que podem lidar...
Recentemente, deparei-me com dimensionamento multidimensional. Estou tentando entender melhor essa ferramenta e seu papel na estatística moderna. Então, aqui estão algumas perguntas norteadoras: Quais perguntas ele responde? Quais pesquisadores geralmente estão interessados em usá-lo? Existem...
Eu usei randomForest para classificar 6 comportamentos de animais (por exemplo, em pé, andando, nadando etc.) com base em 8 variáveis (diferentes posturas e movimentos corporais). O MDSplot no pacote randomForest me fornece essa saída e tenho problemas em interpretar o resultado. Eu fiz um PCA...
Quero agrupar um conjunto de dados massivo para o qual tenho apenas as distâncias aos pares. Eu implementei um algoritmo k-medoids, mas está demorando muito para ser executado, então eu gostaria de começar reduzindo a dimensão do meu problema aplicando o PCA. No entanto, a única maneira que sei...
Estou usando a indexação semântica latente para encontrar semelhanças entre documentos ( obrigado, JMS! ) Após a redução da dimensão, tentei o agrupamento k-means para agrupar os documentos em clusters, o que funciona muito bem. Mas eu gostaria de ir um pouco mais longe e visualizar os documentos...
Eu tenho um conjunto de pontos de dados em um espaço N-dimensional. Além disso, eu também tenho um centróide neste mesmo espaço N-dimensional. Existem abordagens que me permitam projetar esses pontos de dados em um espaço bidimensional, mantendo as informações de distância relativa no espaço...
De acordo com "Efficient Backprop" de LeCun et al (1998) , é uma boa prática normalizar todas as entradas para que elas fiquem centralizadas em torno de 0 e fiquem dentro da faixa da segunda derivada máxima. Então, por exemplo, usaríamos [-0,5,0,5] para a função "Tanh". Isso é para ajudar o...
Considerando o número de recursos constante, o Barnes-Hut t-SNE possui uma complexidade de , projeções aleatórias e PCA têm uma complexidade de tornando-os "acessíveis" para conjuntos de dados muito grandes.O(nlogn)O(nlogn)O(n\log n)O(n)O(n)O(n) Por outro lado, os métodos baseados no...