Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o
Quais são as melhores etapas de pré-processamento (recomendadas) antes de executar o
Gostaria de saber se alguém poderia sugerir quais são os bons pontos de partida quando se trata de realizar a detecção / particionamento / agrupamento / agrupamento de gráficos da comunidade em um gráfico que tenha arestas ponderadas e não direcionadas . O gráfico em questão possui aproximadamente...
Qual seria a abordagem para usar o Dynamic Time Warping (DTW) para executar o agrupamento de séries temporais? Eu li sobre o DTW como uma maneira de encontrar semelhança entre duas séries temporais, enquanto elas poderiam ser alteradas no tempo. Posso usar esse método como uma medida de...
Eu tenho um conjunto de dados de séries temporais. Cada série cobre o mesmo período, embora as datas reais de cada série cronológica nem sempre sejam exatamente alinhadas. Ou seja, se as séries temporais fossem lidas em uma matriz 2D, seria algo como isto: date T1 T2 T3 .... TN 1/1/01 100 59 42...
Um dos maiores problemas com a análise de cluster é que podemos ter que tirar conclusões diferentes quando baseamos nos diferentes métodos de cluster usados (incluindo diferentes métodos de ligação no cluster hierárquico). Gostaria de saber sua opinião sobre isso - qual método você selecionará e...
Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow...
Estou tentando usar o gráfico de silhueta para determinar o número de cluster no meu conjunto de dados. Dado o conjunto de dados Train , usei o seguinte código matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =
Em uma tarefa recente, fomos instruídos a usar o PCA nos dígitos do MNIST para reduzir as dimensões de 64 (8 x 8 imagens) para 2. Em seguida, tivemos que agrupar os dígitos usando um Modelo de Mistura Gaussiana. O PCA que usa apenas dois componentes principais não produz clusters distintos e, como...
No meu conjunto de dados, temos variáveis contínuas e naturalmente discretas. Quero saber se podemos fazer cluster hierárquico usando os dois tipos de variáveis. E se sim, que medida de distância é
Estou executando um cluster hierárquico de dados que reuni e processei no despejo de dados do reddit no Google BigQuery. Meu processo é o seguinte: Receba as últimas 1000 postagens em / r / policy Reúna todos os comentários Processar os dados e calcular uma n x mmatriz de dados (n: usuários /...
Até onde eu sei, os SOMs no estilo Kohonen tiveram um pico em 2005 e não têm recebido tanto favor recentemente. Não encontrei nenhum documento que diga que os SOMs tenham sido incluídos por outro método ou que tenham sido equivalentes a outra coisa (em dimensões mais altas, de qualquer maneira)....
Eu tenho um conjunto de dados X que tem 10 dimensões, 4 das quais são valores discretos. De fato, essas 4 variáveis discretas são ordinais, ou seja, um valor mais alto implica uma semântica maior / melhor. 2 dessas variáveis discretas são categóricas no sentido de que, para cada uma dessas...
Antecedentes : quero classificar as áreas residenciais de uma cidade em grupos com base em suas características socioeconômicas, incluindo densidade de unidades habitacionais, densidade populacional, área de espaços verdes, preço da habitação, número de escolas / centros de saúde / creches, etc....
Eu encontrei extensa literatura propondo todos os tipos de critérios (por exemplo, Glenn et al. 1985 (pdf) e Jung et al. 2002 (pdf)). No entanto, a maioria delas não é tão fácil de implementar (pelo menos da minha perspectiva). Estou usando o scipy.cluster.hierarchy para obter uma hierarquia de...
Tenho o seguinte problema em mãos: Tenho uma lista muito longa de palavras, possivelmente nomes, sobrenomes etc. É necessário agrupar essa lista de palavras, de modo que palavras semelhantes, por exemplo palavras com distância de edição semelhante (Levenshtein), apareçam no mesmo cluster. Por...
Quais são as diferenças nas inferências que podem ser feitas a partir de uma análise de classe latente (ACV) versus uma análise de cluster? É correto que uma ACV assuma uma variável latente subjacente que dê origem às classes, enquanto a análise de cluster é uma descrição empírica de atributos...
Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...
Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...
Eu tenho uma matriz em que a (i, j) me diz quantas vezes eu visualizei a página j. Existem 27 mil indivíduos e 95 mil páginas. Eu gostaria de ter um punhado de "dimensões" ou "aspectos" no espaço das páginas que corresponderiam a conjuntos de páginas que geralmente são vistos juntos. Meu objetivo...
[O título inicial "Medição de similaridade para árvores de cluster hierárquicas" foi posteriormente alterado por @ttnphns para refletir melhor o tópico] Estou realizando várias análises hierárquicas de cluster em um quadro de dados de registros de pacientes (por exemplo, semelhante a...