Perguntas com a marcação «clustering»

9
Calcular curva ROC para dados

Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6...

9
Introdução ao biclustering

Eu tenho feito algumas pesquisas casuais na Internet sobre biclusters. (Eu li o artigo da Wiki várias vezes.) Até agora, parece que existem poucas definições ou terminologia padrão. Fiquei me perguntando se havia algum documento ou livro padrão que alguém interessado em algoritmos para encontrar...

9
Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1...

9
Ciclagem no algoritmo k-means

Segundo o wiki, o critério de convergência mais utilizado é "a atribuição não mudou". Eu queria saber se o ciclismo pode ocorrer se usarmos esse critério de convergência? Eu ficaria satisfeito se alguém apontasse uma referência a um artigo que dê um exemplo de ciclismo ou prove que isso é...

9
Critérios de cotovelo para determinar o número de aglomerados

É mencionado aqui que um dos métodos para determinar o número ideal de clusters em um conjunto de dados é o "método do cotovelo". Aqui, a porcentagem de variação é calculada como a razão da variação entre os grupos e a variação total. Senti-me difícil ao entender esse cálculo. Alguém pode explicar...

9
Clustering com medidas de distância assimétricas

Como você agrupa um recurso com uma medida de distância assimétrica? Por exemplo, digamos que você esteja agrupando um conjunto de dados com dias da semana como um recurso - a distância de segunda a sexta-feira não é a mesma que a distância de sexta a segunda-feira. Como você incorpora isso na...

9
Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências observadas dos meus quatro eventos (18), posso calcular as...

9
Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas

Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última...

9
Escolhendo clusters para k-means: o caso de 1 cluster

Alguém conhece um bom método para determinar se o agrupamento usando kmeans é apropriado? Ou seja, e se sua amostra for realmente homogênea? Eu sei que algo como um modelo de mistura (via mclust em R) fornecerá estatísticas de ajuste para o caso de cluster 1: k, mas parece que todas as técnicas...

9
Agrupando dados ruidosos ou com outliers

Eu tenho dados barulhentos de duas variáveis ​​como esta. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1),...