Perguntas com a marcação «algorithms»

10

Detecção de anomalias: qual algoritmo usar?

Contexto: estou desenvolvendo um sistema que analisa dados clínicos para filtrar dados implausíveis que podem ser erros de digitação. O que eu fiz até agora: Para quantificar a plausibilidade, minha tentativa até agora foi normalizar os dados e, em seguida, calcular um valor de plausibilidade...

10

Por que Adaboost com árvores de decisão?

Eu tenho lido um pouco sobre o aumento de algoritmos para tarefas de classificação e o Adaboost em particular. Entendo que o objetivo do Adaboost é levar vários "alunos fracos" e, por meio de um conjunto de iterações sobre dados de treinamento, forçar os classificadores a aprender a prever as...

machine-learning classification algorithms boosting

10

O PCA em grande escala é possível?

O método clássico de análise de componentes principais (PCA) é fazê-lo em uma matriz de dados de entrada cujas colunas têm média zero (o PCA pode "maximizar a variação"). Isso pode ser alcançado facilmente centralizando as colunas. No entanto, quando a matriz de entrada for esparsa, a matriz...

pca algorithms dimensionality-reduction large-data sparse

9

Comparando dois algoritmos genéticos

Eu tenho duas implementações de um algoritmo genético que devem se comportar de forma equivalente. No entanto, devido a restrições técnicas que não podem ser resolvidas, sua saída não é exatamente a mesma, dada a mesma entrada. Ainda assim, gostaria de mostrar que não há diferença significativa de...

hypothesis-testing genetic-algorithms

9

Calcular curva ROC para dados

Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6...

mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

9

Forçando um conjunto de números para uma curva de sino gaussiana

( Isso está relacionado à minha pergunta de programação no Stack Overflow : algoritmo gaussiano de curva de Bell (Python e / ou C #) .) No Answers.com, encontrei este exemplo simples: Encontre a média aritmética (média) => Soma de todos os valores no conjunto, dividida pelo número de...

algorithms normal-distribution

9

Cluster com economia de espaço

A maioria dos algoritmos de agrupamento que eu vi começou com a criação de distâncias cada um entre todos os pontos, o que se torna problemático em conjuntos de dados maiores. Existe alguém que não faz isso? Ou faz isso em algum tipo de abordagem parcial / aproximada / escalonada? Qual algoritmo /...

clustering algorithms large-data

9

Ciclagem no algoritmo k-means

Segundo o wiki, o critério de convergência mais utilizado é "a atribuição não mudou". Eu queria saber se o ciclismo pode ocorrer se usarmos esse critério de convergência? Eu ficaria satisfeito se alguém apontasse uma referência a um artigo que dê um exemplo de ciclismo ou prove que isso é...

clustering algorithms k-means

9

Algoritmo a priori em inglês simples?

Eu li um artigo wiki sobre Apriori. Tenho problemas para entender a ameixa e a etapa de ingresso. Alguém pode me explicar como o algoritmo Apriori funciona em termos simples (para que iniciantes como eu possam entender facilmente)? Será bom se alguém explicar o processo passo a passo envolvido...

data-mining algorithms frequentist

9

custo de amostragem de

Me deparei com o seguinte problema de simulação: dado um conjunto de números reais conhecidos, uma distribuição em é definida por onde indica a parte positiva de . Embora eu possa pensar em um amostrador Metropolis-Hastings visando essa distribuição, pergunto-me se existe um amostrador direto...

simulation algorithms random-generation computational-statistics metropolis-hastings

9

Como executar a seleção de variáveis do algoritmo genético em R para variáveis de entrada SVM?

Estou usando o pacote kernlab no R para criar um SVM para classificar alguns dados. O SVM está funcionando bem, pois fornece 'previsões' de uma precisão decente, no entanto, minha lista de variáveis de entrada é maior do que eu gostaria e não tenho certeza quanto à importância relativa das...

r machine-learning svm genetic-algorithms

9

Como provar quando você não conhece a distribuição

Eu sou bastante novo em estatística (um punhado de cursos Uni de nível iniciante) e estava pensando em amostragem de distribuições desconhecidas. Especificamente, se você não tem idéia da distribuição subjacente, existe alguma maneira de "garantir" que você obtenha uma amostra...

distributions estimation sampling sample-size algorithms

9

Encontre pares próximos em um espaço dimensional muito alto com vetores esparsos

Eu tenho (~ um milhão) vetores de recursos. Existem (~ um milhão) recursos binários, mas em cada vetor apenas (~ mil) deles seria , o restante é . Estou procurando os pares de vetores que possuem pelo menos (~ cem) recursos em comum ( em ambos). O número de tais pares é de magnitude semelhante a (~...

algorithms high-dimensional

9

Como provar uma distribuição multinomial truncada?

Eu preciso de um algoritmo para provar uma distribuição multinomial truncada. Isso é, x⃗ ~ 1Zpx1 11 1... pxkkx1 1! … Xk!x→∼1Zp1x1…pkxkx1!…xk!\vec x \sim \frac{1}{Z} \frac{p_1^{x_1} \dots p_k^{x_k}}{x_1!\dots x_k!} onde é uma constante de normalização, tem componentes positivos e . Considero...

algorithms multinomial random-generation

8

Construção de recursos em R

Eu estou querendo saber se existem algoritmos (talvez algoritmos genéticos) em R para construção de recursos (derivados de preditores candidatos de preditores existentes)? Estou pensando em uma rotina para testar potências, interações, proporções e combinações lineares de ordem superior e funções...

r machine-learning feature-construction genetic-algorithms

8

Em que tarefas a neuroevolução supera a aplicação básica de redes neurais ou algoritmos genéticos?

Houve um interesse recente em combinar algoritmos genéticos e redes neurais em uma estrutura geral de neuroevolução. A idéia básica é que seu algoritmo genético esteja evoluindo os parâmetros de muitas redes neurais que são usadas para resolver sua tarefa em questão. Uma espécie de programação...

neural-networks genetic-algorithms

8

Uma maneira mais simples de calcular a média móvel ponderada exponencialmente?

Método proposto: Dada uma série temporal , quero calcular uma média móvel ponderada com uma janela média de pontos, em que as ponderações favorecem valores mais recentes que valores mais antigos. NxEuxix_iNNN Ao escolher os pesos, estou usando o fato familiar de que uma série geométrica converge...

time-series forecasting algorithms weighted-mean

8

Como comparar estatisticamente dois algoritmos em três conjuntos de dados na seleção e classificação de recursos?

Antecedentes do problema: Como parte da minha pesquisa, escrevi dois algoritmos que podem selecionar um conjunto de recursos de um conjunto de dados (dados de expressão gênica de pacientes com câncer). Esses recursos são então testados para ver quão bem eles podem classificar uma amostra invisível...

machine-learning statistical-significance computational-statistics standardization genetic-algorithms

8

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

8

Como executar SVD para atribuir valores ausentes, um exemplo concreto

Eu li os ótimos comentários sobre como lidar com valores ausentes antes de aplicar o SVD, mas gostaria de saber como ele funciona com um exemplo simples: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada a matriz acima, se eu remover os valores de NA, acabarei...

r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning