Perguntas com a marcação «outliers»

13

Diferença entre Anomalia e Outlier

Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma

outliers terminology anomaly-detection

13

Eliminando valores discrepantes com base em "2,5 vezes o RMSE"

Em Kahneman e Deaton (2010) † , os autores escrevem o seguinte:††^\dagger Essa regressão explica 37% da variância, com um erro quadrático médio da raiz (RMSE) de 0,67852. Para eliminar discrepâncias e relatórios de renda implausíveis, retiramos observações nas quais o valor absoluto da diferença...

regression outliers

13

usando informações de vizinhos em dados de imputação ou localizando dados externos (em R)

Eu tenho um conjunto de dados supondo que os vizinhos mais próximos são os melhores preditores. Apenas um exemplo perfeito de gradiente bidirecional visualizado- Suponha que tenhamos um caso em que faltam poucos valores, podemos prever facilmente com base em vizinhos e tendências. Matriz de...

r prediction outliers data-imputation multiple-imputation

13

Separando duas populações da amostra

Estou tentando separar dois grupos de valores de um único conjunto de dados. Eu posso assumir que uma das populações está normalmente distribuída e tem pelo menos metade do tamanho da amostra. Os valores do segundo são mais baixos ou mais altos que os valores do primeiro (a distribuição é...

dataset outliers expectation-maximization

13

LARS vs descida coordenada para o laço

Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras...

regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

12

Como contabilizar o impacto das férias na previsão

Tenho uma série temporal diária bastante previsível com sazonalidade semanal. Sou capaz de apresentar previsões que parecem bastante precisas (confirmadas pela validação cruzada) quando não há feriados. No entanto, quando há feriados, tenho os seguintes problemas: Na minha previsão, recebo...

time-series forecasting arima outliers

12

Detecção de outlier em conjuntos muito pequenos

Preciso obter um valor o mais preciso possível para o brilho de uma fonte de luz principalmente estável, dados os doze valores de luminosidade da amostra. O sensor é imperfeito, e a luz pode ocasionalmente "piscar" mais brilhante ou mais escura, o que pode ser ignorado, daí a minha necessidade de...

classification outliers algorithms

12

STL em séries temporais com valores ausentes para detecção de anomalias

Estou tentando detectar valores anômalos em uma série temporal de dados climáticos com algumas observações ausentes. Pesquisando na web, encontrei muitas abordagens disponíveis. Dessas, a decomposição do stl parece atraente, no sentido de remover componentes de tendência e sazonais e estudar o...

r time-series outliers missing-data

12

Diferenças entre PROC Mixed e lme / lmer em R - graus de liberdade

Nota: esta pergunta é um repost, pois minha pergunta anterior teve que ser excluída por razões legais. Ao comparar o PROC MIXED do SAS com a função lmedo nlmepacote no R, deparei-me com algumas diferenças bastante confusas. Mais especificamente, os graus de liberdade nos diferentes testes...

r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

12

Boa forma de remover valores discrepantes?

Estou trabalhando em estatísticas para compilações de software. Eu tenho dados para cada build em aprovação / reprovação e tempo decorrido e geramos ~ 200 deles / semana. A taxa de sucesso é fácil de agregar, posso dizer que 45% passaram em uma determinada semana. Mas também gostaria de agregar...

outliers robust average

12

por que o método de reforço é sensível a valores discrepantes

Encontrei muitos artigos que afirmam que os métodos de aumento são sensíveis a valores discrepantes, mas nenhum artigo explica o porquê. Na minha experiência, os valores extremos são ruins para qualquer algoritmo de aprendizado de máquina, mas por que os métodos de aumento são particularmente...

machine-learning svm outliers cart boosting

11

Quão preciso é o IQR para detectar valores extremos

Estou escrevendo um script que analisa os tempos de execução dos processos. Não tenho certeza de sua distribuição, mas quero saber se um processo é executado "muito longo". Até agora, eu tenho usado três desvios padrão dos últimos tempos de execução (n> 30), mas me disseram que isso não fornece...

outliers reliability average

11

Estimativa robusta da curtose?

Eu estou usando o estimador usual para , mas eu noto que mesmo pequenas outliers 'em minha distribuição empírica, isto é, pequenos picos muito longe do centro, afetá-lo tremendamente. Existe um estimador de curtose mais

outliers robust moments kurtosis

11

Identificação de outliers para regressão não linear

Estou fazendo pesquisas no campo da resposta funcional dos ácaros. Gostaria de fazer uma regressão para estimar os parâmetros (taxa de ataque e tempo de manipulação) da função Rogers tipo II. Eu tenho um conjunto de dados de medidas. Como posso determinar melhor os valores discrepantes? Para minha...

r outliers nonlinear-regression

11

Modelos mistos lineares generalizados: diagnóstico

Eu tenho uma regressão logística de interceptação aleatória (devido a medições repetidas) e gostaria de fazer alguns diagnósticos, especificamente sobre discrepâncias e observações influentes. Eu olhei para resíduos para ver se há observações que se destacam. Mas também gostaria de ver algo como...

mixed-model outliers glmm cooks-distance

11

Detecção de outlier usando regressão

A regressão pode ser usada para detecção externa. Entendo que existem maneiras de melhorar um modelo de regressão removendo os valores discrepantes. Mas o objetivo principal aqui não é ajustar um modelo de regressão, mas descobrir níveis usando

regression outliers

11

Bons livros sobre técnicas de pré-processamento de dados e detecção de outlier

Como o título diz, alguém conhece um livro bom e atualizado que cubra o pré-processamento de dados em geral e, especialmente, em técnicas de detecção fora de série? O livro não precisa se concentrar exclusivamente nisso, mas deve lidar exaustivamente com os tópicos acima mencionados - eu não...

dataset data-mining references outliers

11

Seleção automática de recursos para detecção de anomalias

Qual é a melhor maneira de selecionar automaticamente os recursos para detecção de anomalias? Eu normalmente trato a Detecção de Anomalias como um algoritmo em que os recursos são selecionados por especialistas humanos: o que importa é o intervalo de saída (como em "entrada anormal - saída...

feature-selection outliers

11

Detecção de Outlier em Séries Temporais: Como reduzir falsos positivos?

Estou tentando automatizar a detecção de outlier em séries temporais e usei uma modificação da solução proposta por Rob Hyndman aqui . Digamos, eu avalio as visitas diárias a um site de vários países. Para alguns países onde as visitas diárias são de algumas centenas ou milhares, meu método parece...

time-series outliers computational-statistics

11

Encontrar o ponto GPS médio

Preciso escrever um programa para encontrar o ponto GPS médio de uma população de pontos. Na prática, acontece o seguinte: Todo mês, uma pessoa registra um ponto GPS do mesmo ativo estático. Devido à natureza do GPS, esses pontos diferem ligeiramente a cada mês. Às vezes, a pessoa comete um erro...

outliers spatial