Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma
Qual é a diferença entre Outlier e Anomaly no contexto de aprendizado de máquina. Meu entendimento é que os dois se referem à mesma
Em Kahneman e Deaton (2010) † , os autores escrevem o seguinte:††^\dagger Essa regressão explica 37% da variância, com um erro quadrático médio da raiz (RMSE) de 0,67852. Para eliminar discrepâncias e relatórios de renda implausíveis, retiramos observações nas quais o valor absoluto da diferença...
Eu tenho um conjunto de dados supondo que os vizinhos mais próximos são os melhores preditores. Apenas um exemplo perfeito de gradiente bidirecional visualizado- Suponha que tenhamos um caso em que faltam poucos valores, podemos prever facilmente com base em vizinhos e tendências. Matriz de...
Estou tentando separar dois grupos de valores de um único conjunto de dados. Eu posso assumir que uma das populações está normalmente distribuída e tem pelo menos metade do tamanho da amostra. Os valores do segundo são mais baixos ou mais altos que os valores do primeiro (a distribuição é...
Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras...
Tenho uma série temporal diária bastante previsível com sazonalidade semanal. Sou capaz de apresentar previsões que parecem bastante precisas (confirmadas pela validação cruzada) quando não há feriados. No entanto, quando há feriados, tenho os seguintes problemas: Na minha previsão, recebo...
Preciso obter um valor o mais preciso possível para o brilho de uma fonte de luz principalmente estável, dados os doze valores de luminosidade da amostra. O sensor é imperfeito, e a luz pode ocasionalmente "piscar" mais brilhante ou mais escura, o que pode ser ignorado, daí a minha necessidade de...
Estou tentando detectar valores anômalos em uma série temporal de dados climáticos com algumas observações ausentes. Pesquisando na web, encontrei muitas abordagens disponíveis. Dessas, a decomposição do stl parece atraente, no sentido de remover componentes de tendência e sazonais e estudar o...
Nota: esta pergunta é um repost, pois minha pergunta anterior teve que ser excluída por razões legais. Ao comparar o PROC MIXED do SAS com a função lmedo nlmepacote no R, deparei-me com algumas diferenças bastante confusas. Mais especificamente, os graus de liberdade nos diferentes testes...
Estou trabalhando em estatísticas para compilações de software. Eu tenho dados para cada build em aprovação / reprovação e tempo decorrido e geramos ~ 200 deles / semana. A taxa de sucesso é fácil de agregar, posso dizer que 45% passaram em uma determinada semana. Mas também gostaria de agregar...
Encontrei muitos artigos que afirmam que os métodos de aumento são sensíveis a valores discrepantes, mas nenhum artigo explica o porquê. Na minha experiência, os valores extremos são ruins para qualquer algoritmo de aprendizado de máquina, mas por que os métodos de aumento são particularmente...
Estou escrevendo um script que analisa os tempos de execução dos processos. Não tenho certeza de sua distribuição, mas quero saber se um processo é executado "muito longo". Até agora, eu tenho usado três desvios padrão dos últimos tempos de execução (n> 30), mas me disseram que isso não fornece...
Eu estou usando o estimador usual para , mas eu noto que mesmo pequenas outliers 'em minha distribuição empírica, isto é, pequenos picos muito longe do centro, afetá-lo tremendamente. Existe um estimador de curtose mais
Estou fazendo pesquisas no campo da resposta funcional dos ácaros. Gostaria de fazer uma regressão para estimar os parâmetros (taxa de ataque e tempo de manipulação) da função Rogers tipo II. Eu tenho um conjunto de dados de medidas. Como posso determinar melhor os valores discrepantes? Para minha...
Eu tenho uma regressão logística de interceptação aleatória (devido a medições repetidas) e gostaria de fazer alguns diagnósticos, especificamente sobre discrepâncias e observações influentes. Eu olhei para resíduos para ver se há observações que se destacam. Mas também gostaria de ver algo como...
A regressão pode ser usada para detecção externa. Entendo que existem maneiras de melhorar um modelo de regressão removendo os valores discrepantes. Mas o objetivo principal aqui não é ajustar um modelo de regressão, mas descobrir níveis usando
Como o título diz, alguém conhece um livro bom e atualizado que cubra o pré-processamento de dados em geral e, especialmente, em técnicas de detecção fora de série? O livro não precisa se concentrar exclusivamente nisso, mas deve lidar exaustivamente com os tópicos acima mencionados - eu não...
Qual é a melhor maneira de selecionar automaticamente os recursos para detecção de anomalias? Eu normalmente trato a Detecção de Anomalias como um algoritmo em que os recursos são selecionados por especialistas humanos: o que importa é o intervalo de saída (como em "entrada anormal - saída...
Estou tentando automatizar a detecção de outlier em séries temporais e usei uma modificação da solução proposta por Rob Hyndman aqui . Digamos, eu avalio as visitas diárias a um site de vários países. Para alguns países onde as visitas diárias são de algumas centenas ou milhares, meu método parece...
Preciso escrever um programa para encontrar o ponto GPS médio de uma população de pontos. Na prática, acontece o seguinte: Todo mês, uma pessoa registra um ponto GPS do mesmo ativo estático. Devido à natureza do GPS, esses pontos diferem ligeiramente a cada mês. Às vezes, a pessoa comete um erro...