Estatísticas e Big Data

40

Intervalo de confiança para mediana

Eu tenho que encontrar um IC de 95% na mediana e outros percentis. Não sei como abordar isso. Eu uso principalmente R como uma ferramenta de

r confidence-interval median

40

Como ler os gráficos de distância de Cook?

Alguém sabe como descobrir se os pontos 7, 16 e 29 são pontos influentes ou não? Li em algum lugar que, como a distância de Cook é menor que 1, eles não são. Estou certo?

r regression residuals diagnostic cooks-distance

40

Como a centralização dos dados se livra da interceptação na regressão e no PCA?

Eu continuo lendo sobre instâncias em que centralizamos os dados (por exemplo, com regularização ou PCA) para remover a interceptação (conforme mencionado nesta pergunta ). Eu sei que é simples, mas estou tendo dificuldades para entender isso intuitivamente. Alguém poderia fornecer a intuição ou...

regression pca centering

40

Como tirar conclusões válidas do “big data”?

"Big data" está em toda parte na mídia. Todo mundo diz que "big data" é algo importante para 2012, por exemplo, o KDNuggets faz pesquisas sobre tópicos importantes para 2012 . No entanto, tenho profundas preocupações aqui. Com o big data, todo mundo parece feliz apenas em conseguir alguma coisa ....

data-mining dataset large-data validation

40

Como determinar componentes principais significativos usando o bootstrapping ou a abordagem de Monte Carlo?

Estou interessado em determinar o número de padrões significativos provenientes de uma Análise de Componentes Principais (PCA) ou de Função Ortogonal Empírica (EOF). Estou particularmente interessado em aplicar esse método aos dados climáticos. O campo de dados é uma matriz MxN, com M sendo a...

r pca bootstrap monte-carlo

40

Como apresentar os resultados de um laço usando glmnet?

Gostaria de encontrar preditores para uma variável dependente contínua de um conjunto de 30 variáveis independentes. Estou usando a regressão Lasso conforme implementada no pacote glmnet em R. Aqui está um código fictício: # generate a dummy dataset with 30 predictors (10 useful & 20...

r multiple-regression lasso glmnet communication

40

Considere a soma de

Eu estive pensando sobre isso por um tempo; Acho um pouco estranho o quão abruptamente isso acontece. Basicamente, por que precisamos de apenas três uniformes para que o ZnZnZ_n seja mais suave? E por que a suavização ocorre com tanta rapidez? Z2Z2Z_2 : Z3Z3Z_3 : (imagens descaradamente...

normal-distribution mathematical-statistics uniform central-limit-theorem

40

Recordação e precisão na classificação

Eu li algumas definições de recall e precisão, embora isso ocorra sempre no contexto da recuperação de informações. Eu queria saber se alguém poderia explicar isso um pouco mais em um contexto de classificação e talvez ilustrar alguns exemplos. Digamos, por exemplo, que eu tenha um classificador...

machine-learning metric

40

Como derivar a solução de regressão de crista?

Estou tendo alguns problemas com a derivação da solução para regressão de crista. Conheço a solução de regressão sem o termo de regularização: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Porém, após adicionar o termo L2 à função cost, como é que a solução se...

regression least-squares regularization ridge-regression

40

Efeito de supressão na regressão: definição e explicação / representação visual

O que é uma variável supressora na regressão múltipla e quais podem ser as maneiras de exibir visualmente o efeito da supressão (sua mecânica ou sua evidência nos resultados)? Eu gostaria de convidar todos que têm um pensamento para

multiple-regression data-visualization geometry suppressor

40

Aviso em R - a aproximação do qui-quadrado pode estar incorreta

Tenho dados que mostram os resultados dos exames de admissão de bombeiros. Estou testando a hipótese de que os resultados dos exames e a etnia não são mutuamente independentes. Para testar isso, fiz um teste do qui-quadrado de Pearson em R. Os resultados mostram o que eu esperava, mas deu um aviso...

r categorical-data chi-squared small-sample error-message

40

Relações entre

Digamos que eu tenha duas matrizes unidimensionais, uma1a1a_1 e uma2a2a_2 . Cada um contém 100 pontos de dados. uma1a1a_1 são os dados reais, e uma2a2a_2 é a previsão do modelo. Nesse caso, o valor de R2R2R^2 seria: R2= 1 - SSr e sSSt o t ( 1 ) .R2=1−SSresSStot (1). R^2 = 1 -...

correlation r-squared

40

Um bayesiano admitiria que existe um valor de parâmetro fixo?

Na análise de dados bayesianos, os parâmetros são tratados como variáveis aleatórias. Isso decorre da conceitualização subjetiva bayesiana de probabilidade. Mas os bayesianos reconhecem teoricamente que existe um verdadeiro valor de parâmetro fixo no 'mundo real?' Parece que a resposta óbvia é...

probability bayesian parameterization

40

Regra geral para o número de amostras de bootstrap

Gostaria de saber se alguém conhece alguma regra geral relativa ao número de amostras de bootstrap que se deve usar, com base nas características dos dados (número de observações, etc.) e / ou nas variáveis

bootstrap inference monte-carlo

40

O que o desvio padrão nos diz na distribuição não normal

Em uma distribuição normal, a regra 68-95-99.7 dá muito significado ao desvio padrão, mas o que o desvio padrão significaria em uma distribuição não normal (multimodal ou distorcida)? Todos os valores de dados ainda estão dentro de 3 desvios padrão? Temos regras como a 68-95-99.7 para distribuições...

normal-distribution standard-deviation skewness

40

Clustering dinâmico de distorção do tempo

Qual seria a abordagem para usar o Dynamic Time Warping (DTW) para executar o agrupamento de séries temporais? Eu li sobre o DTW como uma maneira de encontrar semelhança entre duas séries temporais, enquanto elas poderiam ser alteradas no tempo. Posso usar esse método como uma medida de...

time-series clustering

40

Quando usar simulações?

Portanto, esta é uma pergunta muito simples e estúpida. No entanto, quando eu estava na escola, prestei muito pouca atenção a todo o conceito de simulações em sala de aula e isso me deixou um pouco aterrorizado com esse processo. Você pode explicar o processo de simulação em termos leigos? (pode...

simulation

40

Por que a função sigmóide em vez de qualquer outra coisa?

Por que a função sigmóide padrão de fato, , é tão popular em redes neurais (não profundas) e em regressão logística?1 11 + e- x1 11 1+e-x\frac{1}{1+e^{-x}} Por que não usamos muitas das outras funções deriváveis, com tempo de computação mais rápido ou decaimento mais lento (para que o gradiente de...

logistic neural-networks least-squares

40

Diferença entre floresta aleatória e árvores extremamente aleatórias

Entendi que Floresta Aleatória e Árvores Extremamente Aleatórias diferem no sentido de que as divisões das árvores na Floresta Aleatória são determinísticas, enquanto que são aleatórias no caso de Árvores Extremamente Aleatórias (para ser mais preciso, a próxima divisão é a melhor divisão entre...

machine-learning correlation references random-forest

40

Como a função de ativação retilínea resolve o problema do gradiente de fuga nas redes neurais?

Encontrei a unidade linear retificada (ReLU) elogiada em vários locais como uma solução para o problema do gradiente de fuga para redes neurais. Ou seja, usa-se max (0, x) como função de ativação. Quando a ativação é positiva, é óbvio que isso é melhor do que, digamos, a função de ativação...

machine-learning neural-networks deep-learning gradient-descent