Estatísticas e Big Data

10
O que é programação probabilística?

No ano passado, tenho ouvido muito sobre estruturas de Programação Probabilística (PP), como PyMC3 e Stan , e quão bom é o PP. E hoje, alguém compartilhou este link comigo: Pyro: uma linguagem de programação probabilística profunda No entanto, eu realmente não sigo o que há de especial, pois...

10
Prova fácil de ?

Seja sejam variáveis ​​aleatórias normais padrão independentes. Existem muitas (longas) provas por aí, mostrando queZ1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} Muitas provas são...

10
É o teorema do contraste relativo de Beyer et al. artigo: “Sobre o comportamento surpreendente das métricas de distância no espaço de alta dimensão” enganoso?

Isso é citado com muita frequência ao mencionar a maldição da dimensionalidade e vai (fórmula à direita chamada contraste relativo) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var}...

10
Métodos de inicialização do cluster K-means

Estou interessado no estado da arte atual para selecionar sementes iniciais (centros de cluster) para K-means. O Google leva a duas opções populares: seleção aleatória de sementes iniciais e, usando a técnica de seleção KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: As vantagens da...

10
Relação entre LASSO e

Meu entendimento da regressão do LASSO é que os coeficientes de regressão são selecionados para resolver o problema de minimização: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t Na prática, isso é feito usando um multiplicador de...