Estatísticas e Big Data

8
algoritmo k-means ++ e valores discrepantes

É sabido que o algoritmo k-means sofre na presença de outliers. O k-means ++ é um método eficaz para a initalização do centro de cluster. Eu estava analisando o PPT pelos fundadores do método, Sergei Vassilvitskii e David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28),...

8
Existe alguma abordagem significativamente robusta para conduzir uma meta-análise de rede de estudos de precisão de testes de diagnóstico?

Antecedentes: Estou trabalhando em uma revisão sistemática, incluindo várias modalidades de imagem para doença arterial coronariana, mas a rede de evidências é bastante grande, incluindo diferentes modalidades, geralmente comparada entre si em uma ampla rede. A metanálise de rede é uma abordagem...

8
Entendendo que

Acabei de ver esta pergunta e a maravilhosa resposta aceita neste fórum. Fui então desencadeado para tentar entender intuitivamente por que a divisão de SxSySxSyS_xS_y está normalizando a covariância: COV( X, Y)SxSy∈ [ - 1 , 1 ]COV⁡(X,Y)SxSy∈[−1,1]\frac{\operatorname{COV}(X,Y)}{S_xS_y} \in...

8
Intuição na técnica de visualização t-SNE

Eu gerei uma visualização t-SNE de um conjunto de dados (cerca de 10 recursos numéricos padronizados (média = 0, sd = 1)) e cheguei a um gráfico bidimensional a seguir. Não tenho uma boa intuição de por que os pontos estão alinhados em uma espécie de grupos em forma de arco; veja, por exemplo, a...

8
Poisson xgboost com exposição

Eu estava tentando modelar uma variável dependente de contagem com exposição desigual. Glms clássicos usariam log (exposição) como deslocamento, também o gbm, mas o xgboost não permite o deslocamento até agora ... Tentando encontrar uma desvantagem neste exemplo em validação cruzada ( onde o...