Estatísticas e Big Data

10

Provas de nível de graduação do teorema de Pitman – Koopman – Darmois

O teorema de Pitman – Koopman – Darmois diz que se uma amostra de uma família parametrizada de distribuições de probabilidade admite uma estatística suficiente cujo número de componentes escalares não cresce com o tamanho da amostra, então é uma família exponencial. Algum livro didático ou...

mathematical-statistics references

10

Quando não posso substituir uma variável aleatória por sua média?

Uma simplificação frequente na modelagem e simulação é substituir uma variável aleatória pelo seu valor médio. Quando essa simplificação levaria à conclusão

modeling mean random-variable

10

Como o limite de probabilidade de um classificador pode ser ajustado no caso de várias classes? [duplicado]

Esta pergunta já tem uma resposta aqui : Como limiar a previsão de probabilidade multiclasse para obter matriz de confusão? (1 resposta) Fechado há 3 meses . O exemplo acima é um exemplo muito simples de ter uma saída do classificador de probabilidade para um...

probability classification precision-recall multi-class

10

O que é programação probabilística?

No ano passado, tenho ouvido muito sobre estruturas de Programação Probabilística (PP), como PyMC3 e Stan , e quão bom é o PP. E hoje, alguém compartilhou este link comigo: Pyro: uma linguagem de programação probabilística profunda No entanto, eu realmente não sigo o que há de especial, pois...

bayesian modeling inference software

10

Prova fácil de ?

Seja sejam variáveis aleatórias normais padrão independentes. Existem muitas (longas) provas por aí, mostrando queZ1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} Muitas provas são...

mathematical-statistics sampling

10

É o teorema do contraste relativo de Beyer et al. artigo: “Sobre o comportamento surpreendente das métricas de distância no espaço de alta dimensão” enganoso?

Isso é citado com muita frequência ao mencionar a maldição da dimensionalidade e vai (fórmula à direita chamada contraste relativo) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var}...

machine-learning distance-functions high-dimensional

10

Por que os recursos aleatórios de Fourier não são negativos?

Os recursos aleatórios de Fourier fornecem aproximações às funções do kernel. Eles são usados para vários métodos de kernel, como SVMs e processos gaussianos. Hoje, tentei usar a implementação do TensorFlow e obtive valores negativos para metade dos meus recursos. Pelo que entendi, isso não...

machine-learning kernel-smoothing feature-construction tensorflow fourier-transform

10

B-Splines VS polinômios de alta ordem em regressão

Não tenho um exemplo ou tarefa específica em mente. Eu sou apenas novo no uso de splines-b e queria entender melhor essa função no contexto de regressão. Vamos supor que queremos avaliar a relação entre a variável resposta e alguns preditores x 1 , x 2 , . . . , x p . Os preditores incluem algumas...

regression multiple-regression splines polynomial penalized

10

O Paradox de Simpson cobre todas as instâncias de reversão de uma variável oculta?

A seguir, é apresentada uma pergunta sobre as muitas visualizações oferecidas como 'prova por imagem' da existência do paradoxo de Simpson e, possivelmente, uma pergunta sobre terminologia. O Paradoxo de Simpson é um fenômeno bastante simples para descrever e fornecer exemplos numéricos (a razão...

mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

10

ARIMA vs Kalman filter - como eles estão relacionados

Quando comecei a ler sobre o filtro Kalman, pensei que fosse um caso especial do modelo ARIMA (ou seja, ARIMA (0,1,1)). Mas, na verdade, parece que a situação é mais complicada. Primeiro, o ARIMA pode ser usado para previsão e o filtro Kalman é para filtragem. Mas eles não estão intimamente...

time-series bayesian arima kalman-filter

10

Adicionar um preditor de regressão linear diminui R ao quadrado

Meu conjunto de dados ( ) possui uma variável dependente (DV), cinco variáveis independentes "de linha de base" (P1, P2, P3, P4, P5) e uma variável independente de interesse (Q).N≈10,000N≈10,000N \approx 10,000 Executei regressões lineares OLS para os dois modelos a seguir: DV ~ 1 + P1 + P2 +...

regression linear r-squared

10

Métodos de inicialização do cluster K-means

Estou interessado no estado da arte atual para selecionar sementes iniciais (centros de cluster) para K-means. O Google leva a duas opções populares: seleção aleatória de sementes iniciais e, usando a técnica de seleção KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: As vantagens da...

clustering k-means

10

Por que um estimador é considerado uma variável aleatória?

Meu entendimento sobre o que é um estimador e uma estimativa: Estimador: uma regra para calcular uma estimativa Estimativa: O valor calculado a partir de um conjunto de dados com base no estimador Entre esses dois termos, se for solicitado que eu aponte a variável aleatória, eu diria que a...

mathematical-statistics inference random-variable estimators

10

KL Perda com uma unidade Gaussiana

Estou implementando um VAE e notei duas implementações diferentes on-line da divergência simplificada univariada de KL gaussiana. A divergência original conforme aqui é Se assumirmos que nosso prior é uma unidade gaussiana, ou seja, e , isso simplifica para E aqui é onde está minha confusão....

inference kullback-leibler autoencoders variational-bayes

10

Se a soma das probabilidades de eventos é igual à probabilidade de sua união, isso implica que os eventos são disjuntos?

Axiomaticamente, probabilidade é uma função que atribui um número real P ( A ) a cada evento A se satisfizer as três suposições fundamentais (suposições de Kolmogorov):PPPP( A )P(A)P(A)UMAAA P( A ) ≥ 0 para cada A P(A)≥0 for everyAP(A) \geq 0 \ \text{for every} A P( Ω ) = 1P(Ω)=1P(\Omega) =...

probability kolmogorov-axioms

10

Relação entre LASSO e

Meu entendimento da regressão do LASSO é que os coeficientes de regressão são selecionados para resolver o problema de minimização: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t Na prática, isso é feito usando um multiplicador de...

optimization lasso regularization lagrange-multipliers

10

Quando não usar a validação cruzada?

Ao ler o site, muitas respostas sugerem que a validação cruzada deve ser feita em algoritmos de aprendizado de máquina. No entanto, ao ler o livro "Entendendo o aprendizado de máquina", vi um exercício que às vezes é melhor não usar a validação cruzada. Estou realmente confuso. Quando o algoritmo...

machine-learning self-study cross-validation

10

A suposição de linearidade na regressão linear é apenas uma definição de

Estou revisando a regressão linear. O livro de Greene declara: Agora, é claro que haverá outras suposições no modelo de regressão linear, como E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0 . Essa suposição combinada com a suposição de linearidade (que na verdade define ϵϵ\epsilon ) coloca a estrutura...

econometrics linear-model assumptions causality definition

10

Como posso desenhar um valor aleatoriamente a partir de uma estimativa de densidade do kernel?

Tenho algumas observações e quero imitar a amostragem com base nessas observações. A partir do momento em que o CDF é capturado, o CDF é transferido para o CDF e o CDF é transferido para o CDF, o que significa que o CDF pode ser usado como um arquivo não-paramétrico, para facilitar a estimativa de...

sampling matlab kernel-smoothing density-estimation

10

Probabilidades condicionais - elas são exclusivas do bayesianismo?

Eu me pergunto se as probabilidades condicionais são exclusivas do bayesianismo, ou se são mais um conceito geral que é compartilhado entre várias escolas de pensamento entre estatistas / probabilidades. Eu meio que suponho que sim, porque eu assumo que ninguém pode é meio lógico, então eu acho...

bayesian conditional-probability