O paradoxo dos dados iid (pelo menos para mim)

Na medida em que meu conhecimento agregado (e escasso) sobre estatística permite, entendi que se são suas variáveis aleatórias, como o termo implica, elas são independentes e distribuídas de forma idêntica. $X_1, X_2,..., X_n$

Minha preocupação aqui é a antiga propriedade das amostras de iid, que diz:

p (X_{n} | X_{i_{1}}, X_{i_{2}}, . . ., X_{i_{k}}) = p (X_{n}),

$p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}),$

para qualquer coleção de st diferente de . $i_j$ $1 \leq i_j < n$

No entanto, sabe-se que o agregado de amostras independentes de distribuições idênticas fornece informações sobre a estrutura de distribuição e, como resultado, sobre no caso acima; portanto, não deve ser o caso em que: $X_n$

p (X_{n} | X_{i_{1}}, X_{i_{2}}, . . ., X_{i_{k}}) = p (X_{n}) .

$p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}).$

Sei que sou vítima de falácia, mas não sei por quê. Por favor me ajude neste.

sampling conditional-probability independence Cupitor
fonte

Você conhece o governo de Bayes? Ouvi falar de clássicos. vs estatísticas bayesianas? Priores?

Matthew Gunn

Não sigo o argumento no final da sua pergunta. Você pode ser mais explícito?

Glen_b -Reinstala Monica

@Glen_b o que é exatamente o que você não segue? O que você quer dizer com final? Estou tentando dizer, com diferentes lógicas, que tanto a igualdade quanto a desigualdade parecem plausíveis, o que é um paradoxo.

Cupitor

Não há paradoxo aqui - apenas uma falha na aplicação das definições apropriadas. Você não pode alegar ter um paradoxo quando ignora o significado das palavras que usa! Nesse caso, comparar a definição de independente com a de probabilidade revelará o erro.

whuber

@whuber, suponho que você tenha notado o explícito "(pelo menos para mim)" no título da minha pergunta e também o fato de pedir ajuda para encontrar a "falácia" do meu argumento, o que aponta para o fato de que isso de fato não é um verdadeiro paradoxo.

Cupitor

Respostas:

Eu acho que você está confundindo um modelo estimado de uma distribuição com uma variável aleatória . Vamos reescrever a suposição de independência da seguinte maneira: que diz que se você conhece a distribuição subjacente de (e, por exemplo, pode identificá-la por um conjunto de parâmetros ), a distribuição não muda, pois você observou algumas amostras dela.

\begin{matrix} (1) & P (X_{n} | θ, X_{{Eu}_{1}}, X_{{Eu}_{2}}, ..., X_{{Eu}_{k}}) = P (X_{n} | θ) \end{matrix}

$P(X_n | \theta, X_{i_1}, X_{i_2}, \dots, X_{i_k}) = P(X_n | \theta) \tag{1}$ $X_n$

θ

$\theta$

Por exemplo, pense em como a variável aleatória que representa o resultado do ésimo lançamento de uma moeda. Conhecer a probabilidade de cabeça e cauda da moeda (que, suponha, está codificada em ) é suficiente para conhecer a distribuição de . Em particular, o resultado dos lançamentos anteriores não altera a probabilidade de cabeça ou cauda para o ésimo lançamento e vale. $X_n$ $n$ $\theta$ $X_n$ $n$ $(1)$

Observe, no entanto, que . $P(\theta | X_n) \neq P(\theta | X_{i_1}, X_{i_2}, \dots, X_{i_k})$

Sobi
fonte

Muito obrigado. Bem direto ao ponto. Muito engraçado que adivinhei tal resposta há um tempo atrás, mas esqueci-me disso ... Até onde eu entendo, a falácia é implicitamente assumir "um modelo" que pode parametrizar a distribuição da variável aleatória. Eu entendi direito?

Cupitor

@ Copit: Fico feliz que tenha sido útil. Sim, condicionadas ao modelo, as variáveis aleatórias independentes não se afetam. Mas, qual a probabilidade de uma determinada distribuição ter gerado uma sequência de mudanças nos resultados à medida que você vê mais amostras da distribuição (verdadeira) subjacente (independentemente da suposição de independência).

Sobi 13/12

Se você adotar uma abordagem bayesiana e tratar parâmetros que descrevem a distribuição de como uma variável / vetor aleatório, as observações realmente não são independentes, mas seriam condicionalmente independentes, dado o conhecimento de portanto, aguentaria. $X$ $\theta$ $P(X_n \mid X_{n-1}, \ldots X_1, \theta) = P(X_n \mid \theta)$

Em uma abordagem estatística clássica, não é uma variável aleatória. Os cálculos são feitos como se soubéssemos o que é . Em certo sentido, você está sempre condicionando (mesmo que não saiba o valor). $\theta$ $\theta$ $\theta$

Quando você escreveu "... forneça informações sobre a estrutura de distribuição e, como resultado, sobre ", você estava adotando implicitamente uma abordagem bayesiana, mas não exatamente. Você está escrevendo uma propriedade de amostras de IID que um frequentista escreveria, mas a declaração correspondente em uma configuração bayesiana envolveria condicionamento em . $X_n$ $\theta$

Estatísticos bayesianos vs. clássicos

Seja o resultado de lançar uma moeda desigual e injusta. Não sabemos a probabilidade da moeda cair na cara. $x_i$

Para o estatístico clássico, o frequentista é algum parâmetro, vamos chamá-lo . Observe que aqui é um escalar, como o número 1/3. Podemos não saber qual é o número, mas é algum número! É não aleatória! $P(x_i = H)$ $\theta$ $\theta$
Para o estatístico bayesiano, si é uma variável aleatória! Isto é extremamente diferente! $\theta$

A idéia principal aqui é que o estatístico bayesiano estende as ferramentas de probabilidade para situações em que o estatístico clássico não . Para o freqüentador, não é uma variável aleatória porque possui apenas um valor possível ! Vários resultados não são possíveis! Porém, na imaginação bayesiana, vários valores de são possíveis, e o bayesiano está disposto a modelar essa incerteza (em sua própria mente) usando as ferramentas da probabilidade. $\theta$ $\theta$

Para onde isso vai?

Digamos que jogamos a moeda vezes. Um flip não afeta o resultado do outro. O estatístico clássico chamaria esses flips independentes (e de fato são). Teremos: Onde é desconhecido parâmetro. (Lembre-se, nós não sabemos o que é, mas é não uma variável aleatória! É algum número.) $n$

P (x_{n} = H ∣ x_{n - 1}, x_{n - 2}, ..., x_{1}) = P (x_{n} = H) = θ

$P(x_n=H \mid x_{n-1}, x_{n-2}, \ldots,x_{1}) = P(x_n=H) = \theta$

θ

$\theta$

Um bayesiano profundamente envolvido na probabilidade subjetiva diria que o que importa é a probabilidade da perspectiva dela! . Se ela vê 10 cabeças seguidas, uma 11ª cabeça é mais provável porque 10 cabeças seguidas levam a acreditar que a moeda é desequilibrada em favor das cabeças.

P (x_{11} = H ∣ x_{10} = H, x_{9} = H, ..., x_{1} = H) > P (x_{1} = H)

$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H) > P(x_1 = H)$

O que aconteceu aqui? O que está diferente?! Atualizando crenças sobre uma variável aleatória latente ! Se for tratado como uma variável aleatória, os flips não serão mais independentes. Mas, os flips são condicionalmente independentes, dado o valor de . $\theta$ $\theta$ $\theta$

P (x_{11} = H ∣ x_{10} = H, x_{9} = H, ..., x_{1} = H, θ) = P (x_{1} = H ∣ θ) = θ

$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H, \theta) = P(x_1 = H \mid \theta) = \theta$

Condicionar em em certo sentido, conecta como o estatístico bayesiano e o estatístico clássico modelam o problema. Ou, em outras palavras, o freqüentista e o estatístico bayesiano concordarão se as condições bayesianas se mantêm em . $\theta$ $\theta$

Notas adicionais

Eu tentei o meu melhor para dar uma breve introdução aqui, mas o que eu fiz é, na melhor das hipóteses, bastante superficial e os conceitos são, em certo sentido, bastante profundos. Se você quiser mergulhar na filosofia da probabilidade, o livro de Savage de 1954, Foundation of Statistics é um clássico. Google para bayesian vs. frequentist e uma tonelada de coisas surgirão.

Outra maneira de pensar sobre os desvios da IID é o teorema de Finetti e a noção de permutabilidade . Em uma estrutura bayesiana, a permutabilidade é equivalente à independência condicional em alguma variável aleatória latente (neste caso, a desigualdade da moeda).

Matthew Gunn
fonte

Em essência, a abordagem bayesiana trataria a afirmação "variáveis aleatórias da IID " não como um axioma de que elas devem ser IID, mas apenas como uma suposição prévia muito forte de que são - e se evidências ainda mais fortes sugerem que é extremamente improvável que o dado Se as premissas forem verdadeiras, essa "descrença nas condições dadas" será refletida nos resultados.

Peteris

Muito obrigado pela sua resposta completa. Tenho upvoted-lo, mas eu acho que a resposta de Sobi, aponta mais explicitamente onde as mentiras de problema, ou seja, assumindo implicitamente a estrutura do modelo (ou este é, tanto quanto eu entendi)

Cupitor

@ Matthew Gunn: limpo, completo e muito bem explicado! Aprendi algumas coisas com a sua resposta, obrigado!

Sobi 13/12/2015