Estou tentando entender o que significa a suposição de observações independentes . Algumas definições são:
- "Dois eventos são independentes se e somente se ." ( Dicionário de Termos Estatísticos )
- "a ocorrência de um evento não altera a probabilidade de outro" ( Wikipedia ).
- "a amostragem de uma observação não afeta a escolha da segunda observação" ( David M. Lane ).
Um exemplo de observações dependentes que geralmente são dadas são os alunos aninhados nos professores, como abaixo. Vamos supor que os professores influenciam os alunos, mas os alunos não influenciam um ao outro.
Então, como essas definições são violadas para esses dados? A amostragem [nota = 7] para [aluno = 1] não afeta a distribuição de probabilidade da nota que será amostrada em seguida. (Ou faz? E se sim, então o que a observação 1 prevê em relação à próxima observação?)
Por que as observações seriam independentes se eu tivesse medido em gender
vez de teacher_id
? Eles não afetam as observações da mesma maneira?
teacher_id student_id grade
1 1 7
1 2 7
1 3 6
2 4 8
2 5 8
2 6 9
teacher
porgender
? O gênero está presente na maioria dos dados das ciências sociais e se correlaciona com quase tudo, até certo ponto.Respostas:
Na teoria das probabilidades, independência estatística (que não é a mesma que independência causal) é definida como sua propriedade (3), mas (1) segue como conseqüência . Os eventos A e B são considerados estatisticamente independentes se e somente se:† A B
Se , se segue o seguinte:P(B)>0
Isso significa que a independência estatística implica que a ocorrência de um evento não afeta a probabilidade do outro. Outra maneira de dizer isso é que a ocorrência de um evento não deve mudar suas crenças sobre o outro. O conceito de independência estatística é geralmente estendido de eventos a variáveis aleatórias de uma maneira que permite que declarações análogas sejam feitas para variáveis aleatórias, incluindo variáveis aleatórias contínuas (que têm probabilidade zero de qualquer resultado específico). O tratamento da independência para variáveis aleatórias envolve basicamente as mesmas definições aplicadas às funções de distribuição.
É crucial entender que a independência é uma propriedade muito forte - se os eventos são estatisticamente independentes, então (por definição) não podemos aprender sobre um observando o outro. Por esse motivo, os modelos estatísticos geralmente envolvem suposições de independência condicional , dadas algumas distribuições ou parâmetros subjacentes. A estrutura conceitual exata depende se alguém está usando métodos bayesianos ou métodos clássicos. O primeiro envolve dependência explícita entre valores observáveis, enquanto o último envolve uma forma implícita (complicada e sutil) de dependência. Compreender esse problema corretamente requer um pouco de entendimento das estatísticas clássica versus estatística bayesiana.
Os modelos estatísticos costumam dizer que usam uma suposição de que seqüências de variáveis aleatórias são "independentes e identicamente distribuídas (IID)". Por exemplo, você pode ter uma seqüência observável , o que significa que cada variável aleatória observável X i é normalmente distribuída com μ média e desvio padrão σX1,X2,X3,...∼IID N(μ,σ2) Xi μ σ . Cada uma das variáveis aleatórias na sequência é "independente" das outras, no sentido de que seu resultado não altera a distribuição declarada dos outros valores. Nesse tipo de modelo, usamos os valores observados da sequência para estimar os parâmetros no modelo e, por sua vez, podemos prever valores não observados da sequência. Isso envolve necessariamente o uso de alguns valores observados para aprender sobre os outros.
Estatísticas Bayesianas: Tudo é conceitualmente simples. Assume-se que são condicionalmente IID, dados os parâmetros μ e σ , e tratam esses parâmetros desconhecidos como variáveis aleatórias. Dada qualquer distribuição anterior não degenerada para esses parâmetros, os valores na sequência observável são (incondicionalmente) dependentes, geralmente com correlação positiva. Por isso, faz todo o sentido usarmos os resultados observados para prever resultados não observados mais tarde - eles são condicionalmente independentes, mas incondicionalmente dependentes.X1,X2,X3,... μ σ
Estatísticas clássicas: isso é bastante complicado e sutil. Assume-se que são IID dados os parâmetros μ e σX1,X2,X3,... μ σ , mas trate esses parâmetros como "constantes desconhecidas". Como os parâmetros são tratados como constantes, não há clara diferença entre independência condicional e incondicional nesse caso. No entanto, ainda usamos os valores observados para estimar os parâmetros e fazer previsões dos valores não observados. Portanto, usamos os resultados observados para prever resultados posteriores não observados, mesmo que eles sejam nocionalmente "independentes" um do outro. Essa aparente incongruência é discutida em detalhes em O'Neill, B. (2009) Exchangeability, Correlation and Bayes 'Effect. International Statistical Review 77 (2) , pp. 241 - 250 .
Aplicando isto a seus dados notas de alunos, você provavelmente modelo algo como isto, assumindo que
grade
é condicionalmente independente GIVENteacher_id
. Você usaria os dados para fazer inferências sobre a distribuição de notas de cada professor (o que não seria considerado o mesmo) e isso permitiria que você fizesse previsões sobre o desconhecidograde
de outro aluno. Como agrade
variável é usada na inferência, ela afetará suas previsões de qualquergrade
variável desconhecida para outro aluno. Substituirteacher_id
porgender
não altera isso; em ambos os casos, você tem uma variável que pode usar como um preditorgrade
.Se você usar o método bayesiano, terá uma suposição explícita de independência condicional e uma distribuição prévia das distribuições de notas dos professores, e isso levará a uma dependência incondicional (preditiva) de notas, permitindo que você use racionalmente uma nota na sua previsão de outra. Se você estiver usando estatísticas clássicas, terá uma suposição de independência (com base em parâmetros que são "constantes desconhecidas") e usará métodos de previsão estatística clássicos que permitem usar uma nota para prever outra.
Existem algumas apresentações fundamentais da teoria da probabilidade que definem a independência por meio da declaração de probabilidade condicional e, em seguida, fornecem a declaração de probabilidade conjunta como conseqüência. Isso é menos comum.†
fonte
Vamos por um k - dimensional vector aleatório, isto é, um conjunto de posição fixa de variáveis aleatórias (funções reais mensuráveis).x=(X1,...,Xj,...,Xk) k−
Considere muitos desses vectores, dizer , e o índice de estes vectores de i = 1 , . . . , N , então, dizern i=1,...,n
e considerá-los como um conjunto chamado "amostra",S=( x 1 ,..., x i ,..., x n ). Então chamamos cadak-
Vamos primeiro tratar o caso em que existe uma função de massa de probabilidade (PMF) ou uma função de densidade de probabilidade (PDF) e também articular essas funções. Denotado por o PMF conjunta ou PDF conjunta de cada vector aleatório, e f ( x 1 , . . . , X i , . . . , X n ) a PMF conjunta ou PDF conjunta de todos estes vectores em conjunto.fi(xi),i=1,...,n f(x1,...,xi,...,xn)
This means that the "observations" are "jointly independent", (in the statistical sense, or "independent in probability" as was the old saying that is still seen today sometimes). The habit is to simply call them "independent observations".
Note that the statistical independence property here is over the indexi , i.e. between observations. It is unrelated to what are the probabilistic/statistical relations between the random variables in each observation (in the general case we treat here where each observation is multidimensional).
Note also that in cases where we have continuous random variables with no densities, the above can be expressed in terms of the distribution functions.
This is what "independent observations" means. It is a precisely defined property expressed in mathematical terms. Let's see some of what it implies.
SOME CONSEQUENCES OF HAVING INDEPENDENT OBSERVATIONS
A. If two observations are part of a group of jointly independent observations, then they are also "pair-wise independent" (statistically),
This in turn implies that conditional PMF's/PDFs equal the "marginal" ones
This generalizes to many arguments, conditioned or conditioning, say
etc, as long as the indexes to the left are different to the indexes on the right of the vertical line.
This implies that if we actually observe one observation, the probabilities characterizing any other observation of the sample do not change. So as regards prediction, an independent sample is not our best friend. We would prefer to have dependence so that each observation could help us say something more about any other observation.
B. On the other hand, an independent sample has maximum informational content. Every observation, being independent, carries information that cannot be inferred, wholly or partly, by any other observation in the sample. So the sum total is maximum, compared to any comparable sample where there exists some statistical dependence between some of the observations. But of what use is this information, if it cannot help us improve our predictions?
Well, this is indirect information about the probabilities that characterize the random variables in the sample. The more these observations have common characteristics (common probability distribution in our case), the more we are in a better position to uncover them, if our sample is independent.
In other words if the sample is independent and "identically distributed", meaning
it is the best possible sample in order to obtain information about not only the common joint probability distributionf(x) , but also for the marginal distributions of the random variables that comprise each observation, say fj(xji) .
So even thoughf(xi∣xm)=fi(xi) , so zero additional predictive power as regards the actual realization of xi , with an independent and identically distributed sample, we are in the best position to uncover the functions fi (or some of its properties), i.e. the marginal distributions.
Therefore, as regards estimation (which is sometimes used as a catch-all term, but here it should be kept distinct from the concept of prediction), an independent sample is our "best friend", if it is combined with the "identically distributed" property.
C. It also follows that an independent sample of observations where each is characterized by a totally different probability distribution, with no common characteristics whatsoever, is as worthless a collection of information as one can get (of course every piece of information on its own is worthy, the issue here is that taken together these cannot be combined to offer anything useful). Imagine a sample containing three observations: one containing (quantitative characteristics of) fruits from South America, another containing mountains of Europe, and a third containing clothes from Asia. Pretty interesting information pieces all three of them -but together as a sample cannot do anything statistically useful for us.
Put in another way, a necessary and sufficient condition for an independent sample to be useful, is that the observations have some statistical characteristics in common. This is why, in Statistics, the word "sample" is not synonymous to "collection of information" in general, but to "collection of information on entities that have some common characteristics".
APPLICATION TO THE OP'S DATA EXAMPLE
Responding to a request from user @gung, let's examine the OP's example in light of the above. We reasonably assume that we are in a school with more than two teachers and more than six pupils. So a) we are sampling both pupilss and teachers, and b) we include in our data set the grade that corresponds to each teacher-pupil combination.
Namely, the grades are not "sampled", they are a consequence of the sampling we did on teachers and pupils. Therefore it is reasonable to treat the random variableG (=grade) as the "dependent variable", while pupils (P ) and teachers T are "explanatory variables" (not all possible explanatory variables, just some). Our sample consists of six observations which we write explicitly, S=(s1,...,s6) as
Under the stated assumption "pupils do not influence each other", we can consider thePi variables as independently distributed.
Under a non-stated assumption that "all other factors" that may influence the Grade are independent of each other, we can also consider the Gi variables to be independent of each other.T1,T2 as statistically independent between them.
Finally under a non-stated assumption that teachers do not influence each other, we can consider the variables
But irrespective of what causal/structural assumption we will make regarding the relation between teachers and pupils, the fact remains that observationss1,s2,s3 contain the same random variable (T1 ), while observations s4,s5,s6 also contains the same random variable (T2 ).
Note carefully the distinction between "the same random variable" and "two distinct random variables that have identical distributions".
So even if we assume that "teachers do NOT influence pupils", then still, our sample as defined above is not an independent sample, becauses1,s2,s3 are statistically dependent through T1 , while s4,s5,s6 are statistically dependent through T2 .
Assume now that we exclude the random variable "teacher" from our sample. Is the (Pupil, Grade) sample of six observations, an independent sample? Here, the assumptions we will make regarding what is the structural relationship between teachers, pupils, and grades does matter.
First, do teachers directly affect the random variable "Grade", through perhaps, different "grading attitudes/styles"? For exampleT1 may be a "tough grader" while T2 may be not. In such a case "not seeing" the variable "Teacher" does not make the sample independent, because it is now the G1,G2,G3 that are dependent, due to a common source of influence, T1 (and analogously for the other three).
But say that teachers are identical in that respect. Then under the stated assumption "teachers influence students" we have again that the first three observations are dependent with each other, because teachers influence pupils who influence grades, and we arrive at the same result, albeit indirectly in this case (and likewise for the other three). So again, the sample is not independent.
THE CASE OF GENDER
Now, let's make the (Pupil, Grade) six-observation sample "conditionally independent with respect to teacher" (see other answers) by assuming that all six pupils have in reality the same teacher. But in addition let's include in the sample the random variable "Ge =Gender" that traditionally takes two values (M,F ), while recently has started to take more. Our once again three-dimensional six-observation sample is now
Note carefully that what we included in the description of the sample as regards Gender, is not the actual value that it takes for each pupil, but the random variable "Gender". Look back at the beginning of this very long answer: the Sample is not defined as a collection of numbers (or fixed numerical or not values in general), but as a collection of random variables (i.e. of functions).
Now, does the gender of one pupil influences (structurally or statistically) the gender of the another pupil? We could reasonably argue that it doesn't. So from that respect, theGei variables are independent. Does the gender of pupil 1 , Ge1 , affects in some other way directly some other pupil (P2,P3,... )? Hmm, there are battling educational theories if I recall on the matter. So if we assume that it does not, then off it goes another possible source of dependence between observations. Finally, does the gender of a pupil influence directly the grades of another pupil? if we argue that it doesn't, we obtain an independent sample (conditional on all pupils having the same teacher).
fonte
The definitions of statistical independence that you give in your post are all essentially correct, but they don't get to the heart of the independence assumption in a statistical model. To understand what we mean by the assumption of independent observations in a statistical model, it will be helpful to revisit what a statistical model is on a conceptual level.
Statistical models as approximations to "nature's dice"
Let's use a familiar example: we collect a random sample of adult humans (from a well-defined population--say, all adult humans on earth) and we measure their heights. We wish to estimate the population mean height of adult humans. To do this, we construct a simple statistical model by assuming that people's heights arise from a normal distribution.
Our model will be a good one if a normal distribution provides a good approximation to how nature "picks" heights for people. That is, if we simulate data under our normal model, does the resulting dataset closely resemble (in a statistical sense) what we observe in nature? In the context of our model, does our random-number generator provide a good simulation of the complicated stochastic process that nature uses to determine the heights of randomly selected human adults ("nature's dice")?
The independence assumption in a simple modeling context
When we assumed that we could approximate "nature's dice" by drawing random numbers from a normal distribution, we didn't mean that we would draw a single number from the normal distribution, and then assign that height to everybody. We meant that we would independently draw numbers for everybody from the same normal distribution. This is our independence assumption.
Imagine now that our sample of adults wasn't a random sample, but instead came from a handful of families. Tallness runs in some families, and shortness runs in others. We've already said that we're willing to assume that the heights of all adults come from one normal distribution. But sampling from the normal distribution wouldn't provide a dataset that looks much like our sample (our sample would show "clumps" of points, some short, others tall--each clump is a family). The heights of people in our sample are not independent draws from the overall normal distribution.
The independence assumption in a more complicated modeling context
But not all is lost! We might be able to write down a better model for our sample--one that preserves the independence of the heights. For example, we could write down a linear model where heights arise from a normal distribution with a mean that depends on what family the subject belongs to. In this context, the normal distribution describes the residual variation, AFTER we account for the influence of family. And independent samples from a normal distribution might be a good model for this residual variation.
Overall here, what we have done is to write down a more sophisticated model of how we expect nature's dice to behave in the context of our study. By writing down a good model, we might still be justified in assuming that that the random part of the model (i.e. the random variation around the family means) is independently sampled for each member of the population.
The (conditional) independence assumption in a general modeling context
In general, statistical models work by assuming that data arises from some probability distribution. The parameters of that distribution (like the mean of the normal distribution in the example above) might depend on covariates (like family in the example above). But of course endless variations are possible. The distribution might not be normal, the parameter that depends on covariates might not be the mean, the form of the dependence might not be linear, etc. ALL of these models rely on the assumption that they provide a reasonably good approximation to how nature's dice behave (again, that data simulated under the model will look statistically similar to actual data obtained by nature).
Quando simulamos dados sob o modelo, a etapa final será sempre desenhar um número aleatório de acordo com alguma distribuição de probabilidade modelada. Estes são os empates que assumimos serem independentes um do outro. Os dados reais que obtemos podem não parecer independentes, porque covariáveis ou outros recursos do modelo podem nos dizer para usar distribuições de probabilidade diferentes para diferentes sorteios (ou conjuntos de sorteios). Mas todas essas informações devem ser construídas no próprio modelo. Não podemos permitir que o sorteio final aleatório dependa de quais valores desenhamos para outros pontos de dados. Assim, os eventos que precisam ser independentes são os lançamentos de "dados da natureza" no contexto do nosso modelo.
É útil referir-se a essa situação como independência condicional , o que significa que os pontos de dados são independentes um do outro, dados (isto é, condicionados) às covariáveis. No nosso exemplo de altura, assumimos que minha altura e a altura de meu irmão condicionadas em minha família são independentes uma da outra e também são independentes de sua altura e de sua irmã condicionadas em sua família. Uma vez que conhecemos a família de alguém, sabemos de que distribuição normal extrair para simular sua altura, e os empates para diferentes indivíduos são independentes, independentemente da família (embora nossa escolha de qual distribuição normal extrair dependa da família). Também é possível que, mesmo depois de lidar com a estrutura familiar de nossos dados, ainda não tenhamos uma boa independência condicional (talvez também seja importante modelar gênero, por exemplo).
Em última análise, se faz sentido assumir independência condicional das observações é uma decisão que deve ser tomada no contexto de um modelo específico. É por isso que, por exemplo, na regressão linear, não verificamos se os dados vêm de uma distribuição normal, mas verificamos que os RESIDUAIS vêm de uma distribuição normal (e da mesma distribuição normal em toda a faixa do dados). A regressão linear assume que, após contabilizar a influência das covariáveis (a linha de regressão), os dados são amostrados independentemente a partir de uma distribuição normal, de acordo com a definição estrita de independência no post original.
No contexto do seu exemplo
"Professor" nos seus dados pode ser como "família" no exemplo de altura.
Uma rodada final
Muitos modelos familiares assumem que os resíduos surgem de uma distribuição normal. Imagine que eu lhe dei alguns dados que claramente não eram normais. Talvez eles estejam fortemente distorcidos, ou talvez sejam bimodais. E eu disse a você "esses dados vêm de uma distribuição normal".
"De jeito nenhum", você diz, "é óbvio que eles não são normais!"
"Quem disse algo sobre os dados serem normais?" Eu digo. "Eu apenas disse que eles vêm de uma distribuição normal".
"Um no mesmo!" você diz. "Sabemos que um histograma de amostra razoavelmente grande de uma distribuição normal tenderá a parecer aproximadamente normal!"
"Mas", digo, "nunca disse que os dados foram amostrados independentemente da distribuição normal. O DO vem de uma distribuição normal, mas não são empates independentes".
A suposição de independência (condicional) na modelagem estatística existe para impedir que pessoas inteligentes como eu ignorem a distribuição dos resíduos e apliquem mal o modelo.
Duas notas finais
1) O termo "dados da natureza" não é meu originalmente, mas, apesar de consultar algumas referências, não consigo descobrir onde consegui nesse contexto.
2) Alguns modelos estatísticos (por exemplo, modelos auto-regressivos) não requerem independência das observações dessa maneira. Em particular, eles permitem que a distribuição amostral de uma determinada observação dependa não apenas de covariáveis fixas, mas também dos dados que vieram antes dela.
fonte