Por que a variação não é definida como a diferença entre cada valor que se segue?

19

Esta pode ser uma pergunta simples para muitos, mas aqui está:

Por que a variação não é definida como a diferença entre cada valor que se segue, em vez da diferença para a média dos valores?

Essa seria a escolha mais lógica para mim, acho que obviamente estou supervisionando algumas desvantagens. obrigado

EDITAR:

Deixe-me reformular o mais claramente possível. É isso que eu quero dizer:

  1. Suponha que você tenha um intervalo de números, ordenado: 1,2,3,4,5
  2. Calcular e somar as diferenças (absolutas) (continuamente, entre todos os seguintes valores, e não em pares) entre valores (sem usar a média).
  3. Divida pelo número de diferenças
  4. (Acompanhamento: a resposta seria diferente se os números não fossem ordenados)

-> Quais são as desvantagens dessa abordagem em comparação com a fórmula padrão de variação?

user2305193
fonte
1
Você também pode estar interessado em ler sobre autocorrelação (por exemplo, stats.stackexchange.com/questions/185521/… ).
Tim
2
A resposta do whuber's @ user2305193 está correta, mas sua fórmula utiliza a distância ao quadrado entre uma ordem dos dados e a média de todas as ordens. Um truque legal, no entanto, o processo de encontrar a variação que você indicou é exatamente o que tentei implementar na minha resposta e demonstrei que não faria um bom trabalho. Tentando limpar a confusão.
Greenparker
1
Para se divertir, procure a Allan Variance.
Hbbs
em outro pensamento, eu acho que desde que você não quadrada diferenças (e não pega a raiz quadrada depois), mas pega os valores absolutos, isso deve ser mais 'por que não é assim que calculamos o desvio padrão'? em vez de "por que não é assim que calculamos a variação"? Mas eu vou dar um tempo agora
user2305193

Respostas:

27

A razão mais óbvia é que geralmente não há sequência de tempo nos valores. Portanto, se você misturar os dados, não faz diferença nas informações transmitidas pelos dados. Se seguirmos o seu método, toda vez que você misturar os dados, obtém uma variação de amostra diferente.

A resposta mais teórica é que a variação da amostra estima a variação real de uma variável aleatória. A verdadeira variação de uma variável aleatória é X

E[(XEX)2].

Aqui representa expectativa ou "valor médio". Portanto, a definição da variância é a distância quadrática média entre a variável e seu valor médio. Quando você olha para essa definição, não há "ordem do tempo" aqui, pois não há dados. É apenas um atributo da variável aleatória.E

Ao coletar dados iid dessa distribuição, você realizações . A melhor maneira de estimar a expectativa é tomar as médias da amostra. A chave aqui é que obtivemos dados iid e, portanto, não há pedidos para os dados. A amostra é igual à amostrax 1 , x 2 , , x n x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

EDITAR

A variação da amostra mede um tipo específico de dispersão para a amostra, aquele que mede a distância média da média. Existem outros tipos de dispersão, como intervalo de dados e intervalo inter-quantil.

Mesmo se você classificar seus valores em ordem crescente, isso não altera as características da amostra. A amostra (dados) que você obtém são realizações de uma variável. Calcular a variação da amostra é semelhante ao entendimento de quanto dispersão há na variável. Por exemplo, se você provar 20 pessoas e calcular sua altura, essas são 20 "realizações" da variável aleatória altura das pessoas. Agora, a variação da amostra deve medir a variabilidade na altura dos indivíduos em geral. Se você solicitar os dados 100 , 110 , 123 , 124 , ,X=

100,110,123,124,,

isso não altera as informações na amostra.

Vamos ver mais um exemplo. permite dizer que tem 100 observações de uma variável aleatória ordenada desta forma Então a distância média subsequente é de 1 unidade; portanto, pelo seu método, a variação será 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

A maneira de interpretar "variação" ou "dispersão" é entender qual faixa de valores é provável para os dados. Nesse caso, você obterá um intervalo de 0,99 unidades, o que obviamente não representa bem a variação.

Se, em vez de calcular a média, você somar as diferenças subseqüentes, sua variação será 99. É claro que isso não representa a variabilidade da amostra, porque 99 fornece o intervalo dos dados, não um senso de variabilidade.

Greenparker
fonte
1
Com o último parágrafo que você me contatou, haha, obrigado por esta resposta espantosa, eu gostaria de ter rep representante suficiente para votá-lo, por favor pessoal, faça isso por mim ;-) ACEITO !!!
user2305193
Acompanhamento após o acompanhamento: o que eu realmente quis dizer (desculpe, só percebi a pergunta certa depois de ler sua resposta) foi resumir as diferenças e dividi-las pelo número de amostras. No seu último exemplo, que seria 99/100 - você pode elaborar isso para uma completa perplexidade?
user2305193
@ user2305193 Certo, eu disse 1 unidade em média, o que está incorreto. Deveria ter sido 0,99 unidades. Mudou isso.
26516 Greenparker
Para obter mais informações sobre a série 1-100: a variação em 1-100 seria 841,7 e a fonte de desvio padrão 29,01 . Então, de fato, um resultado bem diferente.
user2305193
31

Ele é definido dessa maneira!

Aqui está a álgebra. Seja os valores . Designam por F a função de distribuição empírica destes valores (o que significa que cada x i contribui com uma massa de probabilidade de 1 / n pelo valor x i ) e deixe que X e Y ser variáveis aleatórias independentes com distribuição F . Em virtude das propriedades básicas da variância (ou seja, é uma forma quadrática), bem como da definição de F e do fatox=(x1,x2,,xn)Fxi1/nxiXYFF e Y têm a mesma média,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Essa fórmula não depende da maneira como é ordenado: usa todos os pares possíveis de componentes, comparando-os usando metade de suas diferenças ao quadrado. Ele pode, no entanto, estar relacionada a uma média sobre todas as ordenações possíveis (o grupo S ( n ) de todos os n ! Permutações dos índices 1 , 2 , ... , n ). Nomeadamente,xS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Esse somatório interno pega os valores reordenados e soma as diferenças ao meio (quadrado) entre todos os n - 1 pares sucessivos. A divisão por n calcula a média dessas diferenças quadráticas sucessivas . Ele calcula o que é conhecido como semivariância lag-1 . A soma externa faz isso para todos os pedidos possíveis .xσ(1),xσ(2),,xσ(n)n1n


Essas duas visões algébricas equivalentes da fórmula de variação padrão fornecem uma nova visão sobre o que a variação significa. A semivariância é uma medida inversa da covariância serial de uma sequência: a covariância é alta (e os números são positivamente correlacionados) quando a semivariância é baixa e, inversamente. A variação de um conjunto de dados não ordenado , portanto, é um tipo de média de todas as semivariedades possíveis obtidas sob reordenamentos arbitrários.

whuber
fonte
1
@ Mur1lo Pelo contrário: acredito que esta derivação está correta. Aplique a fórmula a alguns dados e veja!
whuber
1
Acho que Murllo pode estar falando não sobre a exatidão da fórmula para variação, mas sobre aparentemente passar diretamente das expectativas de variáveis ​​aleatórias para funções de quantidades amostrais.
Glen_b -Reinstar Monica
1
@glen Mas é exatamente isso que a função de distribuição empírica nos permite fazer. Esse é o ponto inteiro dessa abordagem.
whuber
3
Sim, isso está claro para mim; Eu estava tentando apontar onde a confusão parecia estar. Desculpe ser vago. Espero que esteja mais claro agora por que parece apenas * ser um problema.* (foi por isso que usei a palavra "aparente" anteriormente, para enfatizar que era apenas a aparência fora de contexto dessa etapa que provavelmente seria a causa da confusão)
Glen_b -Reinstate Monica
2
@ Mur1o A única coisa que fiz em qualquer uma dessas equações é aplicar definições. Não há como passar das expectativas para "quantidades amostrais". (Em particular, nenhuma amostra de foi posta ou usada.) Portanto, não consigo identificar qual é o problema aparente, nem sugerir uma explicação alternativa. Se você puder expandir sua preocupação, talvez eu possa responder. F
whuber
11

Apenas um complemento para as outras respostas, a variação pode ser calculada como a diferença ao quadrado entre os termos:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

Eu acho que esse é o mais próximo da proposição do OP. Lembre-se de que a variação é uma medida de dispersão de todas as observações de uma só vez, não apenas entre números "vizinhos" no conjunto.


ATUALIZAR

Usando seu exemplo: . Sabemos que a variância é V a r ( X ) = 2 .X=1,2,3,4,5Var(X)=2

Com o método proposto , sabemos, de antemão, as diferenças entre vizinhos, pois a variação não se soma. O que eu quis dizer foi pegar todas as diferenças possíveis ao quadrado e resumir:Var(X)=1

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2
Firebug
fonte
Agora eu estou seriamente confuso pessoal
user2305193
@ user2305193 Na sua pergunta, você quis dizer todas as diferenças aos pares ou a diferença entre um valor e o próximo em uma sequência? Você poderia por favor esclarecer?
26416 Firebug
2
@ Mur1lo ninguém é, porém, não tenho idéia do que você está se referindo.
26816 Firebug
2
@ Mur1lo Esta é uma pergunta geral, e eu respondi em geral. A variação é um parâmetro computável, que pode ser estimado a partir de amostras. Esta questão não é sobre estimativa, no entanto. Também estamos falando de conjuntos discretos, não de distribuições contínuas.
26816 Firebug
1
Você mostrou como estimar a variação pela estatística U e pela multa. O problema é quando você escreve: Var ("maiúsculas" X) = coisas que envolvem "letras minúsculas" x, você está misturando as duas noções diferentes de parâmetro e estimador.
26716 Mur1lo
6

Outros responderam sobre a utilidade da variação definida como de costume. Enfim, temos apenas duas definições legítimas de coisas diferentes: a definição usual de variação e a sua definição.

Então, a questão principal é por que o primeiro é chamado de variação e não o seu. Isso é apenas uma questão de convenção. Até 1918, você poderia inventar o que quisesse e chamá-lo de "variação", mas em 1918 Fisher usou esse nome para o que ainda é chamado de variação, e se você deseja definir qualquer outra coisa, precisará encontrar outro nome para nomeá-lo.

A outra pergunta é se a coisa que você definiu pode ser útil para qualquer coisa. Outros apontaram seus problemas para serem usados ​​como uma medida de dispersão, mas cabe a você encontrar aplicativos para isso. Talvez você encontre aplicações tão úteis que, em um século, sua coisa é mais famosa que a variação.

Pere
fonte
Eu sei que cada definição depende das pessoas que decidem, eu realmente estava procurando ajuda nas vantagens e desvantagens de cada abordagem. Geralmente, há boas razões para as pessoas convergirem para uma definição e, como eu suspeitava, não via o motivo imediatamente.
user2305193
1
Fisher introduziu variância como termo em 1918, mas a idéia é mais antiga.
27416 Nick Cox
Até onde eu sei, Fisher foi o primeiro a usar o nome "variação" para variação. É por isso que digo que antes de 1918 você poderia usar "variação" para nomear qualquer outra coisa que tivesse inventado.
Pere
3

A resposta do @GreenParker é mais completa, mas um exemplo intuitivo pode ser útil para ilustrar a desvantagem de sua abordagem.

Na sua pergunta, você parece assumir que a ordem na qual as realizações de uma variável aleatória aparecem é importante. No entanto, é fácil pensar em exemplos nos quais isso não acontece.

Considere o exemplo da altura dos indivíduos em uma população. A ordem na qual os indivíduos são medidos é irrelevante para a altura média da população e a variação (como esses valores estão espalhados em torno da média).

Your method would seem odd applied to such a case.

Antoine Vernet
fonte
2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.

Mur1lo
fonte
3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber
1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.

roundsquare
fonte
1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber
@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare
1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber
@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare