Esta pode ser uma pergunta simples para muitos, mas aqui está:
Por que a variação não é definida como a diferença entre cada valor que se segue, em vez da diferença para a média dos valores?
Essa seria a escolha mais lógica para mim, acho que obviamente estou supervisionando algumas desvantagens. obrigado
EDITAR:
Deixe-me reformular o mais claramente possível. É isso que eu quero dizer:
- Suponha que você tenha um intervalo de números, ordenado: 1,2,3,4,5
- Calcular e somar as diferenças (absolutas) (continuamente, entre todos os seguintes valores, e não em pares) entre valores (sem usar a média).
- Divida pelo número de diferenças
- (Acompanhamento: a resposta seria diferente se os números não fossem ordenados)
-> Quais são as desvantagens dessa abordagem em comparação com a fórmula padrão de variação?
Respostas:
A razão mais óbvia é que geralmente não há sequência de tempo nos valores. Portanto, se você misturar os dados, não faz diferença nas informações transmitidas pelos dados. Se seguirmos o seu método, toda vez que você misturar os dados, obtém uma variação de amostra diferente.
A resposta mais teórica é que a variação da amostra estima a variação real de uma variável aleatória. A verdadeira variação de uma variável aleatória éX
Aqui representa expectativa ou "valor médio". Portanto, a definição da variância é a distância quadrática média entre a variável e seu valor médio. Quando você olha para essa definição, não há "ordem do tempo" aqui, pois não há dados. É apenas um atributo da variável aleatória.E
Ao coletar dados iid dessa distribuição, você realizações . A melhor maneira de estimar a expectativa é tomar as médias da amostra. A chave aqui é que obtivemos dados iid e, portanto, não há pedidos para os dados. A amostra é igual à amostrax 1 , x 2 , … , x n x 2 , x 5 , x 1 , x n . .x1,x2,…,xn x1,x2,…,xn x2,x5,x1,xn..
EDITAR
A variação da amostra mede um tipo específico de dispersão para a amostra, aquele que mede a distância média da média. Existem outros tipos de dispersão, como intervalo de dados e intervalo inter-quantil.
Mesmo se você classificar seus valores em ordem crescente, isso não altera as características da amostra. A amostra (dados) que você obtém são realizações de uma variável. Calcular a variação da amostra é semelhante ao entendimento de quanto dispersão há na variável. Por exemplo, se você provar 20 pessoas e calcular sua altura, essas são 20 "realizações" da variável aleatória altura das pessoas. Agora, a variação da amostra deve medir a variabilidade na altura dos indivíduos em geral. Se você solicitar os dados 100 , 110 , 123 , 124 , … ,X=
isso não altera as informações na amostra.
Vamos ver mais um exemplo. permite dizer que tem 100 observações de uma variável aleatória ordenada desta forma Então a distância média subsequente é de 1 unidade; portanto, pelo seu método, a variação será 1.
A maneira de interpretar "variação" ou "dispersão" é entender qual faixa de valores é provável para os dados. Nesse caso, você obterá um intervalo de 0,99 unidades, o que obviamente não representa bem a variação.
Se, em vez de calcular a média, você somar as diferenças subseqüentes, sua variação será 99. É claro que isso não representa a variabilidade da amostra, porque 99 fornece o intervalo dos dados, não um senso de variabilidade.
fonte
Ele é definido dessa maneira!
Aqui está a álgebra. Seja os valores . Designam por F a função de distribuição empírica destes valores (o que significa que cada x i contribui com uma massa de probabilidade de 1 / n pelo valor x i ) e deixe que X e Y ser variáveis aleatórias independentes com distribuição F . Em virtude das propriedades básicas da variância (ou seja, é uma forma quadrática), bem como da definição de F e do fatox=(x1,x2,…,xn) F xi 1/n xi X Y F F e Y têm a mesma média,X Y
Essa fórmula não depende da maneira como é ordenado: usa todos os pares possíveis de componentes, comparando-os usando metade de suas diferenças ao quadrado. Ele pode, no entanto, estar relacionada a uma média sobre todas as ordenações possíveis (o grupo S ( n ) de todos os n ! Permutações dos índices 1 , 2 , ... , n ). Nomeadamente,x S(n) n! 1,2,…,n
Esse somatório interno pega os valores reordenados e soma as diferenças ao meio (quadrado) entre todos os n - 1 pares sucessivos. A divisão por n calcula a média dessas diferenças quadráticas sucessivas . Ele calcula o que é conhecido como semivariância lag-1 . A soma externa faz isso para todos os pedidos possíveis .xσ(1),xσ(2),…,xσ(n) n−1 n
Essas duas visões algébricas equivalentes da fórmula de variação padrão fornecem uma nova visão sobre o que a variação significa. A semivariância é uma medida inversa da covariância serial de uma sequência: a covariância é alta (e os números são positivamente correlacionados) quando a semivariância é baixa e, inversamente. A variação de um conjunto de dados não ordenado , portanto, é um tipo de média de todas as semivariedades possíveis obtidas sob reordenamentos arbitrários.
fonte
Apenas um complemento para as outras respostas, a variação pode ser calculada como a diferença ao quadrado entre os termos:
Eu acho que esse é o mais próximo da proposição do OP. Lembre-se de que a variação é uma medida de dispersão de todas as observações de uma só vez, não apenas entre números "vizinhos" no conjunto.
ATUALIZAR
Usando seu exemplo: . Sabemos que a variância é V a r ( X ) = 2 .X=1,2,3,4,5 Var(X)=2
Com o método proposto , sabemos, de antemão, as diferenças entre vizinhos, pois a variação não se soma. O que eu quis dizer foi pegar todas as diferenças possíveis ao quadrado e resumir:Var(X)=1
fonte
Outros responderam sobre a utilidade da variação definida como de costume. Enfim, temos apenas duas definições legítimas de coisas diferentes: a definição usual de variação e a sua definição.
Então, a questão principal é por que o primeiro é chamado de variação e não o seu. Isso é apenas uma questão de convenção. Até 1918, você poderia inventar o que quisesse e chamá-lo de "variação", mas em 1918 Fisher usou esse nome para o que ainda é chamado de variação, e se você deseja definir qualquer outra coisa, precisará encontrar outro nome para nomeá-lo.
A outra pergunta é se a coisa que você definiu pode ser útil para qualquer coisa. Outros apontaram seus problemas para serem usados como uma medida de dispersão, mas cabe a você encontrar aplicativos para isso. Talvez você encontre aplicações tão úteis que, em um século, sua coisa é mais famosa que a variação.
fonte
A resposta do @GreenParker é mais completa, mas um exemplo intuitivo pode ser útil para ilustrar a desvantagem de sua abordagem.
Na sua pergunta, você parece assumir que a ordem na qual as realizações de uma variável aleatória aparecem é importante. No entanto, é fácil pensar em exemplos nos quais isso não acontece.
Considere o exemplo da altura dos indivíduos em uma população. A ordem na qual os indivíduos são medidos é irrelevante para a altura média da população e a variação (como esses valores estão espalhados em torno da média).
Your method would seem odd applied to such a case.
fonte
Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.
The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example ifX is a random variable with distribution function FX then its mean μx , which is also a parameter, is:
and the variance ofX , σ2X , is:
The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.
What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.
So we want to estimate the variance of a random variableX from a set of independent realizations of it, lets say x={x1,…,xn} . The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:
and the usual statistic is:
wherex¯ is the sample mean.
When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:
MSE = estimator bias + estimator variance.
Using this criterion the usual statistic,S2 , has some advantages over the one you suggests.
First it is a unbiased estimator of the variance but your statistic is not unbiased.
One other important thing is that if we are working with the normal distribution thenS2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.
When normality is assumed, as is the case in many applications,S2 is the natural choice when you want to estimate the variance.
fonte
The time-stepped difference is indeed used in one form, the Allan Variance. http://www.allanstime.com/AllanVariance/
fonte
Lots of good answers here, but I'll add a few.
Nonetheless, as @Pere said, your metric might prove itself very useful in the future.
fonte