O desvio padrão de dados não negativos pode exceder a média?

15

Eu tenho algumas malhas 3D trianguladas. As estatísticas para as áreas do triângulo são:

  • Mín. 0,000
  • Max 2341.141
  • Mean 56.317
  • Std dev 98.720

Então, isso significa algo particularmente útil sobre o desvio padrão ou sugere que existem erros no cálculo, quando os números funcionam como o descrito acima? As áreas certamente estão longe de serem normalmente distribuídas.

E, como alguém mencionado em uma de suas respostas abaixo, o que realmente me surpreendeu foi o fato de que apenas um DP da média levou os números a serem negativos e, portanto, fora do domínio legal.

obrigado

Andy Dent
fonte
4
No conjunto de dados {2,2,2,202} o desvio padrão da amostra é 100 enquanto a média é 52 muito próxima do que você observa.
whuber
5
Para um exemplo familiar (para alguns), o resultado médio de alguém jogando blackjack por uma hora pode ser negativo em US $ 25, mas com um desvio padrão de, digamos, US $ 100 (números para ilustração). Esse grande coeficiente de variação facilita que alguém seja induzido a pensar que é melhor do que realmente é.
Michael McGowan
A questão de acompanhamento também é bastante informativa: coloca limites no DP de um conjunto de (dados não negativos), dada a média.
whuber

Respostas:

9

Não há nada que indique que o desvio padrão deve ser menor ou maior que a média. Dado um conjunto de dados, você pode manter a média igual, mas alterar o desvio padrão para um grau arbitrário adicionando / subtraindo um número positivo adequadamente .

Usando o exemplo de conjunto de dados de @ whuber, de seu comentário à pergunta: {2, 2, 2, 202}. Conforme afirma @whuber: a média é 52 e o desvio padrão é 100.

Agora, perturbe cada elemento dos dados da seguinte maneira: {22, 22, 22, 142}. A média ainda é 52, mas o desvio padrão é 60.

varty
fonte
1
Se você adicionar a cada elemento, altere o parâmetro location , ou seja, a média. Você altera a dispersão (ou seja, o desvio padrão) multiplicando por um fator de escala (desde que sua média seja zero).
Dirk Eddelbuettel
@DirkEddelbuettel Você está correto. Corrigi a resposta e dei um exemplo de clareza.
Varty
2
Eu não sigo o exemplo. O novo conjunto de dados claramente não é derivado do original "adicionando ou subtraindo um número positivo" de cada um dos valores originais.
whuber
3
Não consigo editá-lo porque não sei o que você está tentando dizer. Se você pode adicionar arbitrariamente valores separados a cada um dos números em um conjunto de dados, está apenas alterando um conjunto de valores para um conjunto completamente diferente de n valores. Não vejo como isso é relevante para a pergunta ou mesmo para o seu parágrafo de abertura. Eu acho que alguém admitiria que essas mudanças podem alterar a média e o DP, mas isso não nos diz por que o SD de um conjunto de dados não negativos pode ser um múltiplo positivo de sua média. nn
whuber
2
Você está certo: a afirmação citada é minha e não aparece na sua resposta. (Entretanto, é correto e relevante. :-) Um ponto que estou tentando entender é que a mera capacidade de alterar o SD enquanto mantém a média igual não responde à pergunta. Quanto o SD pode ser alterado (mantendo todos os dados não negativos)? O outro ponto que tentei destacar é que seu exemplo não ilustra um processo geral e previsível de fazer essas alterações nos dados. Isso faz parecer arbitrário, o que não ajuda muito.
whuber
9

Obviamente, esses são parâmetros independentes. Você pode definir explorações simples no R (ou outra ferramenta que você preferir).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Da mesma forma, você padroniza os dados visualizados subtraindo a média e dividindo pelo desvio padrão.

Edit E seguindo a idéia do @ whuber, aqui está um conjunto infinito de conjuntos de dados que se aproximam de suas quatro medições:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 
Dirk Eddelbuettel
fonte
Não sei se entendi o seu ponto. Eles não são exatamente independentes, pois é possível alterar a média perturbando um ponto de dados e, assim, alterar também o desvio padrão. Eu interpretei algo errado?
Varty
Observando que as áreas do triângulo não podem ser negativas (como confirmado pelo valor mínimo citado na pergunta), seria de esperar um exemplo que consistisse apenas em números não negativos.
whuber
(+1) Na edição: tente usar 536 réplicas de 52.15 :-).
whuber
Nice one re 536 reps. Deveria ter feito uma pesquisa binária :) #
467 Dirk Eddelbuettel
@Dirk "estes são parâmetros independentes", considere o caso quando é um bernouilli. variância e média não são independentes: v a r ( X ) = p ( 1 - p ) . Considere-se uma variável aleatória 100 > X > 0 , a variância máxima possível é ( 50 ) 2 agora se obrigar a média para ser igual a um (isto é, menor do que 50 ) a variância máxima não pode ser maior do que 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . Existem mais exemplos de variáveis ​​limitadas na natureza do que gaussianos? 99/100(1)2+(1/100)992
robin Girard
7

Não sei por que @Andy está surpreso com esse resultado, mas sei que ele não está sozinho. Também não tenho certeza do que a normalidade dos dados tem a ver com o fato de que o sd é maior que a média. É bastante simples gerar um conjunto de dados que é normalmente distribuído onde é esse o caso; de fato, o normal padrão tem média de 0, sd de 1. Seria difícil obter um conjunto de dados normalmente distribuído de todos os valores positivos com sd> mean; de fato, não deveria ser possível (mas depende do tamanho da amostra e de qual teste de normalidade você usa ... com uma amostra muito pequena, coisas estranhas acontecem)

No entanto, depois de remover a estipulação da normalidade, como a @Andy fez, não há razão para que o sd seja maior ou menor que a média, mesmo para todos os valores positivos. Um único outlier fará isso. por exemplo

x <- runif (100, 1, 200) x <- c (x, 2000)

dá média de 113 e sd de 198 (dependendo da semente, é claro).

Mas uma questão maior é por que isso surpreende as pessoas.

Não ensino estatística, mas me pergunto o que acontece com o modo como a estatística é ensinada, que torna essa noção comum.

Peter Flom - Restabelece Monica
fonte
Eu nunca estudei estatística, apenas algumas unidades de matemática de engenharia, e isso foi há trinta anos. Outras pessoas no trabalho, que eu pensava entender melhor o domínio, têm falado em representar dados ruins por "número de devs std distantes da média". Então, é mais sobre "como dev std é comumente mencionado" do que "ensinou" :-)
Andy Dent
@ E ter um grande número de std longe da média significa simplesmente que a variável não é significativamente diferente de zero. Então depende do contexto (era o significado da variável aleatória), mas em alguns casos você pode querer removê-las?
perfil completo de robin girard
@ Peter veja meu comentário para Dirk, isso pode explicar a "surpresa" em algum contexto. Na verdade, ensino estatística há algum tempo e nunca vi a surpresa de que você está falando. De qualquer forma, eu prefiro um aluno surpreendido por tudo. Tenho certeza de que esta é uma boa posição epistemológica (melhor do que desmaiar na posição absolutamente nenhuma surpresa :)).
perfil completo de robin girard
@AndyDent dados "ruins", para mim, significam dados gravados incorretamente. Os dados que estão longe da média são discrepantes. Por exemplo, suponha que você esteja medindo a altura das pessoas. Se você me medir e registrar minha altura como 7'5 'em vez de 5'7, são dados ruins. Se você mede Yao Ming e registra sua altura como 7'5 ", são dados extremos, mas não ruins. Independentemente do fato de estar muito longe da média (algo como 6 sds)
Peter Flom - Reinstate Monica
@ Peter Florn, no nosso caso, temos valores discrepantes dos quais queremos nos livrar, porque representam triângulos que causarão problemas algorítmicos no processamento da malha. Eles podem até ser "dados incorretos" no seu sentido, se eles foram criados por dispositivos de digitalização com defeito ou conversão de outros formatos :-) Outras formas podem ter valores discrepantes que estão legitimamente longe da média, mas não representam um problema. Uma das coisas mais interessantes sobre esses dados é que temos "dados ruins" nos dois extremos, mas os pequenos não estão longe da média.
Andy Dent
6

Basta a adição de um ponto genérico que, a partir de uma perspectiva de cálculo, e x 2 f ( x ) d x estão relacionados por desigualdade de Jensen , assumindo que existem dois integrais, x 2 f ( x ) d x { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Dada essa desigualdade geral, nada impede que a variação se torne arbitrariamente grande. Testemunhe adistribuição t do alunocom ν graus de liberdade, X T ( ν , μ , σ ) e tome Y = | X | cujo segundo momento é o mesmo que o segundo momento de X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X quandoν>2. Então chega ao infinito quandoνdesce para2
E[|X|2]=νν2σ2+μ2,
ν>2ν2 , enquanto a média de permanece finita enquanto ν > 1 .Yν>1
Xi'an
fonte
1
Observe a restrição explícita a valores não negativos na pergunta.
whuber
The Student example gets easily translated into the absolute-value-of-a-Student's-t-distribution example...
Xi'an
1
But that changes the mean, of course :-). The question concerns the relationship between the SD and the mean (see its title). I am not saying you're wrong; I'm just (implicitly) suggesting that your reply could, with little work, more directly address the question.
whuber
@ whuber: ok, editei o texto acima para considerar o valor absoluto (eu também calculei a média do valor absoluto, mas <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> é bastante desajeitado </ a> ...)
Xian
3

Talvez o OP esteja surpreso que a média - 1 DP seja um número negativo (especialmente onde o mínimo é 0).

Aqui estão dois exemplos que podem esclarecer.

Suponha que você tenha uma turma de 20 alunos da primeira série, onde 18 têm 6 anos, 1 tem 5 e 1 tem 7. Agora, adicione o professor de 49 anos. A idade média é 8,0, enquanto o desvio padrão é 9,402.

Você pode estar pensando: um desvio padrão varia para essa classe varia de -1,402 a 17,402 anos. Você pode se surpreender que o SD inclua uma idade negativa, o que parece irracional.

Você não precisa se preocupar com a idade negativa (ou os gráficos 3D que se estendem menos que o mínimo de 0,0). Intuitivamente, você ainda possui cerca de dois terços dos dados dentro de 1 DP da média. (Na verdade, você possui 95% dos dados dentro de 2 DP da média.)

Quando os dados assumem uma distribuição não normal, você verá resultados surpreendentes como este.

Segundo exemplo. Em seu livro, Enganado pela aleatoriedade , Nassim Taleb estabelece o experimento mental de um arqueiro de olhos vendados atirando em uma parede de comprimento inifinte. O arqueiro pode disparar entre +90 graus e -90 graus.

De vez em quando, o arqueiro dispara a flecha paralela à parede e nunca bate. Considere até que ponto a flecha erra o alvo como a distribuição dos números. O desvio padrão para este cenário seria inifinte.

rajah9
fonte
The rule about 2/3 of the data within 1 SD of the mean is for normal data. But the classroom data is clearly non-normal (even if it passes some test for normality because of small sample size). Taleb's example is terrible. It's an example of poor operationalization of a variable. Taken as is, both the mean and the SD would be infinite. But that's nonsense. "How far the arrow misses" - to me, that's a distance. The arrow, no matter how it is fired, will land somewhere. Measure the distance from there to the target. No more infinity.
Peter Flom - Reinstate Monica
1
Yup, the OP was sufficiently surprised the first time I saw mean - 1 SD went negative that I wrote a whole new set of unit tests using data from Excel to confirm at least my algorithm was calculating the same values. Because Excel just has to be an authoritative source, right?
Andy Dent
@Peter The 2/3 rule (part of a 68-95-99.7% rule) is good for a huge variety of datasets, many of them non-normal and even for moderately skewed ones. (The rule is quite good for symmetric datsets.) The non-finiteness of the SD and mean are not "nonsense." Taleb's example is one of the few non-contrived situations where the Cauchy distribution clearly governs the data-generation process. The infiniteness of the SD does not derive from the possibility of missing the wall but from the distribution of actual hits.
whuber
1
@whuber I was aware of your first point, which is a good one. I disagree about your second point re Taleb. It seems to me like another contrived example.
Peter Flom - Reinstate Monica
3

A gamma random variable X with density

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
with α,β>0, is almost surely positive. Choose any mean m>0 and any standard deviation s>0. As long as they are positive, it does not matter if m>s or m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139
Zen
fonte
1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.
Dilip Sarwate
fonte
4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber
9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber
1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.

Felipe G. Nievinski
fonte
0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

fred3
fonte