Eu tenho algumas malhas 3D trianguladas. As estatísticas para as áreas do triângulo são:
- Mín. 0,000
- Max 2341.141
- Mean 56.317
- Std dev 98.720
Então, isso significa algo particularmente útil sobre o desvio padrão ou sugere que existem erros no cálculo, quando os números funcionam como o descrito acima? As áreas certamente estão longe de serem normalmente distribuídas.
E, como alguém mencionado em uma de suas respostas abaixo, o que realmente me surpreendeu foi o fato de que apenas um DP da média levou os números a serem negativos e, portanto, fora do domínio legal.
obrigado
distributions
mean
standard-deviation
Andy Dent
fonte
fonte
Respostas:
Não há nada que indique que o desvio padrão deve ser menor ou maior que a média. Dado um conjunto de dados, você pode manter a média igual, mas alterar o desvio padrão para um grau arbitrário adicionando / subtraindo um número positivo adequadamente .
Usando o exemplo de conjunto de dados de @ whuber, de seu comentário à pergunta: {2, 2, 2, 202}. Conforme afirma @whuber: a média é 52 e o desvio padrão é 100.
Agora, perturbe cada elemento dos dados da seguinte maneira: {22, 22, 22, 142}. A média ainda é 52, mas o desvio padrão é 60.
fonte
Obviamente, esses são parâmetros independentes. Você pode definir explorações simples no R (ou outra ferramenta que você preferir).
Da mesma forma, você padroniza os dados visualizados subtraindo a média e dividindo pelo desvio padrão.
Edit E seguindo a idéia do @ whuber, aqui está um conjunto infinito de conjuntos de dados que se aproximam de suas quatro medições:
fonte
Não sei por que @Andy está surpreso com esse resultado, mas sei que ele não está sozinho. Também não tenho certeza do que a normalidade dos dados tem a ver com o fato de que o sd é maior que a média. É bastante simples gerar um conjunto de dados que é normalmente distribuído onde é esse o caso; de fato, o normal padrão tem média de 0, sd de 1. Seria difícil obter um conjunto de dados normalmente distribuído de todos os valores positivos com sd> mean; de fato, não deveria ser possível (mas depende do tamanho da amostra e de qual teste de normalidade você usa ... com uma amostra muito pequena, coisas estranhas acontecem)
No entanto, depois de remover a estipulação da normalidade, como a @Andy fez, não há razão para que o sd seja maior ou menor que a média, mesmo para todos os valores positivos. Um único outlier fará isso. por exemplo
x <- runif (100, 1, 200) x <- c (x, 2000)
dá média de 113 e sd de 198 (dependendo da semente, é claro).
Mas uma questão maior é por que isso surpreende as pessoas.
Não ensino estatística, mas me pergunto o que acontece com o modo como a estatística é ensinada, que torna essa noção comum.
fonte
Basta a adição de um ponto genérico que, a partir de uma perspectiva de cálculo, e ∫ x 2 f ( x ) d x estão relacionados por desigualdade de Jensen , assumindo que existem dois integrais, ∫ x 2 f ( x ) d x ≥ { ∫ x f ( x ) d x } 2
fonte
Talvez o OP esteja surpreso que a média - 1 DP seja um número negativo (especialmente onde o mínimo é 0).
Aqui estão dois exemplos que podem esclarecer.
Suponha que você tenha uma turma de 20 alunos da primeira série, onde 18 têm 6 anos, 1 tem 5 e 1 tem 7. Agora, adicione o professor de 49 anos. A idade média é 8,0, enquanto o desvio padrão é 9,402.
Você pode estar pensando: um desvio padrão varia para essa classe varia de -1,402 a 17,402 anos. Você pode se surpreender que o SD inclua uma idade negativa, o que parece irracional.
Você não precisa se preocupar com a idade negativa (ou os gráficos 3D que se estendem menos que o mínimo de 0,0). Intuitivamente, você ainda possui cerca de dois terços dos dados dentro de 1 DP da média. (Na verdade, você possui 95% dos dados dentro de 2 DP da média.)
Quando os dados assumem uma distribuição não normal, você verá resultados surpreendentes como este.
Segundo exemplo. Em seu livro, Enganado pela aleatoriedade , Nassim Taleb estabelece o experimento mental de um arqueiro de olhos vendados atirando em uma parede de comprimento inifinte. O arqueiro pode disparar entre +90 graus e -90 graus.
De vez em quando, o arqueiro dispara a flecha paralela à parede e nunca bate. Considere até que ponto a flecha erra o alvo como a distribuição dos números. O desvio padrão para este cenário seria inifinte.
fonte
A gamma random variableX with density
R
to get a feeling about this. Here are examples withfonte
As pointed out in the other answers, the meanx¯ and standard deviation
σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c] , say, then, for large data sets (where the distinction between dividing by n or by n−1 does not matter very much), the following inequality
holds:
fonte
What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.
fonte
Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?
fonte