Pelo que entendi, as escolas do Reino Unido ensinam que o desvio padrão é encontrado usando:
Considerando que as escolas dos EUA ensinam:
(em um nível básico de qualquer maneira).
Isso causou vários problemas aos meus alunos no passado, enquanto eles procuravam na Internet, mas encontraram a explicação errada.
Por que a diferença?
Com conjuntos de dados simples, digamos 10 valores, que grau de erro haverá se o método errado for aplicado (por exemplo, em um exame)?
Respostas:
A primeira fórmula é o desvio padrão da população e a segunda fórmula é o desvio padrão da amostra . A segunda fórmula também está relacionada ao estimador imparcial da variância - consulte a Wikipedia para mais detalhes.
Suponho que (aqui) no Reino Unido eles não fazem a distinção entre amostra e população no ensino médio. Eles certamente não tocam em conceitos como estimadores tendenciosos.
fonte
Como ninguém ainda respondeu à pergunta final - ou seja, para quantificar as diferenças entre as duas fórmulas - vamos cuidar disso.
Por muitas razões, é apropriado comparar os desvios padrão em termos de suas proporções e não em suas diferenças. A proporção é
A aproximação pode ser vista como truncando a série Taylor (alternada) para a raiz quadrada, indicando que o erro não pode exceder|(1/22)N−2| 1/(8N2) N 2
fonte
Esta é a correção de Bessel . A versão dos EUA está mostrando a fórmula do desvio padrão da amostra , onde a versão do Reino Unido acima é o desvio padrão da amostra .
fonte
Não tenho certeza se isso é puramente uma questão dos EUA vs. Britânica. O restante desta página foi extraído de um FAQ que escrevi ( http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).
Como calcular o SD com n-1 no denominador
Calcule o quadrado da diferença entre cada valor e a média da amostra.
Adicione esses valores acima.
Divida a soma por n-1. O resultado é chamado de variação.
Pegue a raiz quadrada para obter o desvio padrão.
Por que n-1?
Por que dividir por n-1 em vez de n ao calcular um desvio padrão? Na etapa 1, você calcula a diferença entre cada valor e a média desses valores. Você não conhece o verdadeiro meio da população; tudo o que você sabe é a média da sua amostra. Exceto nos casos raros em que a média da amostra é igual à média da população, os dados estarão mais próximos da média da amostra do que da média real da população. Portanto, o valor que você calcula na etapa 2 provavelmente será um pouco menor (e não pode ser maior) do que seria se você usasse a verdadeira média da população na etapa 1. Para compensar isso, divida por n-1 em vez de Isso é chamado de correção de Bessel.
Mas por que n-1? Se você soubesse a média da amostra e todos, exceto um dos valores, poderia calcular qual seria esse último valor. Os estatísticos dizem que existem n-1 graus de liberdade.
Quando o SD deve ser calculado com um denominador de n em vez de n-1?
Os livros de estatística geralmente mostram duas equações para calcular o DP, um usando n e outro usando n-1, no denominador. Algumas calculadoras possuem dois botões.
A equação n-1 é usada na situação comum em que você está analisando uma amostra de dados e deseja tirar conclusões mais gerais. O SD calculado dessa maneira (com n-1 no denominador) é o seu melhor palpite para o valor do SD na população geral.
Se você simplesmente deseja quantificar a variação em um determinado conjunto de dados e não planeja extrapolar para tirar conclusões mais amplas, é possível calcular o SD usando n no denominador. O SD resultante é o SD desses valores específicos. Não faz sentido calcular o DP dessa maneira, se você quiser estimar o DP da população a partir da qual esses pontos foram extraídos. Só faz sentido usar n no denominador quando não há amostragem de uma população, não há desejo de tirar conclusões gerais.
O objetivo da ciência é quase sempre generalizar, portanto a equação com n no denominador não deve ser usada. O único exemplo em que consigo pensar em onde pode fazer sentido é quantificar a variação entre as notas dos exames. Mas muito melhor seria mostrar um gráfico de dispersão de cada pontuação ou um histograma de distribuição de frequência.
fonte
Since N is the number of points in the data set, one could argue that by calculating the mean one has reduced the degree of freedom in the data set by one (since one introduced a dependency into the data set), so one should use N-1 when estimating the standard deviation from a data set for which one had to estimate the mean before.
fonte