Por que alguns símbolos estatísticos têm um "quadrado", por exemplo, Variância

7

Às vezes encontro símbolos nas estatísticas cujo símbolo carrega um "quadrado". Em outras áreas, como por exemplo, mecânica, você fornece a quantidade que você está interessado em uma letra normal e, em seguida, define suas fórmulas para poder reorganizá-las até que a quantidade que você está interessado seja uma letra normal no lado esquerdo da a fórmula. Um exemplo é a posiçãox depois de se mudar por um tempo t e uma velocidade v:

x=vt

No entanto, nas estatísticas, às vezes, as quantidades quadradas estão no lado esquerdo, porque é isso que é usado para interpretações adicionais dos resultados:

  1. A variação σX2 de uma variável aleatória Xcom valor esperado :E[X]=µ

    σX2=E[(Xµ)2]

    Aqui, uma entidade quadrada fica no lado esquerdo da fórmula.

  2. O coeficiente de determinação R2 , que é chamado apenas "R ao quadrado" o tempo todo pelos estatísticos. Por que você não dá a ele uma carta "normal" se é usada com tanta frequência?

  3. A herdabilidade é uma medida empregada na genética quando a quantidade de variação proveniente do meio ambiente versus a quantidade de variação proveniente da genética deve ser proporcional. Uma característica quantitativa P (por exemplo, altura de crescimento) é modelada desta maneira na dependência do efeito genótipo G e do efeito ambiente E (todas as variáveis ​​aleatórias):

    P=G+E

    Herdabilidade de sentido amplo é definida [src]H2H2=Var(G)/Var(P)

    Ninguém nunca está interessado em , apenas .HH2

Qual é o sentido desta convenção? O que isso diz aos estatísticos? Ou existem várias causas não relacionadas?

akraf
fonte
5
Se desejar, você pode relatar o desvio padrão em vez da variação. Consulte stats.stackexchange.com/questions/118/… e stats.stackexchange.com/questions/83347/… não há mágica nos quadrados, simplesmente alguns valores ao quadrado fazem sentido e são agradáveis ​​de se trabalhar. Além disso, é mais direto de ter em vez de, por exemplo de modo que você tem que lembrar que ...σ2ξ=σ2ξ=σ
Tim
6
A notação é um ramo da etiqueta, e não da lógica, e evoluiu confuso, como mostram histórias dedicadas. Usar o mínimo de notação possível é um critério claro, especialmente porque alfabetos convenientes já estão sobrecarregados (já tivemos que lutar com probabilidade, número de preditores e valores- na mesma discussão?). Historicamente, a correlação precedeu a percepção de que seu quadrado era útil e interessante; também o estresse na variância (principalmente) seguido do estresse no desvio padrão ou em seus múltiplos. Portanto, adicionar um quadrado a um símbolo existente fazia sentido nesses casos. P
Nick Cox

Respostas:

6

Embora possamos analisar as muitas fórmulas diferentes que encontramos nas estatísticas e ver que os segundos momentos têm um lugar especial ...

... talvez um lugar mais especial na estatística do que na física (que também ocasionalmente usa termos quadrados para simplificar, por exemplo 'raio de rotação' E também um termo como ' momento de inércia' não é inteiramente termo simplificado e contém seu momento de origem, assim como termos estatísticos contêm seu quadrado de origem . Além disso, físicos gostam de simplicidade como , enquanto estatísticos, bem) ...rg2=h2π

No entanto, as razões para esses usos de termos quadrados (por exemplo, que facilmente são vistas como contendo uma constante "constante" em vez de , quando tirá-lo dos colchetes) pode ser mais facilmente encontrado por razões históricas .(xσ)2σ2σ


h2 eR2

Através da resposta de Nick Cox nesta pergunta anterior sobre CV Quem é o criador ou inventor do coeficiente de determinação (R ​​ao quadrado)? vemos que a história teve uma grande influência nesse termo. E isso não é apenas para , o termo é "inventado" pela mesma pessoa. Basta ver uma pesquisa de artigo no google:R2h2

https://scholar.google.com/scholar?q="degree+of+determination"&as_ylo=1918&as_yhi=1924

Você vê que Sewall Wright fez muito nas primeiras descrições do conceito de 'grau de determinação'. Ele expressou e em termos do quadrado de outra coisa 1) coeficientes de correlação e 2) hereditariedade ou um coeficiente de correlação equivalente (ver uma fonte anterior à mencionada por Nick Cox: Wright 1920 ) .R2h2Rh

Em um artigo como Mordecai Ezekiel 1929, Significado e significado dos coeficientes de correlação, você vê que, por um tempo considerável, as pessoas usam todo tipo de expressão com o coeficiente de correlação (no artigo de exemplo específico: , , , ) além de , o que tornou importante a notação explícita de (a física não fornece essa liberdade de escolha, onde precisamos considerar que tipo de momento, primeiro, segundo, terceiro ou função da mesma, ou qualquer outra coisa como a mediana, é melhor descrever uma determinada distribuição ou situação ).r2r1r211r2r2r2

Na maravilhosa visão geral de Wright 1934, " o método dos coeficientes de caminho ", ele sugere

"O coeficiente do caminho quadrado pode, portanto, ser chamado de coeficiente de determinação. Esses coeficientes foram usados ​​antes que o termo coeficiente do caminho fosse aplicado à raiz quadrada".

embora as pessoas continuassem usando a definição quadrada. Provavelmente, esse 'método de coeficiente de caminho' não foi muito apreciado, porque quem está ensinando / aprendendo hoje em dia e que outro guru das estatísticas tem usado essas definições?

Nesta visão geral de Wright, em 1934, você também encontra uma referência a um artigo de 1918, no qual ele usa quadrados de coeficientes de correlação, mas ainda não um termo relacionado à 'determinação'.


σ2

Este termo muitas vezes não é usado como tal. E ao invés disso é usado

  • sem o quadrado no lado esquerdo da equaçãoσ=E[(Xμ)2]
  • ou substituído pelo termo 'variação'. Uma expressão típica é .Var(X)

    Outra expressão existente é (amplamente usada em textos mais antigos). O subscrito indica a ordem do momento. Então (ou melhor ) é o primeiro momento bruto ou a média, o subscrito 2 significa segundo momento (variação no caso do segundo momento central), o subscrito 3 significa terceiro momento , ...., etcμ2μ1=μμ1=μ

    (Um problema com este símbolo é que não está claro em que ponto o momento, por exemplo, central ou bruto, é definido, mesmo que exista vs para diferenciar entre bruto e central. O símbolo para significa realmente tem o mesmo problema, embora tenha se tornado muito padrão, de modo que a ambiguidade não seja tão relevante na maioria dos casos)μ2μμμ

Bem, este grande texto neste item explica um pouco por que pode ser mais fácil para muitos cientistas e estatísticos. Ainda também como e há uma origem histórica. Leituras interessantes:σ2h2R2

  • Contribuições de Pearson 1894 para a teoria matemática da evolução, na qual, em algum momento, o desvio padrão é realmente escrito comoσ=μ2
  • Airy 1861 (que usa a letra no lugar de e o erro de descrição do quadrado médio , mas também se compara a conceitos diferentes, não ao quadrado, erro médio e erro provável )cσ
  • Fisher examina em 1920 a diferença entre e o desconhecido estimado pelo primeiro momento central 'erro médio' ou pelo segundo momento central 'erro quadrático médio'.σ1σ2σ
  • De acordo com a Wikipedia (Okt 19 2017) , Fisher usou pela primeira vez o termo 'variância'.

    "Portanto, é desejável analisar as causas da variabilidade para lidar com o quadrado do desvio padrão como a medida da variabilidade. Vamos chamar essa quantidade de Variância"

    Se você ler o artigo você vê que ele muitas vezes coloca variância no lado esquerdo da equação, e denota-lo com uma letra . Atualmente, o uso da letra ainda é comum nos trabalhos de estatística matemática. Neste artigo, ele usa frequentemente , mas isso é para simplificar. Imagine o teorema de Fermat escrito com um termo como vez de . Dessa maneira, na simplicidade das equações, o uso de se fortalece. Observe que substituir por nem sempre é útil. Às vezes, alguém quer indicar que o cálculo é sobreVVσ2c=an+bnncn=an+bnσ2σ2Vσ2. Por exemplo, a equação 1 no artigo de 1918 é mais clara que , se o , do que se trata, estiver escrito explicitamente na equação.σ2=a2V=a2σ

  • Antes de Fisher, há menção à 'variabilidade' : 1916 James Johstone ( A TEORIA MATEMÁTICA DA VARIABILIDADE ORGÂNICA ) descreve um conceito de variabilidade em relação à distribuição gaussiana. Em relação a 'desvio ao quadrado' ou 'desvio ao quadrado', você encontrará várias fontes anteriores. Uma referência interessante entre os primeiros usos do "desvio ao quadrado" é Francis Ysidro Edgeworth (1917), que fala, em nota de rodapé, de "flutuação" no lugar de .σ2

Sextus Empiricus
fonte
1

Hereditariedade sentido restrito é denotado , porque as pessoas (não certeza que mas ver Felsenstein, 2016, Cap. IX, problema 7) introduzido pela primeira vez o símbolo para a correlação entre o efeito genético aditivo e o fenótipo , Se o componente aditivo o fenótipoh2hxz=x+e

h=corr(x,z)=Cov(x,z)Var(x)Var(z)=Cov(x,x+e)Var(x)Var(z)=Var(x)Var(x)Var(z)=Var(x)Var(z)
xzé conjuntamente binormal, então a inclinação da regressão do componente genético aditivo ou valor genético no fenótipo (a herdabilidade que determina a resposta à seleção que aparece na equação do ) se torna .xz
βx|z=Cov(x,y)Var(z)=Var(x)Var(z)=h2.
Jarle Tufto
fonte