Alguns padrões recomendados para notação estatística são apresentados em Halperin, Hartley e Hoel (1965) e Sanders e Pugh (1972) . A maior parte da notação atual vem de convenções estabelecidas pelos estatísticos biométricos no final do século XIX e início do século XX (a maior parte foi feita por Pearson, Fisher e seus associados). Uma lista útil de usos iniciais de notação é mantido pelo economista John Aldrich aqui , e um relato histórico da escola biométrica Inglês é publicado em Aldrich (2003) . (Se você tiver mais dúvidas sobre esse tópico, Aldrich é provavelmente o principal especialista em vida do mundo na história da notação em estatística.)
Além deste trabalho explícito, existem muitos livros que apresentam introduções ao campo e são cuidadosos ao definir notação consistente com convenções comuns, definindo a notação à medida que avançam. Existem muitas convenções conhecidas nesse campo, que são consistentes na literatura, e os estatísticos estão familiarizadas com elas através da prática, mesmo sem ter lido as recomendações desses pesquisadores.
Ambiguidade da notação centrada na distribuição: O uso da notação "centrada na distribuição" é uma convenção padrão usada em toda a literatura estatística. No entanto, uma coisa interessante a destacar sobre essa notação é que há um pouco de espaço de manobra sobre o que realmente significa. A convenção padrão é ler o objeto no lado direito dessas instruções como algum tipo de descrição de uma medida de probabilidade (por exemplo, uma função de distribuição, função de densidade, etc.) e depois ler o∼relação com o significado "... tem distribuição ..." ou "... tem medida de probabilidade ...", etc. Sob essa interpretação, a relação compara dois conjuntos distintos de coisas; o objeto no lado esquerdo é uma variável aleatória e o objeto no lado direito é uma descrição de uma medida de probabilidade.
No entanto, também é igualmente válido interpretar o lado direito como uma referência a uma variável aleatória (em oposição a uma distribuição) e ler a relação como significando "... tem a mesma distribuição que ..." . Sob essa interpretação, a relação é uma relação de equivalência comparando variáveis aleatórias; os objetos do lado esquerdo e do lado direito são variáveis aleatórias e a relação é reflexiva, simétrica e transitiva.∼
Isso fornece duas interpretações possíveis (e igualmente válidas) de uma declaração como:
X∼ N ( μ , σ2) .
Interpretação distributiva: " possui distribuição de probabilidade ". Essa interpretação considera o último objeto uma descrição de uma medida de probabilidade normal (por exemplo, sua função de densidade, função de distribuição, etc.).XN ( μ , σ2)
Interpretação de variável aleatória: " tem a mesma distribuição de probabilidade que ". Essa interpretação considera o último objeto uma variável aleatória normal.XN ( μ , σ2)
Cada interpretação tem vantagens e desvantagens. A vantagem da interpretação de variável aleatória é que ela usa o símbolo padrão para se referir a uma relação de equivalência , mas sua desvantagem é que requer referência a variáveis aleatórias com notação semelhante às suas funções de distribuição. A vantagem da interpretação distributiva é que ela usa notação semelhante para as distribuições como um todo e suas formas funcionais com um determinado valor de argumento; a desvantagem é que ele usa o símbolo uma maneira que não é uma relação de equivalência.∼∼
Aldrich, J. (2003) A Língua da International Statistical Review da Escola Biométrica Inglesa 71 (1) , pp. 109-131.
Halperin, M., Hartley, HO e Hoel, PG (1965) Padrões recomendados para símbolos estatísticos e notação . The American Statistician 19 (3) , pp. 12-14.
Sanders, JR e Pugh, RC (1972) Recomendação para um conjunto padrão de símbolos e notações estatísticas . Pesquisador Educacional 1 (11) , pp. 15-16.