Exemplos de uma estatística que não é independente da distribuição da amostra?

Esta é a definição de estatística na wikipedia

Mais formalmente, a teoria estatística define uma estatística como uma função de uma amostra em que a função em si é independente da distribuição da amostra; isto é, a função pode ser declarada antes da realização dos dados. O termo estatística é usado para a função e para o valor da função em uma determinada amostra.

Acho que entendo a maior parte dessa definição, no entanto, a parte - onde a função é independente da distribuição da amostra, não fui capaz de resolver.

Minha compreensão da estatística até agora

Uma amostra é um conjunto de realizações de algum número de variáveis aleatórias independentes, distribuídas de forma idêntica (iid), com a distribuição F (10 realizações de um lançamento de um dado justo de 20 lados, 100 realizações de 5 lançamentos de um dado justo de 6 lados, atrair aleatoriamente 100 pessoas de uma população).

Uma função, cujo domínio é esse conjunto, e cujo intervalo são os números reais (ou talvez possa produzir outras coisas, como um vetor ou outro objeto matemático ...), seria considerada uma estatística .

Quando penso em exemplos, média, mediana, variância fazem sentido nesse contexto. Eles são uma função no conjunto de realizações (medições da pressão arterial de uma amostra aleatória). Também posso ver como um modelo de regressão linear pode ser considerado uma estatística $y_{i} = \alpha + \beta \cdot x_{i}$ - isso não é apenas uma função em um conjunto de realizações?

Onde estou confuso

Supondo que meu entendimento de cima esteja correto, não consegui entender onde uma função pode não ser independente da distribuição da amostra. Eu tenho tentado pensar em um exemplo para fazer sentido, mas sem sorte. Qualquer visão seria muito apreciada!

mathematical-statistics definition Jake Kirsch
fonte

Respostas:

Essa definição é uma maneira um tanto estranha de afirmar. Uma "estatística" é qualquer função dos valores observáveis. Tudo o que essa definição significa é que uma estatística é uma função apenas dos valores observáveis, não uma função da distribuição ou de qualquer um de seus parâmetros. Por exemplo, se $X_1, X_2, ..., X_n \sim \text{N}(\mu, 1)$ , em seguida, uma estatística seria qualquer função $T(X_1,...,X_n)$ enquanto que uma função de $H(X_1,....,X_n, \mu)$ . Aqui estão alguns exemplos adicionais: não seria uma estatística, pois depende de $\mu$

\begin{aligned} Statistic & {\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}, \\ Statistic & S_{n}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - {\bar{X}}_{n})^{2}, \\ Not a statistic & D_{n} = {\bar{X}}_{n} - μ, \\ Not a statistic & p_{i} = N (x_{i} | μ, 1), \\ Not a statistic & Q = 10 μ . \end{aligned}

$\begin{equation} \begin{aligned} \text{Statistic} & & & & & \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i, \\[12pt] \text{Statistic} & & & & & S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2, \\[12pt] \text{Not a statistic} & & & & & D_n = \bar{X}_n - \mu, \\[12pt] \text{Not a statistic} & & & & & p_i = \text{N}(x_i | \mu, 1), \\[12pt] \text{Not a statistic} & & & & & Q = 10 \mu. \\[12pt] \end{aligned} \end{equation}$

Toda estatística é uma função apenas dos valores observáveis, e não de sua distribuição ou de seus parâmetros. Portanto, não há exemplos de uma estatística que seja uma função da distribuição ou de seus parâmetros (qualquer função desse tipo não seria uma estatística). No entanto, é importante observar que a distribuição de uma estatística (em oposição à própria estatística) geralmente dependerá da distribuição subjacente dos valores. (Isso é verdade para todas as estatísticas, exceto estatísticas auxiliares .)

E uma função em que os parâmetros são conhecidos? Nos comentários abaixo, Alecos faz uma excelente pergunta de acompanhamento. E uma função que usa um valor hipotético fixo do parâmetro? Por exemplo, e a estatística $\sqrt{n} (\bar{x} - \mu)$ em que $\mu = \mu_0$ é considerada como sendo igual a um valor conhecido hipotético $\mu_0 \in \mathbb{R}$ . Aqui, a função é realmente uma estatística, desde que seja definida no domínio adequadamente restrito. Então a função $H_0: \mathbb{R}^n \rightarrow \mathbb{R}$ com $H_0(x_1,...,x_n) = \sqrt{n} (\bar{x} - \mu_0)$ seria uma estatística, mas a função $H: \mathbb{R}^{n+1} \rightarrow \mathbb{R}$ com $H(x_1,...,x_n, \mu) = \sqrt{n} (\bar{x} - \mu)$ quenãoseja uma estatística.

Restabelecer Monica
fonte

Resposta muito útil, considerando o parâmetro estatístico subjacente como parte da não estatística, foi particularmente útil.

Jake Kirsch

@CarlWitthoft Não entendi seu ponto. Se é uma função dos valores observáveis, é uma estatística. Pode ser uma função de um subconjunto menor dos valores; isso ainda pode ser uma coisa útil a considerar. Se você deseja estimar a média e tiver

observações, ainda poderá observar

se o custo do processamento de dados for alto e o custo do erro for pequeno. Ou, por algum motivo, você pode considerar duas estimativas independentes da média e considerar

10^{10}

$10^{10}$

(X_{1} + X_{2} + \dots + X_{1000}) / 1000

$(X_1+X_2+\dots+X_{1000})/1000$

. Ainda são estatísticas.

(X_{1} + \dots + X_{n / 2}) / (n / 2)

$(X_1+\dots+X_{n/2})/(n/2)$

(X_{n / 2 + 1} + \dots + X_{n}) / (n / 2)

$(X_{n/2+1}+\dots+X_n)/(n/2)$

James Martin

Esses exemplos parecem totalmente válidos para mim. Você está dizendo que a idéia de dividir dados em um conjunto de treinamento e um conjunto de validação não é válida?

James Martin

Estou um pouco confuso com isso também. Deixe-me tentar descrever o ponto @CarlWitthoft. Ainda seria uma estatística em termos de definição matemática, mas eu pude ver um caso em que um consultor faz uma 'estatística' de observações, mas decide arbitrariamente remover alguns resultados (os consultores fazem isso o tempo todo, certo?). Isso seria 'válido' no sentido em que ainda é uma função nas observações, no entanto, a maneira como a estatística pode ser apresentada e interpretada provavelmente não seria válida.

Jake Kirsch

@Carl Withhoft: No que diz respeito ao argumento, é importante distinguir entre uma estatística (que não precisa incluir todos os dados e pode não abranger todas as informações da amostra) e uma estatística suficiente (que abrangerá todas as as informações em relação a algum parâmetro). A teoria estatística já possui conceitos bem desenvolvidos, como suficiência, que capturam a ideia de que uma estatística inclui todas as informações relevantes na amostra. Não é necessário, ou desejável, tentar incorporar esse requisito na definição de uma "estatística".

Reintegrar Monica

Eu interpreto isso como dizendo que você deve decidir antes de ver os dados que estatística você irá calcular. Assim, por exemplo, se você deseja extrair discrepantes, deve decidir antes de ver os dados o que constitui um "discrepante". Se você decidir depois de ver os dados, sua função dependerá dos dados.

Acumulação
fonte

isso também é útil! Portanto, tomar uma decisão sobre quais observações incluir na função depois de saber quais observações estão disponíveis, o que é mais ou menos o que eu estava descrevendo no meu comentário na resposta anterior.

Jake Kirsch

(+1) Pode ser importante notar que isso é importante porque se você definir uma regra a priori sobre o que constitui um ponto de dados que será descartado, é (relativamente) fácil derivar uma distribuição para estatística (ou seja, média truncada, etc. .). É realmente difícil derivar uma distribuição para uma medida que envolve a remoção de pontos de dados por motivos que não são definidos de forma clara antes.

Cliff AB