Uma família de uma distribuição tem uma definição diferente para estatística do que em outras disciplinas?
Em geral, uma família de curvas é um conjunto de curvas, cada uma das quais é dada por uma função ou parametrização na qual um ou mais parâmetros são variados. Tais famílias são usadas, por exemplo, para caracterizar componentes eletrônicos .
Para estatísticas, uma família de acordo com uma fonte é o resultado da variação do parâmetro de forma. Como então podemos entender que a distribuição gama possui um parâmetro de forma e escala e somente a distribuição gama generalizada possui, além disso, um parâmetro de localização? Isso faz da família o resultado da variação do parâmetro de localização? De acordo com @whuber, o significado de uma família é implicitamente Uma "parametrização" de uma família é um mapa contínuo de um subconjunto de ℝ , com sua topologia usual, no espaço de distribuições, cuja imagem é essa família.
O que, em linguagem simples, é uma família para distribuições estatísticas?
Uma questão sobre as relações entre as propriedades estatísticas das distribuições da mesma família já gerou considerável controvérsia para uma questão diferente, portanto parece valer a pena explorar o significado.
Que essa não é necessariamente uma pergunta simples, surge do seu uso na frase família exponencial , que nada tem a ver com uma família de curvas, mas está relacionada à alteração da forma do PDF de uma distribuição por reparameterização, não apenas de parâmetros , mas também substituição de funções de variáveis aleatórias independentes.
Respostas:
Os conceitos estatísticos e matemáticos são exatamente os mesmos, entendendo que "família" é um termo matemático genérico com variações técnicas adaptadas a diferentes circunstâncias:
O restante deste post explica o que isso significa. Como um aparte, não acho que nada disso seja controverso, matematicamente ou estatisticamente (além de um pequeno problema que é observado abaixo). Em apoio a essa opinião, forneci muitas referências (principalmente a artigos da Wikipedia).
Esta terminologia de "famílias" tende a ser usada quando se estudam as classes de funções para um conjunto Y ou "mapas". Dado um domínio X , uma família F de mapas em X parametrizada por algum conjunto Θ (os "parâmetros") é uma funçãoCY Y X F X Θ
para a qual (1) para cada , a função F θ : X → Y dada por F θ ( x ) = F ( x , θ ) está em C Y e (2) F em si possui certas propriedades "agradáveis".θ∈Θ Fθ:X→Y Fθ(x)=F(x,θ) CY F
A idéia é que queremos variar as funções de a Y de uma maneira "suave" ou controlada. A propriedade (1) significa que cada θ designa tal função, enquanto os detalhes da propriedade (2) capturam o sentido em que uma mudança "pequena" em θ induz uma mudança suficientemente "pequena" em F θ .X Y θ θ Fθ
Um exemplo matemático padrão, próximo ao mencionado na pergunta, é uma homotopia . Neste caso, representa a categoria de aplicações contínuas de espaços topológicos X no espaço topológico Y ; Θ = [ 0 , 1 ] ⊂ R é o intervalo de unidade com a sua topologia habitual, e que exigir que M seja um contínuo mapa a partir do produto topológico X × Θ em Y . Pode ser pensado como uma "deformação contínua do mapa FCY X Y Θ=[0,1]⊂R F X×Θ Y a F 1. "Quando X = [ 0 , 1 ] é em si um intervalo, esses mapas sãocurvasem Y e a homotopia é uma deformação suave de uma curva para outra.F0 F1 X=[0,1] Y
Para aplicações estatísticas, é o conjunto de todas as distribuições de R (ou, na prática, em R n para algumas N , mas para manter a simples exposição enfocarei n = 1 ). Podemos identificá-lo com o conjunto de todas as funções càdlàg não decrescentes R → [ 0 , 1 ] onde o fechamento de seu intervalo inclui 0 e 1 : essas são as funções de distribuição cumulativa ou simplesmente funções de distribuição. Assim, X = R eCY R Rn n n=1 R→[0,1] 0 1 X=R .Y=[0,1]
Uma família de distribuições é qualquer subconjunto de .CY Outro nome para uma família é modelo estatístico. Ele consiste em todas as distribuições que supostamente governam nossas observações, mas, de outra forma, não sabemos qual é a distribuição real.
Essas características abstratas da teoria dos conjuntos são de pouco interesse ou utilidade. É somente quando consideramos estrutura matemática adicional (relevante) em que este conceito torna-se útil. Mas que propriedades de C Y são de interesse estatística? Alguns que aparecem com freqüência são:CY CY
é umconjunto convexo: dadas quaisquer duas distribuições F , G ∈ C Y , podemos formar adistribuiçãodamistura(1-t) F +t G ∈Ypara todot∈[0,1]. Esta é uma espécie de "homotopy" deFaG.CY F, G ∈ CY (1−t)F+tG∈Y t∈[0,1] F G
As grandes peças de apoiar várias métricas pseudo, tais como a divergência Kullback-Leibler ou o estreitamente relacionado Informação Fisher métrica.CY
tem uma estrutura aditivo: correspondente a quaisquer duas distribuiçõesFeGé a sua soma, F ⋆ L .CY F G F⋆G
suporta muitas funções, naturais úteis, muitas vezes denominado "propriedades". Isso inclui qualquer quantil fixo (como a mediana), bem como oscumulantes.CY
é um subconjunto de umespaço de função. Como tal, ele herda muitas métricas úteis, tais como anorma sup( L ∞ norma) dado por | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CY L∞
Naturais acções de grupo em induzir acções sobre C Y . As ações mais comuns são translações T μ : x → x + μ e escalas S σ : x → x σ para σ > 0 . O efeito que eles têm em uma distribuição é enviar F para a distribuição dada por F μ , σ ( x ) = F ( ( x - μ )R CY Tμ:x→x+μ Sσ:x→xσ σ>0 F . Isso leva aos conceitos de famílias em escala de localização e suas generalizações. (Não forneço uma referência, porque pesquisas extensas na Web geram uma variedade de definições diferentes: aqui, pelo menos, pode haver um pouquinho de controvérsia.)Fμ,σ(x)=F((x−μ)/σ)
As propriedades importantes dependem do problema estatístico e de como você pretende analisar os dados. Abordar todas as variações sugeridas pelas características anteriores exigiria muito espaço para este meio. Vamos nos concentrar em um aplicativo importante e comum.
Tome, por exemplo, Máxima Verossimilhança. Na maioria dos aplicativos, você poderá usar o Cálculo para obter uma estimativa. Para que isso funcione, você deve poder "derivar" na família.
( Técnicas de lado: A maneira usual na qual isto é conseguido é o de seleccionar um domínio de d ≥ 0 e especificar um contínuo, localmente invertível função p de Θ em C Y (isto significa que, para cada. Q ∈ Θ lá existe uma bola B ( θ , ϵ ) , com ϵ > 0 para a qual p ∣ B ( θ , ϵ ) :Θ⊂Rd d≥0 p Θ CY θ∈Θ B(θ,ϵ) ϵ>0 é um-para-um. Em outras palavras, se alterarmos θ em uma quantidade suficientemente pequena, sempre obteremos uma distribuição diferente.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CY θ
Consequentemente, na maioria das aplicações de ML, exigimos que seja contínuo (e, esperançosamente, quase todo lugar diferenciável) no componente Θ . (Sem continuidade, maximizar a probabilidade geralmente se torna um problema intratável.) Isso leva à seguinte definição orientada a probabilidade de uma família paramétrica :p Θ
Observe que uma família paramétrica é mais do que apenas a coleção de F θ : também inclui a maneira específica pela qual os valores de parâmetros θ correspondem às distribuições.F Fθ θ
Vamos terminar com alguns exemplos ilustrativos.
Seja o conjunto de todas as distribuições normais. Como dado, essa não é uma família paramétrica: é apenas uma família. Para ser paramétrico, temos que escolher uma parametrização. Uma maneira é escolher Θ = { ( μ , σ ) ∈ R 2 | σ > 0 } e mapear ( μ , σ ) para a distribuição normal com média μ e variância σ 2 .CY Θ={(μ,σ)∈R2∣σ>0} (μ,σ) μ σ2
O conjunto de distribuições de Poisson(λ) é uma família paramétrica com .λ∈Θ=(0,∞)⊂R1
O conjunto de distribuições Uniform (que se destaca com destaque em muitos exercícios de livros didáticos) é uma família paramétrica com θ ∈ R 1 . Nesse caso, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) é diferenciável em θ, exceto por θ ∈ { x , x - 1 } .(θ,θ+1) θ∈R1 Fθ(x)=max(0,min(1,x−θ)) θ θ∈{x,x−1}
Deixe- e G ser quaisquer duas distribuições. Então F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) é uma família paramétrica para θ ∈ [ 0 , 1 ] . (Prova: a imagem de F é um conjunto de distribuições e sua derivada parcial em θ é igual a - F ( x ) + G (F G F(x,θ)=(1−θ)F(x)+θG(x) θ∈[0,1] F θ que é definido em qualquer lugar.)−F(x)+G(x)
A família de Pearson é uma família de quatro dimensões, , que inclui (entre outros) os distribuições normais, distribuições beta e distribuições Gama inversa. Isso ilustra o fato de que qualquer distribuição dada pode pertencer a muitas famílias diferentes de distribuição . Isso é perfeitamente análogo a observar que qualquer ponto em um espaço (suficientemente grande) pode pertencer a muitos caminhos que se cruzam ali. Isso, junto com a construção anterior, mostra que nenhuma distribuição determina exclusivamente uma família à qual ela pertence.Θ⊂R4
A família de todos finito-variância distribuições contínuas é absolutamente não paramétrico. A prova requer uma profunda teorema de topologia: se dotar C Y com qualquer topologia (se estatisticamente útil ou não) e p : q → C Y é contínua e localmente tem um inversa contínua, então localmente C Y tem de ter a mesma dimensão o de Θ . No entanto, em todas as topologias estatisticamente significativas, C Y é infinito dimensional.CY CY p:Θ→CY CY Θ CY
fonte
Para abordar um ponto específico levantado na pergunta: "família exponencial" não indica um conjunto de distribuições. (O padrão, digamos, distribuição exponencial é um membro da família de distribuições exponenciais, uma família exponencial; da família de distribuições gama, também uma família exponencial; da família de distribuições Weibull, não uma família exponencial; & de qualquer número de outras famílias que você pode imaginar.) Antes, "exponencial" aqui se refere a uma propriedade possuída por uma família de distribuições. Portanto, não devemos falar de "distribuições na família exponencial", mas de "famílias exponenciais de distribuições" - a primeira é um abuso de terminologia, como aponta @JuhoKokkala. Por alguma razão, ninguém comete esse abuso ao falar de famílias em escala de localização.
fonte
Graças ao @whuber, há informações suficientes para resumir o que, espero, seja uma forma mais simples relacionada à pergunta da qual este post surgiu. "Outro nome para uma família [ Sic , família estatística] é [um] modelo estatístico ".
A partir dessa entrada da Wikipedia: Um modelo estatístico consiste em todas as distribuições que supostamente governam nossas observações, mas, de outra forma, não sabemos qual distribuição é a atual. O que distingue um modelo estatístico de outros modelos matemáticos é que um modelo estatístico é não determinístico. Assim, em um modelo estatístico especificado por equações matemáticas, algumas das variáveis não possuem valores específicos, mas possuem distribuições de probabilidade; ou seja, algumas das variáveis são estocásticas. Um modelo estatístico é geralmente considerado como um par , onde S é o conjunto de possíveis observações, ou seja, o espaço amostral e P é um conjunto de distribuições de probabilidade em(S,P) S P .S
Suponha que tenhamos um modelo estatístico com P = { P θ : θ ∈ Θ } . O modelo é considerado um modelo paramétrico se etric tiver uma dimensão finita. Na notação, escrevemos que q ⊆ R d em que d é um inteiro positivo ( R denota os números reais; outros conjuntos podem ser utilizados, em princípio). Aqui, d é chamado de dimensão do modelo.(S,P) P={Pθ:θ∈Θ} Θ Θ⊆Rd d R d
fonte