Dados gaussianos distribuídos em uma única dimensão requerem dois parâmetros para caracterizá-los (média, variância), e há rumores de que cerca de 30 amostras selecionadas aleatoriamente são geralmente suficientes para estimar esses parâmetros com confiança razoavelmente alta. Mas o que acontece quando o número de dimensões aumenta?
Em duas dimensões (por exemplo, altura, peso), são necessários 5 parâmetros para especificar uma elipse de "melhor ajuste". Em três dimensões, isso aumenta para 9 parâmetros para descrever um elipsóide, e em 4-D são necessários 14 parâmetros. Estou interessado em saber se o número de amostras necessárias para estimar esses parâmetros também aumenta a uma taxa comparável, a uma taxa mais lenta ou (por favor, não!) A uma taxa mais alta. Melhor ainda, se houvesse uma regra geral amplamente aceita que sugerisse quantas amostras são necessárias para caracterizar uma distribuição gaussiana em um determinado número de dimensões, seria bom saber.
Para ser mais preciso, suponha que desejamos definir um limite simétrico de "melhor ajuste" centrado no ponto médio dentro do qual podemos ter certeza de que 95% de todas as amostras cairão. Quero saber quantas amostras são necessárias para encontrar os parâmetros para aproximar esse limite (intervalo em 1-D, elipse em 2-D etc.) com confiança adequadamente alta (> 95%) e como esse número varia conforme o o número de dimensões aumenta.
Respostas:
A quantidade de dados necessários para estimar os parâmetros de uma distribuição Normal multivariada com precisão especificada até uma determinada confiança não varia com a dimensão, sendo todas as outras coisas iguais. Portanto, você pode aplicar qualquer regra de ouro para duas dimensões a problemas dimensionais mais altos sem nenhuma alteração.
Por que deveria? Existem apenas três tipos de parâmetros: médias, variações e covariâncias. O erro de estimativa em uma média depende apenas da variação e da quantidade de dados, . Assim, quando ( X 1 , X 2 , ... , X d ) tem uma distribuição Normal multivariada e X i tem variações σ 2 i , então as estimativas de E [ X i ] dependem apenas de σ i e n . Portanto, para obter uma precisão adequada na estimativa de todos osn ( X1, X2, … , Xd) XEu σ2Eu E [ XEu] σEu n , precisamos apenas considerar a quantidade de dados necessários para o X i ter omaiordos σ i . Portanto, quando contemplamos uma sucessão de problemas de estimativa para aumentar as dimensões d , tudo o que precisamos considerar é quantoaumentaráo maior σ i . Quando esses parâmetros são delimitados acima, concluímos quea quantidade de dados necessária não depende da dimensão.E [ XEu] XEu σEu d σEu
Considerações semelhantes se aplicam à estimativa das variâncias covariâncias σ i j : se uma certa quantidade de dados for suficiente para estimar uma covariância (ou coeficiente de correlação) com a precisão desejada, então - desde que a distribuição normal subjacente tenha valores de parâmetros semelhantes - - a mesma quantidade de dados será suficiente para estimar qualquer covariância ou coeficiente de correlação.σ2Eu σeu j
Para ilustrar e fornecer suporte empírico para esse argumento, vamos estudar algumas simulações. A seguir, cria parâmetros para uma distribuição multinormal de dimensões especificadas, extrai muitos conjuntos independentes de vetores distribuídos de forma idêntica a partir dessa distribuição, estima os parâmetros de cada amostra e resume os resultados dessas estimativas de parâmetros em termos de (1) suas médias - - demonstrar que são imparciais (e o código está funcionando corretamente - e (2) seus desvios-padrão, que quantificam a precisão das estimativas. (Não confunda esses desvios-padrão, que quantificam a quantidade de variação entre as estimativas obtidas em múltiplos iterações da simulação, com os desvios padrão usados para definir a distribuição multinormal subjacente! muda, desde que, à medida que d mude, não introduzamos variações maiores na própria distribuição multinormal subjacente.d d
Os tamanhos das variâncias da distribuição subjacente são controlados nesta simulação, tornando o maior valor próprio da matriz de covariância igual a . Isso mantém a densidade de probabilidade "nuvem" dentro dos limites à medida que a dimensão aumenta, independentemente da forma que essa nuvem possa ter. Simulações de outros modelos de comportamento do sistema à medida que a dimensão aumenta podem ser criadas simplesmente alterando a maneira como os autovalores são gerados; Um exemplo (usando uma distribuição Gamma) é mostrado comentado no código abaixo.1
R
O que estamos procurando é verificar se os desvios padrão das estimativas de parâmetros não mudam sensivelmente quando a dimensão é alterada. Eu, portanto, mostram os resultados para dois extremos, d = 2 e d = 60 , utilizando a mesma quantidade de dados ( 30 ) em ambos os casos. Vale ressaltar que o número de parâmetros estimados quando d = 60 , igual a 1890 , excede em muito o número de vetores ( 30 ) e até os números individuais ( 30 × 60 = 1800 ) em todo o conjunto de dados.d d=2 d=60 30 d=60 1890 30 30∗60=1800
Vamos começar com duas dimensões, . Existem cinco parâmetros: duas variâncias (com desvios padrão de 0,097 e 0,182 nesta simulação), uma covariância (DP = 0,126 ) e duas médias (DP = 0,11 e 0,15 ). Com diferentes simulações (obtidas através da alteração do valor inicial da semente aleatória), elas variam um pouco, mas terão consistentemente um tamanho comparável quando o tamanho da amostra for n = 30 . Por exemplo, na próxima simulação, os SDs são 0,014 , 0,263 , 0,043 , 0,04 e 0,18d=2 0.097 0.182 0.126 0.11 0.15 n=30 0.014 0.263 0.043 0.04 0.18 , respectivamente: todos mudaram, mas são de ordens de magnitude comparáveis.
(Essas declarações podem ser apoiadas teoricamente, mas o objetivo aqui é fornecer uma demonstração puramente empírica.)
Agora passamos para , mantendo o tamanho da amostra em n = 30 . Especificamente, isso significa que cada amostra consiste em 30 vetores, cada um com 60 componentes. Em vez de listar todos os desvios-padrão de 1890 , vamos apenas ver fotos deles usando histogramas para representar seus intervalos.d=60 n=30 30 60 1890
Os gráficos de dispersão na linha superior comparam os parâmetros reaisσ μ 104
sigma
( ) e ( μ ) com as estimativas médias feitas durante as 10 4 iterações nesta simulação. As linhas de referência cinzas marcam o lócus da perfeita igualdade: claramente as estimativas estão funcionando como pretendido e são imparciais.mu
Os histogramas aparecem na linha inferior, separadamente para todas as entradas na matriz de covariância (esquerda) e para as médias (direita). Os DPs das variações individuais tendem a situar-se entre e 0,12, enquanto os DPs das covariâncias entre componentes separados tendem a situar-se entre 0,04 e 0,08 : exatamente na faixa alcançada quando d = 2 . Da mesma forma, os DPs das estimativas médias tendem a situar-se entre 0,08 e 0,13 , o que é comparável ao observado quando d = 2 . Certamente não há indicação de que os SDs tenham aumentado0.08 0.12 0.04 0.08 d=2 0.08 0.13 d=2 como subiu de 2 para 60 .d 2 60
O código segue.
fonte
Alguns breves números fornecem as seguintes distribuições de erro para o ajuste de 30 amostras criadas a partir de uma distribuição normal padrão e depois ajustadas a um gaussiano univariado.
Os quartis são indicados. Supõe-se que esse nível de variação seja desejado no caso multidimensional.
Não tenho tempo para bater no MatLab para obter o resultado total, por isso compartilharei minha "regra de ouro". Os 30 são fornecidos como regra geral, ou heurística, portanto, pressupõe-se que as heurísticas não sejam inaceitáveis.
Minha heurística é usar o triângulo de Pascal multiplicado pelo caso univariado.
Se eu estiver usando dados 2D, vou para a segunda linha e somará para obter 2x o número de amostras ou 60 amostras. Para dados em 3D, eu vou para a terceira linha e somamos para obter 4x o número de amostras ou 120 amostras. Para dados 5d, vou para a 5ª linha e somo-a para obter 16x o número de amostras, ou 480 amostras.
Boa sorte.
EDITAR:
Foi intuitivo, mas tudo tem que ser defendido em matemática. Não posso simplesmente pular da formulação de formas polinomiais da Finite Elements com experiência para obter uma estimativa.
Minha idéia para a abordagem aqui é equiparar o AIC de uma distribuição de dimensões mais altas com mais amostras a uma distribuição dimensional reduzida com menos amostras.
Para cada dimensão que eliminamos, isso significa que a média perde uma linha e a covariância perde uma linha e uma coluna. Podemos afirmar isso como
do
Assumir que o erro por ponto de amostra é constante relaciona a soma residual dos quadrados com a contagem de amostras e o termo no logaritmo permanece constante. A diferença na contagem de amostras se torna uma constante de escala.
então nós temos:
resolver para o aumento de amostras com dimensão fornece:
Neste ponto, eu diria que a heurística começa um pouco baixa, mas acaba sendo aproximadamente o dobro do número de amostras necessárias. Sua gama de melhor utilidade, na minha opinião pessoal, é de cerca de 4 dimensões.
EDITAR:
Então, eu li a resposta do @whuber e gostei. É empírico e, neste caso, autoritário. Votei na sua resposta.
A seguir, estou tentando discutir e esperando poder usar mais de ~ 300 caracteres, e espero poder incorporar imagens. Estou, portanto, discutindo dentro dos limites da resposta. Espero que isso esteja bem.
Neste momento, não estou convencido de que o uso da AIC para isso ou de que tamanho de amostra e tamanhos de parâmetro foram usados estava incorreto.
Próximos passos:
Comentários e sugestões são bem-vindos.
fonte