Se eu tiver um hipercubo de 50 dimensões. E eu defino seu limite por ou onde x_j é a dimensão do hipercubo. O cálculo da proporção de pontos no limite do hipercubo será de 0,995 . O que isso significa? Isso significa que o restante do espaço está vazio? Se 99 \% dos pontos estiverem no limite, os pontos dentro do cubo não devem ser distribuídos uniformemente?
machine-learning
math
Rohit Kumar Singh
fonte
fonte
Respostas:
Falar em dos pontos em um hipercubo ' é um pouco enganador, pois um hipercubo contém infinitamente muitos pontos. Vamos falar sobre o volume.99%
O volume de um hipercubo é o produto de seus comprimentos laterais. Para a unidade hypercube 50 dimensional chegarmosTotal volume=1×1×⋯×150 times=150=1.
Agora vamos excluir os limites do hipercubo e olhar para o ' interior ' (coloquei entre aspas porque o termo matemático interior tem um significado muito diferente). Mantemos apenas os pontosx = ( x1 1, x2, … , X50.) que satisfazem
0,05 < x1 1< 0,95 e 0,05 < x2< 0,95 e … e 0,05 < x50.< 0,95.
Qual é o volume desse 'interior'? Bem, o 'interior' é novamente um hipercubo, e o comprimento de cada lado é0,9 (= 0,95 - 0,05 ... ajuda a imaginar isso em duas e três dimensões). Assim, o volume éVolume interior = 0,9 × 0,9 × ⋯ × 0,950 vezes= 0,950.≈ 0,005.
Conclua que o volume do 'limite' (definido como o hipercubo unitário sem o 'interior ') é 1 - 0,950.≈ 0,995.
Isso mostra que99,5 % do volume de um hipercubo de 50 dimensões está concentrado em seu ' limite '.
Acompanhamento: Inácio levantou uma questão interessante sobre como isso está relacionado à probabilidade. Aqui está um exemplo.
Digamos que você tenha apresentado um modelo (aprendizado de máquina) que prevê os preços da habitação com base em 50 parâmetros de entrada. Todos os 50 parâmetros de entrada são independentes e distribuídos uniformemente entre0 0 e 1 1 .
Digamos que seu modelo funcione muito bem se nenhum dos parâmetros de entrada for extremo: desde que todos os parâmetros de entrada fiquem entre0,05 e 0,95 , seu modelo prediz o preço da moradia quase perfeitamente. Mas se um ou mais parâmetros de entrada forem extremos (menores que 0,05 ou maiores que 0,95 ), as previsões do seu modelo são absolutamente terríveis.
Qualquer parâmetro de entrada é extremo, com uma probabilidade de apenas10 % . Claramente, este é um bom modelo, certo? Não! A probabilidade de pelo menos um dos 50. parâmetros ser extrema é 1 - 0,950.≈ 0,995.
Portanto, em 99,5 % dos casos, a previsão do seu modelo é terrível.
Regra prática : em grandes dimensões, observações extremas são a regra e não a exceção.
fonte
Você pode ver o padrão claramente, mesmo em dimensões inferiores.
1ª dimensão. Pegue uma linha de comprimento 10 e um limite de 1. O comprimento do limite é 2 e a proporção interna 8, 1: 4.
2ª dimensão. Pegue um quadrado do lado 10 e o limite 1 novamente. A área do limite é 36, a proporção 64 interior, 9:16.
3ª dimensão. Mesmo comprimento e limite. O volume do limite é 488, o interior é 512, 61:64 - já o limite ocupa quase tanto espaço quanto o interior.
4ª dimensão, agora o limite é 5904 e o interior 4096 - o limite agora é maior.
Mesmo para comprimentos de limite cada vez menores, à medida que a dimensão aumenta, o volume do limite sempre ultrapassa o interior.
fonte
A melhor maneira de "entendê-lo" (embora seja impossível para o ser humano) é comparar os volumes de uma bola n-dimensional e de um cubo n-dimensional. Com o crescimento de n (dimensionalidade), todo o volume da bola "vaza" e se concentra nos cantos do cubo. Este é um princípio geral útil a ser lembrado na teoria da codificação e em suas aplicações.
A melhor explicação do livro está no livro de Richard W. Hamming "Teoria da codificação e informação" (3.6 Geometric Approach, p. 44).
O pequeno artigo da Wikipedia fornecerá um breve resumo do mesmo se você tiver em mente que o volume de um cubo de unidade n-dimensional é sempre 1 ^ n.
Eu espero que isso ajude.
fonte