Na técnica de redução de dimensionalidade, como Análise de Componentes Principais, LDA etc, geralmente o termo coletor é usado. O que é um coletor em termos não técnicos? Se um ponto pertencer a uma esfera cuja dimensão eu quero reduzir, e se houver um ruído e e não estiverem correlacionados, os pontos reais estarão muito separados um do outro devido ao ruído. Portanto, seria necessária uma filtragem de ruído. Portanto, a redução de dimensão seria realizada em . Portanto, aqui e pertencem a variedades diferentes?y x y x z = x + y x y
Estou trabalhando em dados da nuvem de pontos que são frequentemente usados na visão de robô; as nuvens de pontos são barulhentas devido ao ruído na aquisição e preciso reduzir o ruído antes da redução de dimensão. Caso contrário, receberei uma redução de dimensão incorreta. Então, qual é o coletor aqui e o ruído faz parte do mesmo coletor ao qual pertence?
fonte
Respostas:
Em termos não técnicos, um coletor é uma estrutura geométrica contínua com dimensão finita: uma linha, uma curva, um plano, uma superfície, uma esfera, uma bola, um cilindro, um toro, um "blob" ... algo assim :
É um termo genérico usado pelos matemáticos para dizer "uma curva" (dimensão 1) ou "superfície" (dimensão 2) ou um objeto 3D (dimensão 3) ... para qualquer dimensão finita possível . Um coletor unidimensional é simplesmente uma curva (linha, círculo ...). Um coletor bidimensional é simplesmente uma superfície (plano, esfera, toro, cilindro ...). Um coletor tridimensional é um "objeto completo" (bola, cubo cheio, o espaço 3D ao nosso redor ...).n
Um coletor é frequentemente descrito por uma equação: o conjunto de pontos , como é um coletor unidimensional (um círculo).x 2 + y 2 = 1( x , y) x2+ y2= 1
Um coletor tem a mesma dimensão em todos os lugares. Por exemplo, se você anexar uma linha (dimensão 1) a uma esfera (dimensão 2), a estrutura geométrica resultante não será uma variedade.
Diferentemente das noções mais gerais de espaço métrico ou espaço topológico, também destinadas a descrever nossa intuição natural de um conjunto contínuo de pontos, uma variedade deve ser algo localmente simples: como um espaço vetorial de dimensão finita: . Isso exclui espaços abstratos (como espaços de dimensão infinita) que geralmente falham em ter um significado concreto geométrico.Rn
Diferentemente de um espaço vetorial, os coletores podem ter várias formas. Alguns coletores podem ser facilmente visualizados (esfera, bola ...), outros são difíceis de visualizar, como a garrafa de Klein ou o plano projetivo real .
Em estatística, aprendizado de máquina ou matemática aplicada em geral, a palavra "variedade" é frequentemente usada para dizer "como um subespaço linear", mas possivelmente curvada. Sempre que você escrever uma equação linear como: você obtém um subespaço linear (afim) (aqui um plano). Normalmente, quando a equação é não linear como , essa é uma variedade (aqui uma esfera esticada).x 2 + 2 y 2 + 3 z 2 = 73 x + 2 anos- 4 z= 1 x2+ 2 anos2+ 3 z2= 7
Por exemplo, a " hipótese do coletor " de ML diz que "dados de alta dimensão são pontos em um coletor de baixa dimensão com adição de ruído dimensional". Você pode imaginar pontos de um círculo 1D com algum ruído 2D adicionado. Enquanto os pontos não estão exatamente no círculo, eles satisfazem estatisticamente a equação . O círculo é a variedade subjacente:x2+ y2= 1
fonte
Um coletor (topológico) é um espaço que é:M
"Locally", the "equivalence" can be expressed vian coordinate functions, cEu: M→ R , which together form a "structure-preserving" function, c : M→ Rn , called a chart.
Observe que, para tornar a "estrutura" precisa aqui, é preciso entender noções básicas de topologia ( def. ), O que permite fazer noções precisas do comportamento "local" e, portanto, "localmente" acima. Quando digo "equivalente", quero dizer estrutura topológica equivalente ( homeomórfica ), e quando digo "preservação de estrutura" quero dizer a mesma coisa (cria uma estrutura topológica equivalente).
Observe também que, para fazer o cálculo em variedades , é necessário uma condição adicional que não se segue das duas condições acima, que basicamente dizem algo como "os gráficos são bem comportados o suficiente para permitir o cálculo". Estes são os coletores usados com mais frequência na prática. Diferentemente das variedades topológicas gerais , além do cálculo, elas também permitem triangulações , o que é muito importante em aplicativos como o seu envolvendo dados de nuvem de pontos .
Observe que nem todas as pessoas usam a mesma definição para uma variedade (topológica). Vários autores a definirão como satisfazendo apenas a condição (1) acima, não necessariamente também (2). No entanto, a definição que satisfaz tanto (1) como (2) é muito melhor comportada, portanto, mais útil para os praticantes. Pode-se esperar intuitivamente que (1) implica (2), mas na verdade não.
fonte
Nesse contexto, o termo coletor é preciso, mas é desnecessariamente alto -falutina. Tecnicamente, uma variedade é qualquer espaço (conjunto de pontos com uma topologia) que seja suficientemente suave e contínuo (de uma maneira que possa, com algum esforço, ser feita matematicamente bem definida).
Imagine o espaço de todos os valores possíveis de seus fatores originais. Após uma técnica de redução dimensional, nem todos os pontos nesse espaço são atingíveis. Em vez disso, apenas os pontos em algum subespaço incorporado dentro desse espaço serão atingíveis. Esse subespaço incorporado cumpre a definição matemática de uma variedade. Para uma técnica linear de redução dimensional como PCA, esse subespaço é apenas um subespaço linear (por exemplo, um hiperplano), que é uma variedade relativamente trivial. Mas para a técnica de redução dimensional não linear, esse subespaço poderia ser mais complicado (por exemplo, uma hiper superfície superficial curva). Para fins de análise de dados, entender que esses são subespaços é muito mais importante do que qualquer inferência que você extrairia ao saber que eles cumprem a definição de variedade.
fonte