Como provar que a suposição múltipla está correta?

9

No aprendizado de máquina, geralmente é assumido que um conjunto de dados se baseia em uma variedade de baixa dimensão suave (a suposição de variedade), mas existe alguma maneira de provar que, assumindo que certas condições sejam satisfeitas, o conjunto de dados é realmente (aproximadamente) gerado de um coletor suave de baixa dimensão?

Por exemplo, dada uma sequência de dados que (diga a sequência de imagens de rosto com ângulos diferentes) e uma sequência de etiquetas correspondente que (digamos os ângulos da sequência de faces). Suponha que quando e estão muito próximos, seus rótulos e também estão muito próximos, podemos imaginar que é provável que{X1Xn} { y 1 ... y n } y 1 y 2 ... y n X i X i + 1 y i y i + 1 { X 1 ... X n }XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}deite-se em um coletor de baixa dimensão. Isso é verdade? Se sim, como podemos provar isso? Ou que condições a sequência precisa satisfazer para que a suposição múltipla possa ser comprovada como verdadeira?

thinkbear
fonte

Respostas:

10

Rapidamente se torna aparente, observando muitos relatos da "suposição múltipla", que muitos escritores são notavelmente desleixados quanto ao seu significado. Os mais cuidadosos o definem com uma ressalva sutil, mas extremamente importante : que os dados estejam em ou próximos a uma variedade de baixa dimensão.

Mesmo aqueles que não incluem a cláusula "ou próximo a" adotam claramente a premissa do coletor como uma ficção aproximada, conveniente para realizar análises matemáticas, porque suas aplicações devem contemplar desvios entre os dados e o coletor estimado. De fato, muitos escritores posteriormente introduzem um mecanismo explícito para desvios, como contemplar a regressão de contra que é forçado a ficar em uma variedade mas pode incluir desvios aleatórios. Isso equivale a supor que as tuplas estejam próximasx x M kR d y ( x i , y i ) kyxxMkRd y(xi,yi)para, mas não necessariamente, uma variedade dimensional imersa da formak

(x,f(x))Mk×RRd×RRd+1

para alguma função suave (regressão) . Como podemos ver todos os pontos perturbados , que estão meramente próximos do gráfico de (uma variedade dimensional ), sobre a -dimensional colector de , isso ajuda a explicar por que tais desleixo cerca de distinguir "on" do "próximo" pode ser sem importância em teoria. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

A diferença entre "on" e "near to" é extremamente importante para aplicativos. "Perto de" permite que os dados se desviem do coletor. Dessa forma, se você optar por estimar esse coletor, a quantidade típica de desvio entre os dados e o coletor poderá ser quantificada. Um coletor montado será melhor que outro quando a quantidade típica de desvio for menor, ceteris paribus.

Figura

A figura mostra duas versões da suposição do coletor para os dados (grandes pontos azuis): o coletor preto é relativamente simples (requer apenas quatro parâmetros para descrever), mas apenas "aproxima-se" dos dados, enquanto o coletor pontilhado vermelho se encaixa nos dados. perfeitamente, mas é complicado (são necessários 17 parâmetros).

Como em todos esses problemas, existe uma troca entre a complexidade da descrição do coletor e a qualidade do ajuste (o problema do excesso de ajuste). É sempre o caso de encontrar um coletor unidimensional que se encaixa perfeitamente em qualquer quantidade finita de dados em (como no coletor pontilhado vermelho da figura, basta executar uma curva suave em todos os pontos , em qualquer ordem: quase certamente não se cruzará, mas se o fizer, perturba a curva na vizinhança de qualquer interseção para eliminá-la). No outro extremo, se apenas uma classe limitada de variedades for permitida (como apenas hiperplanos euclidianos retos), um bom ajuste pode ser impossível, independentemente das dimensões, e o desvio típico entre dados e o ajuste pode ser grande.Rd

Isso leva a uma maneira direta e prática de avaliar a suposição múltipla: se o modelo / preditor / classificador desenvolvido a partir da suposição múltipla funciona de maneira aceitável, então a suposição foi justificada. Assim, as condições apropriadas buscadas na questão serão que alguma medida relevante de qualidade do ajuste seja aceitavelmente pequena. (Que medida? Depende do problema e equivale a selecionar uma função de perda.)

É possível que variedades de diferentes dimensões (com diferentes tipos de restrições em sua curvatura) possam ajustar os dados - e prever dados retidos - igualmente bem. Nada pode ser "provado" sobre a variedade "subjacente" em geral, especialmente quando se trabalha com conjuntos de dados humanos grandes e confusos. Tudo o que normalmente podemos esperar é que o coletor instalado seja um bom modelo.

Se você não criar um bom modelo / preditor / classificador, a suposição de variedade é inválida, você está assumindo variedades de dimensão muito pequena ou não olhou o suficiente ou suficientemente bem.

whuber
fonte
11
+1 Muito bom. Permitam-me acrescentar (sem sugerir que você compartilha da minha opinião) que isso mostra mais uma vez por que a maneira de pensar de princípios, mas cética e muitas vezes hesitante, que tem sido cultivada em estatísticas ao longo de muitos anos é muito importante para o novo, muitas vezes vago, rápido e brilhante. mundo do brinquedo do aprendizado de máquina e da ciência de dados.
Momo
5

Qualquer conjunto finito de pontos pode caber em qualquer variedade (referência do teorema necessária, não consigo me lembrar qual é o teorema, apenas lembro esse fato da uni).

Se não se deseja que todos os pontos sejam identificados, a menor dimensão possível é 1.

Tome como exemplo simples, dados os pontos N 2d, existe algum polinômio de ordem N - 1 em que todos os pontos N estão no polinômio. Portanto, temos um coletor 1d para qualquer conjunto de dados 2d. Eu acho que a lógica para dimensões arbitrárias é semelhante.

Portanto, não é esse o problema, as suposições reais estão na estrutura / simplicidade do coletor, principalmente ao tratar os coletores Riemannianos conectados como espaços métricos. Eu li artigos sobre este múltiplo hocus pocus e descobri que, se você ler com cuidado, surgem suposições muito grandes!

As suposições feitas são quando se supõe que a definição induzida de "proximidade" preserva as informações em nosso conjunto de dados, mas, como isso não é formalmente definido em termos da Teoria da Informação, a definição resultante é bastante ad hoc e, de fato, uma suposição bastante grande. Em particular, o problema parece ser que a "proximidade" é preservada, ou seja, dois pontos próximos, permanecem próximos, mas essa "farteza" não é e, portanto, dois pontos "distantes" não ficam distantes.

Em conclusão, eu ficaria muito cauteloso com tais truques no aprendizado de máquina, a menos que se saiba que o conjunto de dados é de fato naturalmente euclidiano, por exemplo, reconhecimento de padrões visuais. Eu não consideraria essas abordagens apropriadas para problemas mais gerais.

samthebest
fonte
Obrigado! Sua resposta me ajudou a entender melhor o problema. Você poderia recomendar alguns dos documentos sobre a suposição múltipla que você mencionou aqui?
thinkbear
Desculpe não não consigo lembrar, o Google deve ser capaz de ajuda :)
samthebest