Existem muitas técnicas para a visualização de conjuntos de dados de alta dimensão, como T-SNE, isomap, PCA, PCA supervisionado, etc. " Alguns desses métodos de incorporação (aprendizado múltiplo) são descritos aqui .
Mas essa "imagem bonita" é realmente significativa? Que idéias possíveis alguém pode obter tentando visualizar esse espaço incorporado?
Eu pergunto porque a projeção para esse espaço incorporado geralmente não tem sentido. Por exemplo, se você projetar seus dados nos principais componentes gerados pelo PCA, esses componentes principais (vetores eigan) não corresponderão aos recursos no conjunto de dados; eles são seu próprio espaço de recurso.
Da mesma forma, o t-SNE projeta seus dados em um espaço, onde os itens estão próximos um do outro, se minimizarem alguma divergência de KL. Esse não é mais o espaço original do recurso. (Corrija-me se estiver errado, mas nem acho que a comunidade de ML faça um grande esforço para usar o t-SNE para ajudar na classificação; esse é um problema diferente do que a visualização de dados.)
Estou muito confuso por que as pessoas fazem um grande negócio sobre algumas dessas visualizações.
Respostas:
Tomo como exemplo o Processamento de linguagem natural, porque esse é o campo em que tenho mais experiência, por isso incentivo outras pessoas a compartilhar suas idéias em outros campos, como em visão computacional, bioestatística, séries temporais, etc. Tenho certeza de que nesses campos existem exemplos semelhantes.
Concordo que às vezes as visualizações de modelos podem não ter sentido, mas acho que o principal objetivo das visualizações desse tipo é ajudar-nos a verificar se o modelo está realmente relacionado à intuição humana ou a algum outro modelo (não computacional). Além disso, a Análise Exploratória de Dados pode ser realizada nos dados.
Vamos supor que temos um modelo de incorporação de palavras criado a partir do corpus da Wikipedia usando Gensim
Teríamos então um vetor de 100 dimensões para cada palavra representada naquele corpus presente pelo menos duas vezes. Portanto, se quiséssemos visualizar essas palavras, teríamos que reduzi-las para 2 ou 3 dimensões usando o algoritmo t-sne. Aqui é onde surgem características muito interessantes.
Veja o exemplo:
vetor ("rei") + vetor ("homem") - vetor ("mulher") = vetor ("rainha")
Aqui cada direção codifica certas características semânticas. O mesmo pode ser feito em 3d
(fonte: tensorflow.org )
Veja como, neste exemplo, o tempo passado está localizado em uma determinada posição correspondente ao seu particípio. O mesmo para o gênero. O mesmo acontece com países e capitais.
No mundo da incorporação de palavras, modelos mais antigos e mais ingênuos, não tinham essa propriedade.
Veja esta palestra em Stanford para mais detalhes. Representações simples de vetores de palavras: word2vec, GloVe
Eles estavam limitados a agrupar palavras semelhantes, sem considerar a semântica (gênero ou tempo verbal não foram codificados como direções). Sem surpresa, os modelos que possuem uma codificação semântica como direções em dimensões inferiores são mais precisos. E mais importante, eles podem ser usados para explorar cada ponto de dados de uma maneira mais apropriada.
Nesse caso em particular, não acho que o t-SNE seja usado para ajudar na classificação em si, é mais como uma verificação de sanidade do seu modelo e, às vezes, para encontrar informações sobre o corpus específico que você está usando. Quanto ao problema dos vetores não estarem mais no espaço original. Richard Socher explica na palestra (link acima) que vetores de baixa dimensão compartilham distribuições estatísticas com sua própria representação maior, bem como outras propriedades estatísticas que tornam plausível analisar visualmente em vetores de incorporação de dimensões inferiores.
Recursos adicionais e fontes de imagem:
http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/
https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F
http://deeplearning4j.org/word2vec.html
https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F
fonte
Primeiro de tudo, sua explicação sobre os métodos está correta. O ponto é que os algoritmos de incorporação não são apenas para visualizar, mas basicamente reduzem a dimensão para lidar com dois problemas principais na análise estatística de dados, a saber: Maldição de dimensão e problema de tamanho de amostra baixo, para que eles não devam descrever características fisicamente compreendidas e não são apenas significativos, mas também são necessários para a análise dos dados!
Na verdade, a visualização é quase o último uso dos métodos de incorporação. Projetar dados de alta dimensão em um espaço de menor dimensão ajuda a preservar as distâncias reais em pares (principalmente as euclidianas) que são distorcidas nas altas dimensões ou capturam o máximo de informações incorporadas na variação de diferentes recursos.
fonte
Richard Hamming é atribuído à frase: "O objetivo da computação é discernimento, não números". Neste artigo acadêmico de 1973 (veja a discussão em Qual é o famoso conjunto de dados que parece totalmente diferente, mas possui estatísticas de resumo semelhantes?), Francis Anscombe argumenta que "os gráficos são essenciais para uma boa análise estatística". O quarteto de Anscombe é o favorito há muito tempo: mesmas estatísticas e regressão, baixa dimensão, mas comportamento muito diferente em relação a ruídos, outliers, dependência. A projeção de dados em 11 dimensões em duas dimensões mostradas abaixo é bastante enganadora: uma tem correlação e dispersão, a segunda (de baixo para baixo) tem correspondência exata, exceto uma que seja estranha. O terceiro tem uma relação clara, mas não linear. O quarto mostra que as variáveis não estão potencialmente relacionadas, exceto por um limite.
No livro Análise multivariada para as ciências sociais e biológicas, de Bruce L. Brown et al. , podemos encontrar:
Seja limitado ao espaço 3D, até seis gráficos de dimensões (espaço, cor, forma e tempo) ou até mesmo imaginando a décima dimensão , os seres humanos têm vistas limitadas. Relações entre fenômenos observáveis: não.
Além disso, a maldição das dimensões é variada, mesmo com paradoxos de baixa dimensão, para fornecer alguns:
Mesmo que todas as normas sejam equivalentes em dimensões finitas, os relacionamentos entre variáveis podem ser enganosos. Essa é uma razão para preservar distâncias de um espaço para outro. Tais conceitos estão no cerne das incorporações de menor dimensão para sinais (como sensor compressivo e o lema de Johnson-Lindenstauss sobre incorporação de pontos de baixa distorção do espaço euclidiano de alta dimensão para o espaço de baixa dimensão) ou recursos ( transformações de dispersão para classificações) .
Portanto, a visualização é outra ajuda para obter informações sobre os dados e acompanha os cálculos, incluindo a redução de dimensão.
Em duas dimensões, a bola azul central é pequena. Em 3D também. Mas muito rapidamente, a bola central cresce e seu raio excede o do cubo. Esse insight é vital no agrupamento, por exemplo.
fonte
Com base nas declarações e nas discussões, acho que há um ponto importante a ser distinto. Uma transformação em um espaço dimensional inferior pode reduzir a informação, que é algo diferente de tornar a informação sem sentido . Deixe-me usar uma analogia a seguir:
Observar (2D) imagens do nosso mundo (3D) é uma prática usual. Um método de visualização fornece apenas "óculos" diferentes para ver um espaço dimensional alto.
Uma boa coisa para "confiar" em um método de visualização é entender os elementos internos. Meu exemplo favorito é o MDS . É fácil implementar esse método por conta própria usando alguma ferramenta de otimização (por exemplo, R optim ). Então você pode ver como as palavras do método, você pode medir o erro do resultado, etc.
No final, você obtém uma imagem preservando a semelhança dos dados originais com algum grau de precisão. Nem mais, mas não menos.
fonte
Às vezes, é significativo visualizar dados de alta dimensão, pois podem nos dizer física.
Há pelo menos um exemplo na astrofísica em que você projeta seus dados nos principais componentes gerados pelo PCA e esses componentes principais correspondem a muitas informações físicas sobre as galáxias. Para detalhes, consulte a última figura em http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2
e o papel em
http://iopscience.iop.org/article/10.1086/425626/pdf
Aqui está a ideia básica. Os autores aplicam o PCA a muitos espectros (por exemplo, 10.000) de um telescópio. Cada espectro tem ~ 1000 atributos. Como esse conjunto de dados possui grandes dimensões, é difícil visualizá-lo. No entanto, os 4 primeiros componentes do PCA revelam muita física sobre os espectros (consulte as seções 4.1-4.4 no documento acima).
fonte
Adotando uma abordagem ligeiramente diferente das outras ótimas respostas aqui, a "imagem bonita" vale mais que mil palavras. Por fim, você precisará transmitir suas descobertas a alguém que não seja tão estatisticamente instruído, ou que simplesmente não tenha tempo, interesse ou o que seja, para entender toda a situação. Isso não significa que não podemos ajudar a pessoa a entender, pelo menos um conceito geral ou um pedaço da realidade. É isso que livros como Freakonomics fazem - há pouca ou nenhuma matemática, nenhum conjunto de dados e, no entanto, as descobertas ainda são apresentadas.
Nas artes, veja o marechal Ney no Retreat, na Rússia . Essa enorme simplificação excessiva das guerras napoleônicas transmite grande significado e permite que as pessoas com o conhecimento mais ignorante da guerra compreendam a brutalidade, o clima, a paisagem, a morte e o decoro que permeavam a invasão da Rússia.
Em última análise, os gráficos são simplesmente comunicação e, para o bem ou para o mal, a comunicação humana muitas vezes se concentra na fusão, simplificação e brevidade.
fonte
Excelente pergunta. No capítulo 4 de "Iluminando o caminho, a agenda de pesquisa e desenvolvimento para análise visual", de James J. Thomas e Kristin A. Cook, é uma discussão sobre representações e transformações de dados. Em minha pesquisa, abordei essa questão no contexto da análise de fatores de risco (PCA) e análise fatorial. Minha breve resposta é que as visualizações são úteis se houver uma transformação de dados para passar do espaço de visualização para o espaço de dados original. Além disso, isso seria realizado dentro de uma estrutura de análise visual.
fonte