O que se entende por proximidade em florestas aleatórias?

11

Me deparei com o termo proximidade em florestas aleatórias. Mas não conseguia entender o que faz em florestas aleatórias. Como isso ajuda para fins de classificação?

user3796494
fonte

Respostas:

12

O termo "proximidade" significa "proximidade" ou "proximidade" entre pares de casos.

As proximidade são calculadas para cada par de casos / observações / pontos de amostra. Se dois casos ocupam o mesmo nó terminal através de uma árvore, sua proximidade é aumentada em um. No final da execução de todas as árvores, as proximidades são normalizadas dividindo pelo número de árvores. Proximidades são usadas na substituição de dados ausentes, na localização de outliers e na produção de vistas iluminadas em baixa dimensão dos dados.

Proximidades

As proximidades formaram originalmente uma matriz NxN. Depois que uma árvore for cultivada, coloque todos os dados, tanto de treinamento quanto de elevação, na árvore. Se os casos k e n estiverem no mesmo nó terminal, aumente a proximidade em um. No final, normalize as proximidades dividindo pelo número de árvores.

Os usuários observaram que, com grandes conjuntos de dados, eles não podiam ajustar uma matriz NxN na memória rápida. Uma modificação reduziu o tamanho de memória necessário para NxT, onde T é o número de árvores na floresta. Para acelerar o dimensionamento intensivo em computação e a substituição iterativa de valor ausente, o usuário tem a opção de manter apenas as nrnn maiores proximidades de cada caso.

Quando um conjunto de testes está presente, as proximidades de cada caso no conjunto de testes com cada caso no conjunto de treinamento também podem ser calculadas. A quantidade de computação adicional é moderada.

citação: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

sinalpha
fonte
O que significa "nrnn"? Eu estava lendo a página de Adele Cutler (ou possivelmente de Breiman, como não sei quem está criando o que aqui) nas RFs, e não consigo encontrar onde eles definem nrnn. (Pode muito bem ser um termo álgebra linear com a qual eu esteja familiarizado.
Tanner Strunk
nrnn = o número de vizinhos mais próximos para o qual calcular as proximidades. Fonte: math.usu.edu/adele/RandomForests/ENAR.pdf página 161
klumbard
0

Observe que os autores do Elements of Statistical Learning afirmam que "os gráficos de proximidade para florestas aleatórias costumam parecer muito semelhantes, independentemente dos dados, o que coloca em dúvida sua utilidade. Eles tendem a ter uma forma de estrela, um braço por classe, o que é mais pronunciado, melhor o desempenho da classificação ". (p 595)

No entanto, acho que esses autores não mencionam as maneiras pelas quais as florestas aleatórias lidam tanto com dados ausentes (mesmo que mencionem dados ausentes com árvores no início do livro); talvez os autores não tenham destacado tanto esse aspecto das RFs, o que faz sentido, considerando que o livro é enorme e possui muitas informações sobre muitos tópicos / técnicas de aprendizado de máquina. No entanto, não acho que ter os gráficos dê formas semelhantes a qualquer RF e conjunto de dados significa algo negativo sobre os RFs em geral. Por exemplo, a regressão linear basicamente sempre parece a mesma, mas vale a pena saber quais pontos estão próximos à linha e quais parecem ser extremos da perspectiva da regressão linear. Então ... o comentário deles sobre a utilidade dos gráficos de proximidade não faz sentido para mim.

Tanner Strunk
fonte