Por que a solução menos quadrada fornece resultados ruins neste caso?

21

Há uma imagem na página 204, capítulo 4 de "reconhecimento de padrões e aprendizado de máquina", de Bishop, onde não entendo por que a solução Menos Quadrada fornece resultados ruins aqui:

insira a descrição da imagem aqui

O parágrafo anterior era sobre o fato de que as soluções de mínimos quadrados carecem de robustez para os valores discrepantes, como você vê na imagem a seguir, mas não entendo o que está acontecendo na outra imagem e por que o LS também fornece resultados ruins lá.

insira a descrição da imagem aqui

Gigili
fonte
Parece que isso faz parte de um capítulo sobre discriminação entre conjuntos. No seu primeiro par de gráficos, o da esquerda claramente não distingue bem entre os três conjuntos de pontos. Isso responde à sua pergunta? Caso contrário, você pode esclarecer?
Peter Flom - Restabelece Monica
@ PeterFlom: A solução LS dá maus resultados para o primeiro, quero saber o motivo. E sim, é o último parágrafo da seção sobre classificação LS, onde todo o capítulo é sobre funções discriminantes lineares.
Gigili

Respostas:

6

3

Na ESL , Figura 4.2 na página 105, o fenômeno é chamado de mascaramento . Veja também a Figura 4.3 da ESL. A solução dos mínimos quadrados resulta em um preditor para a classe middel que é predominantemente dominado pelos preditores para as outras duas classes. LDA ou regressão logística não sofrem com esse problema. Pode-se dizer que é a estrutura rígida do modelo linear de probabilidades de classe (que é essencialmente o que você obtém dos mínimos quadrados adequados) que causa o mascaramento.

Edit: Mascarar é talvez mais facilmente visualizado para um problema bidimensional, mas também é um problema no caso unidimensional, e aqui a matemática é particularmente simples de entender. Suponha que as variáveis ​​de entrada unidimensionais sejam ordenadas como

x1<<xk<y1<ym<z1<<zn

xyz

110000TT001100000011xTx1xky1ymz1zn

Txxzy-classe, a regressão linear terá que equilibrar os zeros para as duas classes externas com os da classe média, resultando em uma linha de regressão bastante plana e em um ajuste particularmente ruim das probabilidades de classe condicional para essa classe. Como se vê, o máximo das linhas de regressão para as duas classes externas domina a linha de regressão da classe média para a maioria dos valores da variável de entrada, e a classe média é mascarada pelas classes externas.

insira a descrição da imagem aqui

k=m=n(x¯,1/3)

x¯=13k(x1+...+xk+y1+...+ym+z1+...+zn).
NRH
fonte
2

Com base no link fornecido abaixo, as razões pelas quais o discriminante LS não está apresentando um bom desempenho no gráfico superior esquerdo são as seguintes: -
Falta de robustez aos valores extremos.
- Certos conjuntos de dados inadequados para a classificação de mínimos quadrados.
- O limite de decisão corresponde à solução ML sob distribuição condicional gaussiana. Mas os valores-alvo binários têm uma distribuição longe do gaussiano.

Veja a página 13 em Desvantagens dos mínimos quadrados.

Stat
fonte
1

Acredito que a questão em seu primeiro gráfico seja chamada "mascaramento" e seja mencionada em "Os elementos do aprendizado estatístico: mineração, inferência e previsão de dados" (Hastie, Tibshirani, Friedman. Springer 2001), páginas 83-84.

Intuitivamente (o melhor que posso fazer), acredito que isso ocorre porque as previsões de uma regressão OLS não são restritas a [0,1], portanto, você pode terminar com uma previsão de -0,33 quando quiser realmente mais como 0 .. 1, que você pode obter no caso de duas classes, mas quanto mais classes você tiver, maior será a probabilidade de essa incompatibilidade causar um problema. Eu acho que.

Wayne
fonte
1

O quadrado mínimo é sensível à escala (porque os novos dados são de escala diferente, distorcem o limite de decisão), geralmente é necessário aplicar pesos (significa que os dados para entrar no algoritmo de otimização são da mesma escala) ou executar uma transformação adequada (centro médio, log (1 + dados) ... etc) nos dados nesses casos. Parece que o Least Square funcionaria perfeitamente se você solicitar uma operação de classificação 3 e nesse caso e mesclar duas classes de saída eventualmente.

dfhgfh
fonte