É bem sabido (por exemplo, no campo do sensoriamento compressivo) que a norma é "indutora de dispersão", no sentido de que se minimizarmos o funcional (para matriz fixa A e vetor → b ) f A , → b ( → x ) = ‖ A → x - → b ² 2 2 + λ ″ → x ″ 1 para um tamanho suficientemente grande λ > 0 , é provável que haja muitas opções de A , → b
E ter muitas exatamente de zero entradas na resultante → x .
Mas se minimizarmos sob a condição de que as entradas de → x sejam positivas e somadas a 1 , o termo L 1 não terá nenhum efeito (porque " → x " 1 = 1 por decreto). Existe uma análoga L 1 do tipo regularizer que as obras neste caso para incentivar que a resultante → x é escassa?
regression
matrix
normalization
regularization
sparse
Justin Solomon
fonte
fonte
Respostas:
Um método geral para criar soluções esparsas é via estimativa MAP com uma média normal zero antes de uma variação desconhecida.
Se você atribuir um antes de que tem um modo em zero, o modo posterior geralmente é escasso. O L 1 surge com esta abordagem, tendo uma distribuição de mistura exponencial.σ2i L1
Então você recebe
Algumas alternativas são o duplo pareto generalizado, meio cauchy e beta invertido. Em certo sentido, estes são melhores que o laço, porque não encolhem valores grandes. Na verdade, tenho certeza de que o duplo pareto generalizado pode ser escrito como uma mistura de exponenciais. Ou seja, escrevemosλ=λi p(λi|αβ)
Observe que incluí constantes de normalização, pois elas ajudam a escolher bons parâmetros globais. Agora, se aplicarmos a restrição de intervalo, teremos um problema mais complicado, pois precisamos renormalizar sobre o simplex.
Outra característica genérica das penalidades de indução de escarsidade é que elas não são diferenciáveis em zero. Normalmente, isso ocorre porque os limites esquerdo e direito são de sinal oposto.
Isso se baseia no brilhante trabalho de Nicolas Polson e James Scott sobre representações médias de variância que eles usam para desenvolver o TIRLS - uma extensão massiva de mínimos quadrados para uma classe muito grande de combinações de penalidade por perda.
Como alternativa, você pode usar um prior que é definido no simplex, mas tem modos nas distribuições marginais em zero. Um exemplo é a distribuição de dirichlet com todos os parâmetros entre 0 e 1. A penalidade implícita seria semelhante a:
fonte
Duas opções:
fonte
fonte
Eu posso pensar em três métodos.
Método bayesiano: introdução de uma distribuição prévia com média zero e uso da probabilidade do tipo II para estimar os parâmetros e hiper parâmetros.
De fato, o primeiro e o terceiro métodos são os mesmos.
fonte