Sua pergunta aborda o problema "exato" de recuperação (queremos recuperar um k-esparso exatamente dado A x ). Em seguida que eu incidirá sobre a versão "robusto", onde x é um vetor arbitrário e o objetivo do algoritmo de recuperação é encontrar um k -sparse aproximação x ' para x (esta distinção realmente importa para alguns de discussão abaixo ) Formalmente, você deseja o seguinte problema (chame-o de P 1 ):xAxxkx′xP1
Projeto tal que para qualquer x pode-se recuperar x ' onde
‖ x - x ' ‖ L ≤Axx′∥x−x′∥L≤
, em que x " varia sobre todos osvetores k- separados.minx"C∥x−x"∥Rx"k
Aqui, e ‖ ⋅ ‖ R denotar a esquerda e a norma direita, e C é o "fator de aproximação". Existem várias opções possíveis para ‖ ⋅ ‖ L e ‖ ⋅ ‖ R . Para concretude, pode-se pensar que ambos são iguais a ℓ 2 ou ℓ 1 ; pode ficar mais bagunçado.∥⋅∥L∥⋅∥RC∥⋅∥L∥⋅∥Rℓ2ℓ1
Agora, para alguns dos análogos e generalizações.
Base arbitrária. Primeiro, observe que qualquer esquema que satisfaça a definição acima pode ser usado para resolver um problema mais geral, em que o sinal recuperado é escasso de forma arbitrária (por exemplo, wavelet de Fourier), não apenas o padrão. Seja B a matriz base. Formalmente, um vetor u é k- separado na base B se u = B v onde v é k- separado. Agora podemos considerar o problema generalizado (chamemos-lhe P B ):x′BukBu=BvvkPB
Projeto tal que dada A B x , pode-se recuperar x ' onde ‖ x - x ' ‖ L ≤ABABxx′∥x−x′∥L≤
, em que x " varia mais de todos os vectores que são k -sparse em B .minx"C∥x−x"∥Rx"kB
One can reduce this problem to the earlier problem P1 by changing the basis, i.e., using a measurement matrix AB=AB−1. If we have a solution to P1 in the ℓ2 norm (i.e., the left and the right norms equal to ℓ2), we also get a solution to PB in the ℓ2 norm. If P1 uses other norms, we solve PB in those norms modified by changing the basis.
Uma ressalva no exemplo acima é que na abordagem acima, precisamos saber a matriz , a fim de definir um B . Talvez surpreendentemente, se permitirmos que randomização ( A B não é fixo, mas, em vez escolhidos aleatoriamente), é possível escolher um B a partir da uma distribuição fixa que é independente a partir de B . Essa é a chamada universalidadeBABABABB propriedade da .
Dicionários. A próxima generalização pode ser obtida eliminando o requisito de que é uma base. Em vez disso, podemos permitir que B tenha mais linhas do que colunas. Tais matrizes são chamadas dicionários (incompletos). Um exemplo popular é a matriz de identidade no topo da matriz de Fourier. Outro exemplo é uma matriz em que as linhas são os vetores característicos de todos os intervalos em {1 ... n}; neste caso, o conjunto { B u : u é k-esparso } contém todos " k -histograms", ou seja, as funções seccionalmente constantes ao longo {1 ... N} com, no máximo, kBBBu:u is k-sparsekk partes.
Até onde eu sei, não existe uma teoria geral para esses dicionários arbitrários, embora tenha havido uma quantidade razoável de trabalho sobre esse tópico. Veja, por exemplo,
Candes-Eldar-Needell'10 ou
Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .
O esboço de histogramas foi extensivamente investigado na literatura sobre streaming e banco de dados, por exemplo,
Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 ou
Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .
Modelos. (também mencionado por Arnab). Uma generalização diferente é introduzir restrições nos padrões de esparsidade. Seja um subconjunto de k- conjuntos de {1 ... n}. Dizemos que u é M -sparse se o apoio de u está incluído em um elemento de M . Agora podemos colocar o problema (chame-o P M ):MkuMuMPM
Projeto tal que para qualquer x pode-se recuperar x ' onde ‖ x - x ' ‖ L ≤Axx′∥x−x′∥L≤
, em que x " varia sobre todos osvetores separadospor M.minx"C∥x−x"∥Rx"M
Por exemplo, os elementos de pode ser de forma a que uma ∪ ... ∪ I k , onde cada eu i corresponde a uma "sub-bloco" de {1 ... n} de algum comprimento b , isto é, I i é da forma {jb + 1 ... (j + 1) b} para alguns j . Este é o chamado modelo de "escassez de bloco". MI1∪…∪IkIibIij
The benefits of models is that one can save on the number of measurements, compared to the generic k-sparsity approach. This is because the space of M-sparse signals is smaller than the space of all k-sparse signals, so the matrix A needs to preserve less information. For more, see
Baraniuk-Cevher-Duarte-Hegde, IEEE Transactions on Information Theory, 2010 or
Eldar-Mishali, IEEE Transactions on Information Theory, 2009.
Hope this helps.
I suppose that, at the level of generality in which I've posed the question, the paper "Compression of samplable sources" by Trevisan, Vadhan and Zuckerman (2004) also qualifies as one possible answer. They show that in many cases, if the source of input strings is of low complexity (e.g., samplable by logspace machines), then one can compress, and decompress, in polynomial time to length an additive constant away from the entropy of the source.
I don't really know though if compressed sensing can be put into some larger theory of compression.
fonte
One analog of compressive sensing is in machine learning when you try to estimate a high dimensional weight vector (e.g., in classification/regression) from a very small sample size. To deal with underdetermined systems of linear equations in such settings, one typically enforces sparsity (via l0 or l1 penalty) on the weight vector being learned. To see the connection, consider the following classification/regression problem from machine learning:
Represent the N examples of D dimensions each (D >> N) as an NxD matrix X. Represent the N responses (one for each example) as an Nx1 vector Y. The goal is to solve for a Dx1 vector theta via the following equation: Y = X*theta
Now here is the analogy of this problem to compressive sensing (CS): you want to estimate/measure theta which is a D dimensional vector (akin to an unknown "signal" in CS). To estimate this, you use a matrix X (akin to the design matrix in CS) and N 1-D measurements Y (akin to the compressed signal in CS, since D >> N).
fonte
See: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf
fonte