Quadro maior por trás da escolha de matrizes no algoritmo de Strassen

No algoritmo Strassen, para calcular o produto de duas matrizes e , as matrizes e estão divididos em matrizes de blocos e o algoritmo procede de forma recursiva computação bloco produtos matriz-matriz, por oposição a um naive matriz-bloco produtos matriciais, ou seja, se queremos , onde $\mathbf{A}$ $\mathbf{B}$ $\mathbf{A}$ $\mathbf{B}$ $2 \times 2$ $7$ $8$ $\mathbf{C}=\mathbf{A} \mathbf{B}$ então temos

UMA = [\begin{matrix} {UMA}_{1 1, 1 1} & {UMA}_{1 1, 2} \\ {UMA}_{2, 1 1} & {UMA}_{2, 2} \end{matrix}], B = [\begin{matrix} B_{1 1, 1 1} & B_{1 1, 2} \\ B_{2, 1 1} & B_{2, 2} \end{matrix}], C = [\begin{matrix} C_{1 1, 1 1} & C_{1 1, 2} \\ C_{2, 1 1} & C_{2, 2} \end{matrix}]

$\mathbf{A} =\begin{bmatrix} \mathbf{A}_{1,1} & \mathbf{A}_{1,2} \\ \mathbf{A}_{2,1} & \mathbf{A}_{2,2} \end{bmatrix} \mbox { , } \mathbf{B} = \begin{bmatrix} \mathbf{B}_{1,1} & \mathbf{B}_{1,2} \\ \mathbf{B}_{2,1} & \mathbf{B}_{2,2} \end{bmatrix} \mbox { , } \mathbf{C} = \begin{bmatrix} \mathbf{C}_{1,1} & \mathbf{C}_{1,2} \\ \mathbf{C}_{2,1} & \mathbf{C}_{2,2} \end{bmatrix}$

que requer

multiplicações. Em vez disso, em Strassen, calculamos

C_{1 1, 1 1} = {UMA}_{1 1, 1 1} B_{1 1, 1 1} + {UMA}_{1 1, 2} B_{2, 1 1} C_{1 1, 2} = {UMA}_{1 1, 1 1} B_{1 1, 2} + {UMA}_{1 1, 2} B_{2, 2} C_{2, 1 1} = {UMA}_{2, 1 1} B_{1 1, 1 1} + {UMA}_{2, 2} B_{2, 1 1} C_{2, 2} = {UMA}_{2, 1 1} B_{1 1, 2} + {UMA}_{2, 2} B_{2, 2}

$\mathbf{C}_{1,1} = \mathbf{A}_{1,1} \mathbf{B}_{1,1} + \mathbf{A}_{1,2} \mathbf{B}_{2,1}\\ \mathbf{C}_{1,2} = \mathbf{A}_{1,1} \mathbf{B}_{1,2} + \mathbf{A}_{1,2} \mathbf{B}_{2,2}\\ \mathbf{C}_{2,1} = \mathbf{A}_{2,1} \mathbf{B}_{1,1} + \mathbf{A}_{2,2} \mathbf{B}_{2,1}\\ \mathbf{C}_{2,2} = \mathbf{A}_{2,1} \mathbf{B}_{1,2} + \mathbf{A}_{2,2} \mathbf{B}_{2,2}$

8

$8$

e obtenha

usando

's como

M_{1 1} : = ({UMA}_{1 1, 1 1} + {UMA}_{2, 2}) (B_{1 1, 1 1} + B_{2, 2}) M_{2} : = ({UMA}_{2, 1 1} + {UMA}_{2, 2}) B_{1 1, 1 1} M_{3} : = {UMA}_{1 1, 1 1} (B_{1 1, 2} - B_{2, 2}) M_{4} : = {UMA}_{2, 2} (B_{2, 1 1} - B_{1 1, 1 1}) M_{5} : = ({UMA}_{1 1, 1 1} + {UMA}_{1 1, 2}) B_{2, 2} M_{6} : = ({UMA}_{2, 1 1} - {UMA}_{1 1, 1 1}) (B_{1 1, 1 1} + B_{1 1, 2}) M_{7} : = ({UMA}_{1 1, 2} - {UMA}_{2, 2}) (B_{2, 1 1} + B_{2, 2})

$\mathbf{M}_{1} := (\mathbf{A}_{1,1} + \mathbf{A}_{2,2}) (\mathbf{B}_{1,1} + \mathbf{B}_{2,2})\\ \mathbf{M}_{2} := (\mathbf{A}_{2,1} + \mathbf{A}_{2,2}) \mathbf{B}_{1,1}\\ \mathbf{M}_{3} := \mathbf{A}_{1,1} (\mathbf{B}_{1,2} - \mathbf{B}_{2,2})\\ \mathbf{M}_{4} := \mathbf{A}_{2,2} (\mathbf{B}_{2,1} - \mathbf{B}_{1,1})\\ \mathbf{M}_{5} := (\mathbf{A}_{1,1} + \mathbf{A}_{1,2}) \mathbf{B}_{2,2}\\ \mathbf{M}_{6} := (\mathbf{A}_{2,1} - \mathbf{A}_{1,1}) (\mathbf{B}_{1,1} + \mathbf{B}_{1,2})\\ \mathbf{M}_{7} := (\mathbf{A}_{1,2} - \mathbf{A}_{2,2}) (\mathbf{B}_{2,1} + \mathbf{B}_{2,2})$

C_{i, j}

$\mathbf{C}_{i,j}$

M_{k}

$\mathbf{M}_{k}$

No entanto, a escolha das matrizes

's me parece arbitrária. Existe uma imagem maior do motivo pelo qual escolhemos esses produtos específicos das sub-matrizes de

? Além disso, eu esperaria

's para envolver

' s e

é de uma forma simétrica, o que não parece ser o caso aqui. Por exemplo, temos

C_{1 1, 1 1} = M_{1 1} + M_{4} - M_{5} + M_{7} C_{1 1, 2} = M_{3} + M_{5} C_{2, 1 1} = M_{2} + M_{4} C_{2, 2} = M_{1 1} - M_{2} + M_{3} + M_{6}

$\mathbf{C}_{1,1} = \mathbf{M}_{1} + \mathbf{M}_{4} - \mathbf{M}_{5} + \mathbf{M}_{7}\\ \mathbf{C}_{1,2} = \mathbf{M}_{3} + \mathbf{M}_{5}\\ \mathbf{C}_{2,1} = \mathbf{M}_{2} + \mathbf{M}_{4}\\ \mathbf{C}_{2,2} = \mathbf{M}_{1} - \mathbf{M}_{2} + \mathbf{M}_{3} + \mathbf{M}_{6}$

M_{k}

$\mathbf{M}_k$

A

$\mathbf{A}$

B

$\mathbf{B}$

M_{k}

$\mathbf{M}_k$

A_{i, j}

$\mathbf{A}_{i,j}$

B_{i, j}

$\mathbf{B}_{i,j}$

. Eu esperaria que sua contraparte diga

também seja computada. No entanto, isso não é uma vez que pode ser obtido a partir de outros

's.

M_{2} := (A_{2, 1} + A_{2, 2}) B_{1, 1}

$\mathbf{M}_2: = (\mathbf{A}_{2,1}+\mathbf{A}_{2,2})\mathbf{B}_{1,1}$

A_{1, 1} (B_{1, 2} + B_{2, 2})

$\mathbf{A}_{1,1} (\mathbf{B}_{1,2} + \mathbf{B}_{2,2})$

M_{k}

$\mathbf{M}_k$

Eu apreciaria se alguém pudesse lançar alguma luz sobre isso.

ds.algorithms linear-algebra matrices matrix-product Comunidade
fonte

$A_0,A_1,A_2,A_3$ $B_0,B_1,B_2,B_3$ $2\times 2$ $A_iB_j \in \{0,A_0,A_1,A_2,A_3,B_0,B_1,B_2,B_3\}$ $A_0 = B_0$ $A$ $B$ $A_0=B_0,A_1,A_2,A_3,B_1,B_2,B_3$ $M$

Não sei se Strassen teve essa maneira de encarar. Considerando outras identidades subjacentes aos algoritmos de multiplicação rápida de matriz, não está claro se há algo profundo acontecendo, sob alguma fórmula elaborada. Já falamos sobre isso antes - Lagrange usou a identidade de quatro quadrados (que era conhecida antes) para provar o teorema dos quatro quadrados. A princípio, deve ter sido apenas uma identidade algébrica curiosa, mas agora sabemos que afirma a propriedade de multiplicatividade da norma de quaternião. Dado o estado atual do conhecimento, é difícil dizer se a interpretação acima é tão produtiva.

Yuval Filmus
fonte

2 \times 2

$2\times 2$

Quadro maior por trás da escolha de matrizes no algoritmo de Strassen

Respostas: