Контент
Линейная Алгебра
Применение ортогональности и проекций
Псевдообратная матрица

Псевдообратная матрица Мура-Пенроуза

Как мы уже знаем, только квадратные матрицы могут быть обратитмыми и, следовательно, иметь обратную матрицу. Однако, когда мы имеем дело с прямоугольными матрицами, теперь, благодаря теории Мура-Пенроуза, мы можем также для них создать псеводобратную матрицу, которая будет отражать многие свойства классической обратной матрицы.

Практика \rightarrow При помощи псевдобратных матриц мы получаем доступ ко многим опреациям, которые невозможны или плохо определены при использовании обычной обратной матрицы.
Например при обработке сигналов и изображений, когда мы получаем неполное изобажение во время выполнения MRI или томографии, то способны его частично восстановить именно благодаря псеводобратным матрицам.
Другое важное применение - машинное обучение, где псевдообратные матрицы используются в линейной регрессии. Они помогают прогнозировать различные значения на основе обученных данных, минимизуря отклонение реальных данных от построенной линии (аппроксимируюзей модели).
Кроме того, псевдообратные матрицы широко применяются при аппроксимация различных эксперимнетальных данных и калибровке сенсоров, когда измерительные данные содержат шум или система уравнений является переопределнной.

Левая и правая псевдообратные матрицы

В отличие от классической обратной матрицы, которая существует и единственна, для прямоугольных матриц вводятся левая и правая псевдообратные матрицы. Поэтому, далее последуют два отдельных определения этих матриц.


Левая псевдообратная матрица

Для матрицы ARm×nA \in \mathbb{R}^{m \times n} с полным столбцовым рангом rank(A)=nrank(A) = n определяется левая псевдообратная матрица A+Rn×mA^+ \in \mathbb{R}^{n \times m} по формуле

A+=(AA)1A.A^+ = (A^\top A)^{-1}A^\top.

Данная матрица является левой обратной к матрице AA, поскольку выполняется равенство

A+A=(AA)1AA=I.A^+ A = (A^\top A)^{-1}A^\top A = I.

Иными словами, умножение AA cлева на её левую псевдобратную матрицу приводит к единичной матрице. Вышеописанное равенство работает при условии, что rank(A)=nrank(A) = n, поскольку в этом случае AAA^\top A является квадратной и обратимой матрицей. Это следует из линейной независимости столбцов матрицы AA.


Правая псевдообратная матрица

Для матрицы ARm×nA \in \mathbb{R}^{m \times n} с полным строковым рангом rank(A)=mrank(A) = m определяется правая псевдообратная матрица A+Rn×mA^+ \in \mathbb{R}^{n \times m} по формуле

A+=A(AA)1.A^+ = A^\top(AA^\top)^{-1}.

Данная матрица является правой обратной к матрице AA, поскольку выполняется равенство

AA+=AA(AA)1=I.AA^+ = AA^\top(AA^\top)^{-1} = I.

Иными словами, умножение AA справа на её правую псевдообратную матрицу приводит к единичной матрице. Вышеописанное равенство работает при условии, что rank(A)=mrank(A) = m, поскольку в этом случае AAAA^\top является квадратной и обратимой матрицей. Это следует из линейной независимости строк матрицы AA.


Итоги

Левая псевдообратимостьПравая псевдообратимость
Матрица AA имеет левую обратную:
A+A=IA^+ A = I
Матрица AA имеет правую обратную:
AA+=IA A^+ = I
Столбцы матрицы AA линейно независимыСтроки матрицы AA линейно независимы
Матрица AA высокая и узкая:
rank(A)=n\operatorname{rank}(A)=n
Матрица AA низкая и широкая:
rank(A)=m\operatorname{rank}(A)=m
Система Ax=bAx=b не имеет решений
или имеет единственное решение
Система Ax=bAx=b имеет одно
или бесконечно много решений
Ядро матрицы:
N(A)={0}N(A)=\{0\}
Левое ядро матрицы:
N(A)={0}N(A^\top)=\{0\}
Матрица AAA^\top A обратимаМатрица AAA A^\top обратима
A+=(AA)1AA^+=(A^\top A)^{-1}A^\topA+=A(AA)1A^+=A^\top(AA^\top)^{-1}

Смысл и польза псевдообратных матриц

Компактное решение наименших квадратов

Если мы работаем с матрицей ARm×nA \in \mathbb{R}^{m \times n} с полным столбцовым рангом rank(A)=nrank(A) = n, то обязательно выполняется mnm \geq n. Из этого следует, что AA может быть высокой и узкой матрицей и система

Ax=bAx = b

в общем случае не имеет решений, поскольку число уравнений превышает число неизвестных и вектор bb не находится в столбцовом пространстве C(A)C(A). Если мы не можем решить Ax=bAx = b, тогда, мы меняем задачу и ищем x^\widehat{x}, для которого Ax^A\widehat{x} как можно ближе к bb. Это приводит к задаче наименьших квадратов:

x^=argminxRnAxb2.\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|Ax - b\|^2.

При полном столбцовом ранге матрицы AA её псевдообратная матрица позволяет записать решение этой задачи в виде:

x^=A+b.\widehat{x} = A^+ b.

Таким образом, псевдообратная матрица даёт компактную и эффективную формулу для решения задачи наименьших квадратов, а вектор Ax^A\widehat{x} является ортогональной проекцией bb на столбцовое пространство матрицы AA.


Нахождение оптимального решения

В случае с матрицей ARm×nA \in \mathbb{R}^{m \times n} с полным строковым рангом rank(A)=mrank(A) = m (mnm \leq n), возникает обратная проблема - AA может быть низкой и широкой, а система Ax=bAx = b может иметь бесконечное множество решений. Тогда нам надо выбрать "наилучшее" решение, то есть вектор минимальной евклидовой нормы. Соответствующая задача оптимизации обретает вид:

x^=argminxRnx2  при условии Ax=b.\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|x\|^2 \ \text{ при условии } Ax=b.

Здесь мы вновь можем воспользоваться псевоодобратной матрицей AA и найти

x^=A+b.\widehat{x} = A^+ b.

Таким образом, при полном строковом ранге матрицы AA, псевдообратная матрица выбирает из всех решений системы Ax=bAx=b единственное решение минимальной нормы.


Итоги

Левая псевдообратимостьПравая псевдообратимость
Минимизация Axb2\|Ax-b\|^2Минимизация x2\|x\|^2 при Ax=bAx=b
A+bA^+b — решение МНКA+bA^+b — решение минимальной нормы

Универсальная псевдообратная матрица

Теперь мы определим псевдообратную матрицу не только для матриц с полным столбцовым и строковым рангом, но и для всех остальных матриц.

Благодаря CR-декомпозиции, мы знаем что любая матрица ARm×nA \in \mathbb{R}^{m \times n} с рангом rank(A)=rrank(A) = r, может быть выражена как

A=CR,A = CR,

где CRm×rC \in \mathbb{R}^{m \times r}rr линейно независимыми столбцами матрицы AA) и RRr×nR \in \mathbb{R}^{r \times n} (может быть выбрана верхнетреугольной). Соответственно для ARm×nA \in \mathbb{R}^{m \times n} c rank(A)=rrank(A) = r, универсальная псевдообратная матрица A+A^+ может быть определена, как

A+=R+C+.A^+ = R^+ C^+.

Матрица CC имеет полный столбцовый ранг rank(C)=rrank(C) = r, поэтому ее (левая) псевдообратная матрица имеет вид

C+=(CC)1C,C^+ = (C^\top C)^{-1} C^\top,

а матрица RR имеет полный строковый ранг rank(R)=rrank(R) = r, вследствие чего ее (правая) псевдообратная матрица имеет вид

R+=R(RR)1.R^+ = R^\top(RR^\top)^{-1}.

Следовательно, псевдообратную матрицу AA можно записать в виде

A+=R+C+=R(RR)1(CC)1C=R(CCRR)1C=R(CAR)1C.\begin{align*} A^+ &= R^+C^+ \\ &= R^\top(R R^\top)^{-1}(C^\top C)^{-1}C^\top \\ &= R^\top(C^\top C R R^\top )^{-1}C^\top \\ &= R^\top(C^\top A R^\top )^{-1}C^\top. \\ \end{align*}

Именно это представление A+A^+ позволяет показать, что псевдообратная матрица задаёт решение минимальной нормы задачи

x^=argminxRnx2  при условии AAx=Ab,\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|x\|^2 \ \text{ при условии } A^\top Ax = A^\top b,

которое выражается формулой

x^=A+b.\widehat{x} = A^+b.
Доказательство  AAx^=Ab\ A^\top A \widehat{x} = A^\top b

Если

A+=R(CAR)1C,A^+ = R^\top(C^\top A R^\top )^{-1}C^\top,

то

A+b=R(CAR)1Cb.A^+b = R^\top(C^\top A R^\top )^{-1}C^\top b.

Соответственно:

AAx^=AAR(CAR)1Cb=RCAR(CAR)1Cb=RCb=Ab.\begin{align*} A^\top A \widehat{x} &= A^\top A R^\top(C^\top A R^\top )^{-1}C^\top b \\ &= R^\top C^\top A R^\top(C^\top A R^\top )^{-1}C^\top b \\ &= R^\top C^\top b \\ &= A^\top b. \\ \end{align*}

Что и требовалось нам доказать. \square

Свойства псевдообратных матриц

Пускай ARm×nA \in \mathbb{R}^{m \times n}, тогда

  • AA+A=AAA^+ A = A
  • A+AA+=A+A^+ A A^+ = A^+
  • (A)+=(A+)(A^\top)^+ = (A^+)^\top
  • AA+AA^+ симметричная матрица и является проекцией на C(A)C(A)
  • A+AA^+A симметричная матрица и является проекцией на C(A)C(A^\top).
Доказательство симметричности  AA+\ AA^+
AA+=CRR(RR)1(CC)1C=C(CC)1C=(C(CC)1C)=(AA+).\begin{align*} AA^+ &= CRR^\top(R R^\top)^{-1}(C^\top C)^{-1}C^\top \\ &= C(C^\top C)^{-1}C^\top \\ &= (C(C^\top C)^{-1}C^\top)^\top \\ &= (AA^+)^\top. \quad \square \end{align*}