Псевдообратная матрица Мура-Пенроуза

Как мы уже знаем, только квадратные матрицы могут быть обратитмыми и, следовательно, иметь обратную матрицу. Однако, когда мы имеем дело с прямоугольными матрицами, теперь, благодаря теории Мура-Пенроуза, мы можем также для них создать псеводобратную матрицу, которая будет отражать многие свойства классической обратной матрицы.

Практика $\rightarrow$ При помощи псевдобратных матриц мы получаем доступ ко многим опреациям, которые невозможны или плохо определены при использовании обычной обратной матрицы.
Например при обработке сигналов и изображений, когда мы получаем неполное изобажение во время выполнения MRI или томографии, то способны его частично восстановить именно благодаря псеводобратным матрицам.
Другое важное применение - машинное обучение, где псевдообратные матрицы используются в линейной регрессии. Они помогают прогнозировать различные значения на основе обученных данных, минимизуря отклонение реальных данных от построенной линии (аппроксимируюзей модели).
Кроме того, псевдообратные матрицы широко применяются при аппроксимация различных эксперимнетальных данных и калибровке сенсоров, когда измерительные данные содержат шум или система уравнений является переопределнной.

Левая и правая псевдообратные матрицы

В отличие от классической обратной матрицы, которая существует и единственна, для прямоугольных матриц вводятся левая и правая псевдообратные матрицы. Поэтому, далее последуют два отдельных определения этих матриц.

Левая псевдообратная матрица

Для матрицы $A \in \mathbb{R}^{m \times n}$ с полным столбцовым рангом $rank(A) = n$ определяется левая псевдообратная матрица $A^+ \in \mathbb{R}^{n \times m}$ по формуле

A^+ = (A^\top A)^{-1}A^\top.

Данная матрица является левой обратной к матрице $A$ , поскольку выполняется равенство

A^+ A = (A^\top A)^{-1}A^\top A = I.

Иными словами, умножение $A$ cлева на её левую псевдобратную матрицу приводит к единичной матрице. Вышеописанное равенство работает при условии, что $rank(A) = n$ , поскольку в этом случае $A^\top A$ является квадратной и обратимой матрицей. Это следует из линейной независимости столбцов матрицы $A$ .

Правая псевдообратная матрица

Для матрицы $A \in \mathbb{R}^{m \times n}$ с полным строковым рангом $rank(A) = m$ определяется правая псевдообратная матрица $A^+ \in \mathbb{R}^{n \times m}$ по формуле

A^+ = A^\top(AA^\top)^{-1}.

Данная матрица является правой обратной к матрице $A$ , поскольку выполняется равенство

AA^+ = AA^\top(AA^\top)^{-1} = I.

Иными словами, умножение $A$ справа на её правую псевдообратную матрицу приводит к единичной матрице. Вышеописанное равенство работает при условии, что $rank(A) = m$ , поскольку в этом случае $AA^\top$ является квадратной и обратимой матрицей. Это следует из линейной независимости строк матрицы $A$ .

Итоги

Левая псевдообратимость	Правая псевдообратимость
Матрица $A$ имеет левую обратную: $A^+ A = I$	Матрица $A$ имеет правую обратную: $A A^+ = I$
Столбцы матрицы $A$ линейно независимы	Строки матрицы $A$ линейно независимы
Матрица $A$ высокая и узкая: $\operatorname{rank}(A)=n$	Матрица $A$ низкая и широкая: $\operatorname{rank}(A)=m$
Система $Ax=b$ не имеет решений или имеет единственное решение	Система $Ax=b$ имеет одно или бесконечно много решений
Ядро матрицы: $N(A)=\{0\}$	Левое ядро матрицы: $N(A^\top)=\{0\}$
Матрица $A^\top A$ обратима	Матрица $A A^\top$ обратима
$A^+=(A^\top A)^{-1}A^\top$	$A^+=A^\top(AA^\top)^{-1}$

Смысл и польза псевдообратных матриц

Компактное решение наименших квадратов

Если мы работаем с матрицей $A \in \mathbb{R}^{m \times n}$ с полным столбцовым рангом $rank(A) = n$ , то обязательно выполняется $m \geq n$ . Из этого следует, что $A$ может быть высокой и узкой матрицей и система

Ax = b

в общем случае не имеет решений, поскольку число уравнений превышает число неизвестных и вектор $b$ не находится в столбцовом пространстве $C(A)$ . Если мы не можем решить $Ax = b$ , тогда, мы меняем задачу и ищем $\widehat{x}$ , для которого $A\widehat{x}$ как можно ближе к $b$ . Это приводит к задаче наименьших квадратов:

\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|Ax - b\|^2.

При полном столбцовом ранге матрицы $A$ её псевдообратная матрица позволяет записать решение этой задачи в виде:

\widehat{x} = A^+ b.

Таким образом, псевдообратная матрица даёт компактную и эффективную формулу для решения задачи наименьших квадратов, а вектор $A\widehat{x}$ является ортогональной проекцией $b$ на столбцовое пространство матрицы $A$ .

Нахождение оптимального решения

В случае с матрицей $A \in \mathbb{R}^{m \times n}$ с полным строковым рангом $rank(A) = m$ ( $m \leq n$ ), возникает обратная проблема - $A$ может быть низкой и широкой, а система $Ax = b$ может иметь бесконечное множество решений. Тогда нам надо выбрать "наилучшее" решение, то есть вектор минимальной евклидовой нормы. Соответствующая задача оптимизации обретает вид:

\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|x\|^2 \ \text{ при условии } Ax=b.

Здесь мы вновь можем воспользоваться псевоодобратной матрицей $A$ и найти

\widehat{x} = A^+ b.

Таким образом, при полном строковом ранге матрицы $A$ , псевдообратная матрица выбирает из всех решений системы $Ax=b$ единственное решение минимальной нормы.

Итоги

Левая псевдообратимость	Правая псевдообратимость
Минимизация $\\|Ax-b\\|^2$	Минимизация $\\|x\\|^2$ при $Ax=b$
$A^+b$ — решение МНК	$A^+b$ — решение минимальной нормы

Универсальная псевдообратная матрица

Теперь мы определим псевдообратную матрицу не только для матриц с полным столбцовым и строковым рангом, но и для всех остальных матриц.

Благодаря CR-декомпозиции, мы знаем что любая матрица $A \in \mathbb{R}^{m \times n}$ с рангом $rank(A) = r$ , может быть выражена как

A = CR,

где $C \in \mathbb{R}^{m \times r}$ (с $r$ линейно независимыми столбцами матрицы $A$ ) и $R \in \mathbb{R}^{r \times n}$ (может быть выбрана верхнетреугольной). Соответственно для $A \in \mathbb{R}^{m \times n}$ c $rank(A) = r$ , универсальная псевдообратная матрица $A^+$ может быть определена, как

A^+ = R^+ C^+.

Матрица $C$ имеет полный столбцовый ранг $rank(C) = r$ , поэтому ее (левая) псевдообратная матрица имеет вид

C^+ = (C^\top C)^{-1} C^\top,

а матрица $R$ имеет полный строковый ранг $rank(R) = r$ , вследствие чего ее (правая) псевдообратная матрица имеет вид

R^+ = R^\top(RR^\top)^{-1}.

Следовательно, псевдообратную матрицу $A$ можно записать в виде

\begin{align*} A^+ &= R^+C^+ \\ &= R^\top(R R^\top)^{-1}(C^\top C)^{-1}C^\top \\ &= R^\top(C^\top C R R^\top )^{-1}C^\top \\ &= R^\top(C^\top A R^\top )^{-1}C^\top. \\ \end{align*}

Именно это представление $A^+$ позволяет показать, что псевдообратная матрица задаёт решение минимальной нормы задачи

\widehat{x} = \arg \min_{x \in \mathbb{R}^n} \|x\|^2 \ \text{ при условии } A^\top Ax = A^\top b,

которое выражается формулой

\widehat{x} = A^+b.

Доказательство

\ A^\top A \widehat{x} = A^\top b

Если

A^+ = R^\top(C^\top A R^\top )^{-1}C^\top,

то

A^+b = R^\top(C^\top A R^\top )^{-1}C^\top b.

Соответственно:

\begin{align*} A^\top A \widehat{x} &= A^\top A R^\top(C^\top A R^\top )^{-1}C^\top b \\ &= R^\top C^\top A R^\top(C^\top A R^\top )^{-1}C^\top b \\ &= R^\top C^\top b \\ &= A^\top b. \\ \end{align*}

Что и требовалось нам доказать. $\square$

Свойства псевдообратных матриц

Пускай $A \in \mathbb{R}^{m \times n}$ , тогда

$AA^+ A = A$
$A^+ A A^+ = A^+$
$(A^\top)^+ = (A^+)^\top$
$AA^+$ симметричная матрица и является проекцией на $C(A)$
$A^+A$ симметричная матрица и является проекцией на $C(A^\top)$ .

Доказательство симметричности

\ AA^+

\begin{align*} AA^+ &= CRR^\top(R R^\top)^{-1}(C^\top C)^{-1}C^\top \\ &= C(C^\top C)^{-1}C^\top \\ &= (C(C^\top C)^{-1}C^\top)^\top \\ &= (AA^+)^\top. \quad \square \end{align*}

Ортогональность векторов и подпространств