最优化理论与方法笔记

一、最优化问题与预备知识

1. 预备知识

范数

向量范数满足如下性质：

非负性：当 $α \neq = 0$ ， $∣∣ α ∣∣ > 0$ ，当且仅当 $α = 0$ 时 $∣∣ α ∣∣ = 0$ .
齐次性： $∣∣ k α ∣∣ = ∣ k ∣ ∣∣ α ∣∣$ ， $k$ 为任意数.
三角不等式：任取 $α, β \in R^{n}$ ，都有 $∣∣ α + β ∣∣ \leq ∣∣ α ∣∣ + ∣∣ β ∣∣$ .

常见向量范数：

1-范数： $∣∣ α ∣ ∣_{1} = \sum_{i = 1}^{n} ∣ a_{i} ∣$ .
2-范数： $∣∣ α ∣ ∣_{2} = (\sum_{i = 1}^{n} ∣ a_{i} ∣^{2})^{\frac{1}{2}} = α^{H} α$ ，又称为欧氏范数.
$\infty$ -范数： $∣∣ α ∣ ∣_{\infty} = 1 \leq i \leq n max ∣ a_{i} ∣$ .
p-范数： $∣∣ α ∣ ∣_{p} = (\sum_{i = 1}^{n} ∣ a_{i} ∣^{p})^{\frac{1}{p}}$ ， $p \in [1, \infty)$ .
椭球范数： $∣∣ α ∣ ∣_{A} = α^{T} A α$ ， $\forall x \in R^{n}$ ， $A$ 为正定矩阵.

这些向量范数之间的关系： $∣∣ x ∣ ∣_{\infty} \leq ∣∣ x ∣ ∣_{2} \leq ∣∣ x ∣ ∣_{1} \leq n ∣∣ x ∣ ∣_{\infty}$ .

向量范数的等价性：设 $∣∣ \cdot ∣ ∣_{a}$ 、 $∣∣ \cdot ∣ ∣_{b}$ 是定义在 $R^{n}$ 上的两种向量范数，那么总存在两个正数 $d_{1}$ 、 $d_{2}$ 使得对任意 $x \in R^{n}$ 都有 $d_{1} ∣∣ x ∣ ∣_{b} \leq ∣∣ x ∣ ∣_{a} \leq d_{2} ∣∣ x ∣ ∣_{b}$ .

矩阵范数满足如下性质：

非负性：当 $A \neq = 0$ ， $∣∣ A ∣∣ > 0$ ，当且仅当 $A = 0$ 时 $∣∣ A ∣∣ = 0$ .
齐次性： $∣∣ k A ∣∣ = ∣ k ∣ ∣∣ A ∣∣$ ，其中 $k$ 为任意复数.
三角不等式：任取 $A, B \in R^{m \times n}$ ，都有 $∣∣ A + B ∣∣ \leq ∣∣ A ∣∣ + ∣∣ B ∣∣$ .

常见矩阵范数：

Frobenious范数， $∣∣ A ∣ ∣_{F} = (\sum_{i = 1}^{m} \sum_{j = 1}^{n} ∣ a_{ij} ∣^{2})^{\frac{1}{2}} = t r (A^{H} A) = \sum_{i = 1}^{n} λ_{i} (A^{H} A)$ ，其中 $λ_{j} (A^{H} A)$ 表示 $λ$ 是 $A^{H} A$ 的特征值.
列和范数： $∣∣ A ∣ ∣_{1} = j max (\sum_{i = 1}^{m} ∣ a_{ij} ∣)$ ， $j = 1, 2, \dots, n$ .（即每一列各分量模长和的最大值）
谱范数： $∣∣ A ∣ ∣_{2} = j max (λ_{j} (A^{H} A))$ .
行和范数： $∣∣ A ∣ ∣_{\infty} = i max (\sum_{j = 1}^{n} ∣ a_{ij} ∣)$ ， $i = 1, 2, \dots, n$ .
诱导范数： $∣∣ A ∣ ∣_{i} = X \neq = 0 max \frac{∣∣ A X ∣ ∣ _{α}}{∣∣ X ∣ ∣ _{α}}$ .

范数的相容性：

矩阵范数的相容性： $∣∣ A B ∣∣ \leq ∣∣ A ∣∣ ∣∣ B ∣∣$ ，其中 $∣∣ \cdot ∣∣$ 是矩阵范数。
矩阵范数与向量范数之间的相容性： $∣∣ A x ∣∣ \leq ∣∣ A ∣ ∣_{*} ∣∣ x ∣∣$ ，其中 $∣∣ \cdot ∣ ∣_{*}$ 是矩阵范数， $∣∣ \cdot ∣∣$ 是向量范数， $A$ 是矩阵， $x$ 是向量。

常用范数不等式：

Cauchy-Schwarz不等式： $\forall x, y \in R^{n}$ ， $∣ x^{T} y ∣ \leq ∣∣ x ∣ ∣_{2} ∣∣ y ∣ ∣_{2}$ ，当且仅当 $x$ 和 $y$ 线性相关时等号成立。

广义Cauchy-Schwarz不等式：设 $A \in R^{n \times n}$ 正定，则 $\forall x, y \in R^{n}$ ， $∣ x^{T} y ∣ \leq ∣∣ x ∣ ∣_{A} ∣∣ y ∣ ∣_{A^{- 1}}$ .
Young不等式：设 $p, q > 1$ 且 $\frac{1}{p} + \frac{1}{q} = 1$ ，如果 $a, b \in R$ ，则 $∣ ab ∣ \leq \frac{∣ a ∣ ^{p}}{p} + \frac{∣ b ∣ ^{q}}{q}$ ，当且仅当 $∣ a ∣^{p} = ∣ b ∣^{q}$ 时等号成立。
Holder不等式：设 $x, y \in R^{n}$ ，则 $∣ x^{T} y ∣ \leq ∣∣ x ∣ ∣_{p} ∣∣ y ∣ ∣_{q} = (\sum_{i = 1}^{n} ∣ x_{i} ∣^{p})^{\frac{1}{p}} (\sum_{i = 1}^{n} ∣ y ∣^{q})^{\frac{1}{q}}$ ，其中 $p > 1$ 、 $q > 1$ ，并且 $\frac{1}{p} + \frac{1}{q} = 1$ .
Minkowski不等式：设 $x, y \in R^{n}$ ， $p \in [1, \infty)$ ，则 $∣∣ x + y ∣ ∣^{p} \leq ∣∣ x ∣ ∣^{p} + ∣∣ y ∣ ∣^{p} = (\sum_{i = 1}^{n} ∣ x_{i} ∣^{p})^{\frac{1}{p}} + (\sum_{i = 1}^{n} ∣ y_{i} ∣^{p})^{\frac{1}{p}}$ .

函数可微性

连续：若给定函数 $f : F \subseteq R^{n}$ ，函数 $f$ 在 $F$ 上连续 $\Leftrightarrow f$ 在每一点 $x \in F$ 连续；记作 $f \in C$ .

连续可微：若 $F$ 为开集且在每一点 $x \in F$ 处， $f$ 在 $F$ 上连续可微 $\Leftrightarrow$ 每一个偏导数 $\frac{\partial f ( x )}{\partial x _{i}}$ （ $i = 1, 2, \dots, n$ ）存在且连续；记作 $f \in C^{1}$ .

二次连续可微：若在每一点 $x \in F$ 处， $f$ 在 $F$ 上二次连续可微 $\Leftrightarrow$ 每一个二阶偏导数 $\frac{\partial ^{2} f ( x )}{\partial x _{i} \partial x _{j}}$ （ $i, j = 1, 2, \dots, n$ ）存在且连续；记作 $f \in C^{2}$ .

梯度、海塞阵(Hesse)、Jacobi阵

梯度：设 $f : F \subseteq R^{n} \to R$ 是一阶连续可微的，则 $f$ 在 $x$ 处的一阶偏导数（即 $f$ 在 $x$ 处的梯度）为 $\nabla f (x) = (\frac{\partial f ( x )}{\partial x _{1}}, \frac{\partial f ( x )}{\partial x _{2}}, \dots, \frac{\partial f ( x )}{\partial x _{n}})^{T}$ .

海塞阵(Hesse)：设 $f$ 是二阶连续可微的，则 $f$ 在 $x$ 处的二阶导数（即 $f$ 在 $x$ 处的Hesse阵）为 $H = \nabla^{2} f (x) = \frac{\partial ^{2} f}{\partial x _{1}^{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}} = (\frac{\partial ^{2} f}{\partial x _{i} \partial x _{j}})_{n \times n}$ .（由于 $f$ 二阶连续可微，所以混合偏导与顺序无关，该矩阵是对称的）

比如：设 $A$ 对称，二次函数 $f (x) = \frac{1}{2} x^{T} A x + b^{T} x + c$ ，其中 $A \in R^{n \times n}$ ， $b \in R^{n}$ ， $c \in R$ ，则 $\nabla f (x) = A x + b$ ， $\nabla^{2} f (x) = A$ .

多变量向量值函数的Jacobi阵：设多变量向量值函数 $F : F \subseteq R^{n} \to R^{m}$ 在 $x \in F$ 处连续可微，则 $F$ 在 $x \in F$ 处的一阶导数为 $J = F^{'} (x) = \frac{\partial F _{1} ( x )}{\partial x _{1}} \frac{\partial F _{2} ( x )}{\partial x _{1}} ⋮ \frac{\partial F _{m} ( x )}{\partial x _{1}} \frac{\partial F _{1} ( x )}{\partial x _{2}} \frac{\partial F _{2} ( x )}{\partial x _{2}} ⋮ \frac{\partial F _{m} ( x )}{\partial x _{2}} \frac{\partial F _{1} ( x )}{\partial x _{3}} \frac{\partial F _{2} ( x )}{\partial x _{3}} ⋮ \frac{\partial F _{m} ( x )}{\partial x _{3}} \dots \dots ⋱ \dots \frac{\partial F _{1} ( x )}{\partial x _{n}} \frac{\partial F _{2} ( x )}{\partial x _{n}} ⋮ \frac{\partial F _{m} ( x )}{\partial x _{n}}$ ，称为 $F$ 在 $x$ 处的Jacobi阵。

比如：设多变量向量值函数 $F (x) = A x$ ，其中 $A \in R^{m \times n}$ ，则Jacobi阵为 $F^{'} (x) = A$ .

例1：求函数 $f (x) = x_{1}^{2} + 2 x_{2}^{2} - 2 x_{1} x_{2} - 4 x_{1} + 3$ 的梯度与Hesse阵

解：方法一，直接求导写在对应位置上： $\nabla f (x) = (2 x_{1} - 2 x_{2} - 4 4 x_{2} - 2 x_{1})$ ， $\partial^{2} f (x) = (2 - 2 - 2 4)$ .

方法二： $f (x) = \frac{1}{2} x^{T} (2 - 2 - 2 4) x + (- 4 0) x + 3$ ， $\nabla f (x) = A x + b = (2 - 2 - 2 4) x + (- 4 0) x = (2 x_{1} - 2 x_{2} - 4 4 x_{2} - 2 x_{1})$ ， $\partial^{2} f (x) = A = (2 - 2 - 2 4)$ .

例2：求向量值函数 $F (x) = (e^{x_{1} x_{2}} + 3 sin x_{2}, 1 + x_{2}^{2} cos x_{1})^{T}$ 的Jacobi阵

解： $F^{'} (x) = (\frac{\partial F _{1} ( x )}{\partial x _{1}} \frac{\partial F _{2} ( x )}{\partial x _{1}} \frac{\partial F _{1} ( x )}{\partial x _{2}} \frac{\partial F _{2} ( x )}{\partial x _{2}}) = (x_{2} e^{x_{1} x_{2}} - x_{2}^{2} sin x_{1} x_{1} e^{x_{1} x_{2}} + 3 cos x_{2} 2 x_{2} cos x_{1})$ .

多变量实值函数的中值定理、泰勒公式

定理：设 $f : F \subseteq R^{n} \to R$ ，且 $x, x^{*} \in F$ ，如果 $f$ 是一阶连续可微的，则

（1）存在 $α \in (0, 1)$ 使得 $f (x) = f (x^{*}) + \nabla f (ξ)^{T} (x - x^{*})$ ，其中 $ξ = x^{*} + α (x - x^{*})$ .

（2） $f$ 在 $x^{*}$ 处有一阶Taylor公式： $f (x) = f (x^{*}) + \nabla f (x^{*})^{T} (x - x^{*}) + o (∣∣ x - x^{*} ∣∣)$ .

如果 $f$ 在 $F$ 上是二阶连续可微的，则

（3）存在 $α \in (0, 1)$ 使得 $f (x) = f (x^{*}) + \nabla f (x^{*})^{T} (x - x^{*}) + \frac{1}{2} (x - x^{*})^{T} \nabla f^{2} (ξ) (x - x^{*})$ ，其中 $ξ = x^{*} + α (x - x^{*})$ .

（4） $f$ 在 $x^{*}$ 处有二阶Taylor公式： $f (x) = f (x^{*}) + \nabla f (x^{*})^{T} (x - x^{*}) + \frac{1}{2} (x - x^{*})^{T} \nabla f^{2} (x^{*}) (x - x^{*}) + o (∣∣ x - x^{*} ∣ ∣^{2})$ .

2. 凸集

凸集：给定非空集合 $F \subseteq R^{n}$ ，如果 $\forall x, y \in F$ ， $α \in [0, 1]$ ，都有 $αx + (1 - α) y \in F$ ，那么称 $F$ 为 $R^{n}$ 中的一个凸集，如果凸集为开集，则称为开凸集；若凸集为闭集，则称为闭凸集。并且我们规定，空集为凸集。

如果 $α$ 给定，那么 $αx + (1 - α) y$ 就是一条线，因此有凸集的另外一种定义： $F$ 为凸集 $\Leftrightarrow F$ 中任意两点的连线段仍然属于 $F$ 。

易证，若 $ω \in R^{n} \ {0}$ 、 $β \in R$ ，下面的集合都是凸集

单点集、 $R^{n}$ .

超平面： $H = {x \in R^{n} ∣ ω^{T} x = β}$ .

闭半空间： ${x \in R^{n} ∣ ω^{T} x \geq β}$ 和 ${x \in R^{n} ∣ ω^{T} x \leq β}$ .

开半空间： ${x \in R^{n} ∣ ω^{T} x > β}$ 和 ${x \in R^{n} ∣ ω^{T} x < β}$ .

超球： ${x \in R^{n} ∣ ∥ x ∥ \leq β}$ ，其中 $β \geq 0$ .

命题：假设 $F_{i} \subseteq R^{n}$ 为凸集、 $β_{i} \in R$ （ $i \in {1, 2, \dots, p}$ ），则下列集合均为凸集

交集 $F := F_{1} \cap F_{2} \cap \dots \cap F_{p}$ .（有限个凸集的交仍为凸集）
集合 $β_{1} F_{1} := {β_{1} x ∣ x \in F_{1}}$ .（凸集的数乘仍为凸集）
和集 $F_{1} + F_{2} := {x + y ∣ x \in F_{1}, y \in F_{2}}$ .（凸集的和仍为凸集）
集合 $\sum_{i = 1}^{p} β_{i} F_{i}$ .（凸集数乘后的和仍为凸集）

定理：非空集合 $F \subseteq R^{n}$ 为凸集 $\Leftrightarrow \forall x_{i} \in F$ 及任意满足 $\sum_{i = 1}^{p} α_{i} = 1$ 的非负实数 $α_{i}$ （ $i \in {1, 2, \dots, p}$ 且 $p \geq 2$ 为正整数）都有 $\sum_{i = 1}^{p} α_{i} x_{i} \in F$ .

证明：根据凸集定义可得定理的充分性，下面用归纳法证明必要性

$p = 2$ 时由定义知结论成立；假设当 $p = k$ 时结论成立，下面证明 $p = k + 1$ 时结论也成立：

对 $\forall x_{i} \in F$ ， $\sum_{i = 1}^{k + 1} α_{i} = 1$ ，则 $\sum_{i = 1}^{k + 1} α_{i} x_{i} = \sum_{i = 1}^{k} α_{i} x_{i} + α_{k + 1} x_{k + 1} = (1 - α_{k + 1}) (\sum_{i = 1}^{k} \frac{α _{i}}{1 - α _{k + 1}} x_{i}) + α_{k + 1} x_{k + 1}$ ，由 $\sum_{i = 1}^{k} \frac{α _{i}}{1 - α _{k + 1}} = 1$ 且 $\frac{α _{i}}{1 - α _{k + 1}} \geq 0$ 知，归纳假设 $\sum_{i = 1}^{k} \frac{α _{i}}{1 - α _{k + 1}} x_{i} \in F$ ，于是上式可看作 $(1 - α_{k + 1}) x + α_{k + 1} y$ ，根据 $p = 2$ 时结论成立知， $(1 - α_{k + 1}) x + α_{k + 1} y \in F$ ，即 $\sum_{i = 1}^{k + 1} α_{i} x_{i} \in F$ ，由归纳原理知结论成立。

集合的(严格)分离：设 $F_{1}, F_{2} \subseteq R^{n}$ 为两个非空凸集，如果存在非零向量 $ω \in R^{n}$ 和实数 $t$ ，使得

（1）对任意 $x \in F_{1}$ 、 $y \in F_{2}$ 都有 $ω^{T} x \geq t$ 且 $ω^{T} y \leq t$ ，则称超平面 $π = {x \in R^{n} ∣ ω^{T} x = t}$ 分离集合 $F_{1}$ 、 $F_{2}$ .

（2）对任意 $x \in F_{1}$ 、 $y \in F_{2}$ 都有 $ω^{T} x > t$ 且 $ω^{T} y < t$ ，则称超平面 $π = {x \in R^{n} ∣ ω^{T} x = t}$ 严格分离集合 $F_{1}$ 、 $F_{2}$ .

点与凸集分离定理：设 $F$ 为 $R^{n}$ 中的非空闭凸集， $x_{0} \in R^{n}$ 且 $x_{0} \in / F$ ，则存在 $R^{n}$ 中的超平面严格分离集合 $F$ 与 ${x_{0}}$ .

3. 凸函数

Farkas引理：设 $A \in R^{m \times n}$ 、 $b \in R^{n}$ ，则不等式组 $(1) : {A x \leq 0 b^{T} x > 0$ 、 $(2) : {A^{T} y = b y \geq 0$ 有且仅有一组有解（即(1)和(2)不能同时有解）。

证明：假设(2)有解，即 $\exists y \in R^{n}$ 使得 $A^{T} y = b$ ， $y \geq 0$ ，若(1)也有解则 $\exists x \in R^{n}$ 使得 $A x \leq 0$ ，此时 $b^{T} x = (A^{T} y)^{T} x = y^{T} A x \leq 0$

假设(2)无解，记 $Ω = {z : A^{T} y ∣ y \geq 0}$ ，则 $Ω \subseteq R^{n}$ 为非空闭凸集，且 $b \in / Ω$ ，根据点与凸集分离定理知，存在 $ω \in R^{n}$ 、 $t \in R$ 使得对所有 $z \in Ω$ 有 $ω^{T} b > t$ 、 $ω^{T} z < t$ ，并且由 $0 \in Ω$ 知 $t > 0$ ， $t > ω^{T} z = ω^{T} (A^{T} y) = y^{T} A ω$ ， $y \geq 0$ ，由 $y$ 的任意性知， $A ω \leq 0$ ， $b^{T} ω > 0$ ，从而 $ω$ 为(1)的解。

定理：设 $p$ 、 $q$ 是两个非负整数， $u_{0}, u_{1}, \dots, u_{p}, v_{1}, v_{2}, \dots, v_{q} \in R^{n}$ ，则等式与不等式组 $(1) : ⎩ ⎨ ⎧ d^{T} u_{0} < 0 d^{T} u_{i} = 0 d^{T} v_{i} \geq 0, i \in {1, 2, \dots, p}, i \in {1, 2, \dots, q}$ 无解 $\Leftrightarrow$ 存在实数 $α_{i}$ （ $i \in {1, 2, \dots, p}$ ）和非负实数 $β_{i}$ （ $i \in {1, 2, \dots, q}$ ）使得 $(2) : u_{0} = \sum_{i = 1}^{p} α_{i} u_{i} + \sum_{i = 1}^{q} β_{i} v_{i}$ .

凸函数的定义：设 $F \subseteq R^{n}$ 为非空凸集，给定函数 $f : F \to R$ ：

（1）若对任意的 $x, y \in F$ 及任意的 $α \in [0, 1]$ ，有 $f (αx + (1 - α) y) \leq α f (x) + (1 - α) f (y)$ ，则称函数 $f$ 为凸集 $F$ 上的凸函数。

$x$ 与 $y$ 凸组合的函数小于等于 $x$ 与 $y$ 的函数的凸组合叫凸函数。

（2）若对任意的 $x, y \in F$ 且 $x \neq = y$ ，及任意的 $α \in (0, 1)$ ，有 $f (αx + (1 - α) y) < α f (x) + (1 - α) f (y)$ ，则称函数 $f$ 为凸集 $F$ 上的严格凸函数。

（3）若存在常数 $c > 0$ ，使得对任意的 $x, y \in F$ 及任意的 $α \in (0, 1)$ ，有 $f (αx + (1 - α) y) \leq α f (x) + (1 - α) f (y) - c α (1 - α) ∥ x - y ∥^{2}$ ，则称函数 $f$ 为凸集 $F$ 上的强凸函数（或一致凸函数）。

对应凹函数的定义：

（1） $f (αx + (1 - α) y) \geq α f (x) + (1 - α) f (y)$ -凹函数。

（2） $f (αx + (1 - α) y) > α f (x) + (1 - α) f (y)$ -严格凹函数。

（3） $f (αx + (1 - α) y) \geq α f (x) + (1 - α) f (y) + c α (1 - α) ∥ x - y ∥^{2}$ -强凹函数。

例如，给定向量 $c \in R^{n}$ ，则线性函数 $f (x) = c^{T} x$ 既是凸函数又是凹函数，因为此时 $f (αx + (1 - α) y) = α f (x) + (1 - α) f (y)$ .

凸函数的性质（设 $F \subseteq R^{n}$ 是凸集）：

函数 $f$ 是 $F$ 上的（严格）凸函数 $\Leftrightarrow - f$ 是 $F$ 上的（严格）凹函数。
设函数 $f_{1}$ 、 $f_{2}$ 是 $F$ 上的凸函数，实数 $α_{1}, α_{2} \geq 0$ ，则函数 $α_{1} f_{1} + α_{2} f_{2}$ 也是 $F$ 上的凸函数。
设函数 $f$ 是 $F$ 上的凸函数， $t$ 为实数，则水平集 $L_{1} (f) = {x \in F : f (x) \leq t}$ 是凸集。

一阶判别定理（凸函数的判别准则1）：设函数 $f$ 在凸集 $F \subseteq R^{n}$ 上可微，则：

（1） $f$ 在 $F$ 上为凸函数 $\Leftrightarrow$ 对任意的 $x, y \in F$ ，有 $f (y) - f (x) \geq \nabla f (x)^{T} (y - x)$ .

（2） $f$ 在 $F$ 上为严格凸函数 $\Leftrightarrow$ 对任意不同的 $x, y \in F$ ，有 $f (y) - f (x) > \nabla f (x)^{T} (y - x)$ .

第一条的证明：

必要性 $\Rightarrow$ ：由于 $f$ 是 $F$ 上的凸函数，则 $\forall x, y \in F$ 、 $\forall α \in [0, 1]$ ，有 $f (α y + (1 - α) x) \leq α f (y) + (1 - α) f (x)$ ，整理得 $f (x + α (y - x)) \leq f (x) + α [f (y) - f (x)]$ ，由一阶泰勒展开得 $f (x + α (y - x)) = f (x) + α \nabla f (x)^{T} (y - x) + o (∥ α (y - x) ∥)$ ，所以 $f (y) - f (x) \geq \nabla f (x)^{T} (y - x) + \frac{o ( ∥ α ( y - x ) ∥ )}{α}$ ，令 $α \to 0$ 得 $f (y) - f (x) \geq \nabla f (x)^{T} (y - x)$ .

充分性 $\Leftarrow$ ： $\forall x, y \in F$ 、 $\forall α \in [0, 1]$ ，有 $z = αx + (1 - α) y \in F$ ，于是 ${f (x) - f (z) \geq \nabla f (z)^{T} (x - z) f (y) - f (z) \geq \nabla f (z)^{T} (y - z)$ ，两式分别乘以 $α$ 、 $(1 - α)$ 再相加，得 $α f (x) + (1 - α) f (y) - f (z) \geq 0$ ，即 $f (αx + (1 - α) y) \leq α f (x) + (1 - α) f (y)$ ，因此 $f$ 是 $F$ 上的凸函数。

第二条的证明：

必要性 $\Rightarrow$ ： $\forall x, y \in F$ 且 $x \neq = y$ ，令 $z = \frac{1}{2} (x + y)$ 此时 $z \in F$ ，根据第一条的必要性证明可以得到 $f (z) - f (x) \geq \nabla f (x)^{T} (z - x)$ ，并且根据凸函数定义有 $f (z) = f (\frac{1}{2} x + \frac{1}{2} y) < \frac{1}{2} f (x) + \frac{1}{2} f (y)$ ，所以 $\frac{1}{2} f (x) + \frac{1}{2} f (y) > f (x) + \nabla f (x)^{T} (z - x)$ ，整理得 $f (y) - f (x) > \nabla f (x)^{T} (y - x)$ .

充分性 $\Leftarrow$ ：证明和第一条类似。

二阶判别定理（凸函数的判别准则2）：设在开凸集 $F \subseteq R^{n}$ 内函数 $f$ 二阶可微，则：

（1） $f$ 在 $F$ 内为凸函数 $\Leftrightarrow$ 对任意的 $x \in F$ ， $\nabla^{2} f (x)$ 半正定.

（2）若 $\forall x \in F$ ， $\nabla^{2} f (x)$ 正定，则 $f$ 在 $F$ 内为严格凸函数。

第一条的证明：

必要性 $\Rightarrow$ ： $\forall x \in F$ ， $0 \neq = y \in R^{n}$ ，由 $F$ 是开集知，存在 $ϵ > 0$ 使得 $\forall α \in (- ϵ, ϵ)$ ， $x + α y \in F$ ，由一阶判别定理有 $f (x + α y) \geq f (x) + α \nabla f (x)^{T} y$ ，由Taylor展开式得 $f (x + α y) = f (x) + α \nabla f (x)^{T} y + \frac{1}{2} α^{2} y^{T} \nabla^{2} f (x) y + o (∥ α y ∥^{2})$ ，所以 $y^{T} \nabla^{2} f (x) y + \frac{o ( ∥ α y ∥ ^{2} )}{2 α ^{2}} \geq 0$ ，令 $α \to 0$ 得 $y^{T} \nabla^{2} f (x) y \geq 0$ ，由 $y$ 的任意性得 $\nabla^{2} f (x)$ 半正定。

充分性 $\Leftarrow$ ： $\forall x, y \in F$ 及 $\nabla^{2} f (x)$ 对称半正定，对 $f (y)$ 做代拉格朗日余项的Taylor展开，并由于 $X^{T} \nabla^{2} f (ξ) X \geq 0$ 得 $f (y) = f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \nabla^{2} f (ξ) (y - x) \geq f (x) + \nabla f (x)^{T} (y - x)$ ，其中 $ξ = x + t (y - x)$ ， $t \in (0, 1)$ ，因此 $f$ 是 $F$ 上的凸函数。

强凸函数的判别定理：设 $f : R^{n} \to R$ 二次连续可微，则： $f$ 是强凸函数 $\Leftrightarrow \nabla^{2} f (x)$ 一致正定。（注：一致正定即存在 $c > 0$ 对所有 $x, d \in R^{n}$ 都有 $d^{T} \nabla^{2} f (x) d \geq c ∥ d ∥$ ，也就是 $\nabla^{2} f (x)$ 的最小特征值是以 $c$ 为下界的）

4. 凸规划

凸规划问题：设 $F \subseteq R^{n}$ 为凸集， $f : F \to R$ 为凸函数，则称 $x \in F min f (x)$ 为凸规划问题。

凸规划的性质：

凸规划问题的任一局部最优解 $x$ 为其全局最优解.
凸规划问题的最优解集 $S$ 为凸集.
若函数 $f$ 为非空凸集 $F$ 上的严格凸函数，且凸规划问题存在全局最优解，则其全局最优解唯一.

第一点的证明（反证法）：假设 $x^{*}$ 是凸规划问题的局部最优解但非全局最优解，则至少存在一个 $y^{*} \in F$ 使得 $f (y^{*}) < f (x^{*})$ ，由函数 $f$ 为凸函数、 $F$ 为凸集得，对任意 $α \in [0, 1]$ 有 ${α y^{*} + (1 - α) x^{*} \in F f (α y^{*} + (1 - α) x^{*}) \leq α f (y^{*}) + (1 - α) f (x^{*}) < f (x^{*})$ ，当 $α \to 0^{+}$ 时， $α y^{*} + (1 - α) x^{*} \to x^{*}$ ，因此在充分接近 $x^{*}$ 时， $f (α y^{*} + (1 - α) x^{*}) < f (x^{*})$ ，这与 $x^{*}$ 是局部最优解矛盾。

第二点的证明：由空集与单元素集为凸集，不妨设凸规划问题的最优解集 $S$ 至少含两个元素，假设 $x^{*}, y^{*} \in S$ ，则 $\forall α \in [0, 1]$ 有 $x^{*}, y^{*} \in F$ 且 $f (α x^{*} + (1 - α) y^{*}) \leq α f (x^{*}) + (1 - α) f (y^{*}) = f (x^{*}) = x \in F min f (x)$ （因为 $x^{*}$ 、 $y^{*}$ 都是最优解，所以 $f (x^{*}) = f (y^{*})$ ），由于 $x \in F min f (x)$ 是最优值，根据定义它是最小值，因此小于等于只能取等于号，即 $α x^{*} + (1 - α) y^{8} \in S$ .

第三点的证明（反证法）：假设全局最优解不唯一，则 $\exists x^{*}, y^{*} \in S$ 且 $x^{*} \neq = y^{*}$ ，显然 $x^{*}, y^{8} \in F$ 且 $f (x^{*}) = f (y^{*})$ ， $\forall α \in [0, 1]$ ， $αx + (1 - α) y^{*} \in S$ 且 $f (α x^{*} + (1 - α) y^{*}) < α f (x^{*}) + (1 - α) f (y^{*}) = f (x^{*})$ ，这与 $x^{*}$ 是全局最优解矛盾，所以凸规划问题有唯一最优解。

5. 线搜索迭代算法

线搜索算法的一般框架

基本思路：从某个点 $x_{0} \in R^{n}$ 出发，按照某种规则产生一个迭代点序列 ${x^{k}}$ ，直到算法终止。

算法分类：

（1）按照迭代点是否可行，分为 ①可行算法-所有迭代点都是可行点 ②不可行算法-迭代点中至少存在一个不可行点

（2）按照目标函数值是否下降分为 ①单调下降算法 $f (x_{k + 1}) \leq f (x_{k}), \forall k$ ②非单调下降算法

一般框架：

步1：选择一个初始点 $x_{0} \in R^{n}$ ，令 $k = 0$ .

步2：判断当前的迭代点 $x_{k}$ 是否满足终止条件.

步3：从当前点出发，选择沿什么方向进行迭代（记迭代方向为 $d_{k}$ ）以及沿该方向走多远（记迭代步长为 $λ_{k}$ ），确定下一个迭代点 $x_{k + 1} = x_{k} + λ_{k} d_{k}$ .

步4：令 $k = k + 1$ ，转步2.

注1：关于终止规则

最理想的终止规则： $∣ f (x_{k}) - f (x^{*}) ∣ \leq ϵ$ ； $∥ x_{k} - x^{*} ∥ \leq ϵ$ ， $x^{*} \in S$ .

常用的终止规则：

（1） $∥ x_{k + 1} - x_{k} ∥ < ϵ$ （2） $∣ f (x_{k}) - f (x^{*}) ∣ < ϵ$ （3） $\frac{∥ x _{k + 1} - x _{k} ∥}{∥ x _{k} ∥} < ϵ$ （4） $\frac{∣ f ( x _{k + 1} ) - f ( x _{k} ) ∣}{∣ f ( x _{k} ) ∣} < ϵ$ （5） $∥\nabla f (x_{k}) ∥ \leq ϵ$

注2：迭代方向

迭代方向定义：在点 $x_{k}$ 处，对于向量 $d_{k} \in R^{n} \ {0}$ ，若存在 $\overline{λ} > 0$ 使得对任意 $λ \in (0, \overline{λ})$ 都有 $f (x_{k} + λ d_{k}) < f (x_{k})$ ，则称 $d_{k}$ 为函数 $f$ 在 $x_{k}$ 处的一个下降方向。

命题：假设函数 $f$ 一阶连续可微，那么 $d_{k}$ 为 $f$ 在 $x_{k}$ 处的下降方向当且仅当 $\nabla f (x_{k})^{T} d_{k} < 0$ .

证明：由Taylor展开式得 $f (x_{k} + λ d_{k}) = f (x_{k}) + λ \nabla f (x_{k})^{T} d_{k} + o (∥ d_{k} ∥)$ ，所以 $f (x_{k} + λ d_{k}) - f (x_{k}) = λ [\nabla f (x_{k})^{T} d_{k} + o (∥ d_{k} ∥)]$ ，从而结论成立。

注3：可行方向

可行方向定义：给定非空集合 $F \subseteq R^{n}$ 和点 $x_{k} \in F$ ，对于向量 $d_{k} \in R^{n} \ {0}$ ，若存在 $\overline{λ} > 0$ 使得对任意 $λ \in (0, \overline{λ})$ 都有 $x_{k} + λ d_{k} \in F$ ，则称 $d_{k}$ 为 $x_{k}$ 处关于 $F$ 的一个可行方向。

可行下降方向定义：如果 $d_{k}$ 为点 $x_{k}$ 处的可行下降方向，那么存在 $λ_{k}$ 使得 $x_{k} + λ_{k} d_{k} \in F$ ，且 $f (x_{k} + λ_{k} d_{k}) < f (x_{k})$ .

注4：迭代步长的选取

1、精确一维线搜索：选取 $λ_{k} = ar g λ > 0 min φ (λ) = λ > 0 min f (x_{k} + λ d_{k})$ ， $f (x_{k + 1}) = f (x_{k} + λ_{k} d_{k})$ .

2、非精确一维线搜索

（1）Goldstein型线搜索(1965)：选取 $λ_{k} > 0$ 使得 ${f (x_{k} + λ_{k} d_{k}) - f (x_{k}) \leq σ λ_{k} \nabla f (x_{k})^{T} d_{k} f (x_{k} + λ_{k} d_{k}) - f (x_{k}) \geq (1 - σ) λ_{k} \nabla f (x_{k})^{T} d_{k}$ ，其中 $σ \in (0, \frac{1}{2})$ .

（2）Armijo型线搜索(1966)：选取 $λ_{k} = ρ γ^{m_{k}}$ 使得 $m_{k}$ 为满足下式的最小非负整数： $f (x_{k} + ρ γ^{m_{k}} d_{k}) - f (x_{k}) \leq σ ρ γ^{m_{k}} \nabla f (x_{k})^{T} d_{k}$ ，其中 $ρ > 0$ ， $γ \in (0, 1)$ .

（3）Wolfe型线搜索：选取 $λ_{k} > 0$ 使得 ${f (x_{k} + λ_{k} d_{k}) - f (x_{k}) \leq σ λ_{k} \nabla f (x_{k})^{T} d_{k} \nabla f (x_{k} + λ_{k} d_{k})^{T} d_{k} \geq δ \nabla f (x_{k})^{T} d_{k}$ ，其中 $σ \in (0, \frac{1}{2})$ ， $δ \in (σ, 1)$ .

3、非单调一维线搜索

（1）Grippo-Lampariello-Lucidi非单调线搜索(1986)：寻找步长 $λ_{k} = ρ γ^{h_{k}}$ 使得 $h_{k}$ 是满足下式的最小非负整数： $f (x_{k} + λ_{k} d_{k}) \leq 0 \leq j \leq m_{k} max f (x_{k - j}) + δ λ_{k} \nabla f (x_{k})^{T} d_{k}$ ，其中 $m_{k}$ 是一个正整数且 $m_{k} \leq M$ （ $M$ 为某一正整数）， $λ_{k}^{0}$ 是一个给定的小实数， $σ, ρ \in (0, 1)$ .

注：当 $f (x_{k}) = 0 \leq j \leq m_{k} max f (x_{k - j})$ 时，即为单调的Armijo型线搜索。

（2）Zhang-Hager非单调线搜索(2004)：寻找步长 $λ_{k} > 0$ 使得 ${f (x_{k} + λ_{k} d_{k}) \leq C_{k} + δ λ_{k} \nabla f (x_{k})^{T} d_{k} \nabla f (x_{k} + λ_{k} d_{k})^{T} d_{k} \geq σ \nabla f (x_{k})^{T} d_{k}$ ，其中 $0 < δ < σ < 1$ ， $C_{k}$ 按如下方式选取： $C_{k + 1} = (η_{k} Q_{k} C_{k} + f (x_{k + 1})) \ Q_{k + 1}$ ，这里 $Q_{k + 1} = η_{k} Q_{k} + 1$ ， $C_{0} = f (x_{0})$ ， $Q_{0} = 1$ ，且 $η_{k} \in [η_{m i n}, η_{m a x}]$ ， $0 \leq η_{m i n} \leq η_{m a x} \leq 1$ .

注： $C_{k}$ 是 $f (x_{0}), f (x_{1}), \dots, f (x_{k})$ 的凸组合，含有 $k$ 步迭代之前所有迭代点函数值的信息； $η_{k}$ 的选取控制着”非单调性”的度，如果 $η_{k} = 0$ ， $k \in {0, 1, 2, \dots}$ ，则即为单调的Wolfe搜索。

（3）Hu-Huang-Lu非单调线搜索(2010)：寻找步长 $λ_{k} > 0$ 使得 ${f (x_{k} + λ_{k} d_{k}) \leq C_{k} + δ λ_{k} \nabla f (x_{k})^{T} d_{k} \nabla f (x_{k} + λ_{k} d_{k})^{T} d_{k} \geq σ \nabla f (x_{k})^{T} d_{k}$ ，其中 $0 < δ < σ < 1$ ， $C_{k}$ 按如下方式选取： $C_{k + 1} = (η_{k} \sum_{l = 1}^{m_{k} - 1} η_{k - l} f (x_{k - l}) + f (x_{k})) \ Q_{k}$ ，且 $Q_{k} = η_{k} \sum_{l = 1}^{m_{k} - 1} η_{k - l} + 1$ ，其中 $η_{k} \in [η_{m i n}, η_{m a x}]$ ， $0 \leq η_{m i n} \leq η_{m a x} \leq 1$ ， $f (x_{k}) - C_{k} \leq \frac{δ l _{k} ∣\nabla f ( x _{k} ) ^{T} d _{k} ∣}{2}$ ，这里，若 $\nabla f$ 是Lipschitz连续的，则令 $l_{k} = \frac{( 1 - σ ) ∣\nabla f ( x _{k} ) ^{T} d _{k} ∣}{L ∥ d _{k} ∥ ^{2}}$ ，其中 $L$ 为Lipschitz常数；否则，令 $l_{k} = 0$ .

注一个特例：若 $\sum_{l = 1}^{m_{k} - 1} η_{k - l} f (x_{k - l}) \geq \sum_{l = 1}^{m_{k} - 1} η_{k - l} f (x_{k})$ ，则 $η_{k} \in (0, 1]$ ；否则，选择 $η_{k} = 0$ 。因此，每一步要么使用单调线搜索，要么使用非单调线搜索，是一种混合线搜索方法。

算法收敛性

1、适定性(well-defined)：如果算法的每一步是适定的，则这个算法是适定的。

2、算法是收敛的：如果算法是有限终止的或所产生迭代点列 ${x_{k}}$ 的每个聚点是优化问题的最优解，则称该算法是收敛的。

3、全局收敛(globally convergent)：局部收敛(locally convergent)：如果对于任意的初始点 $x_{0}$ 算法是收敛的，则称该算法是全局收敛的；如果只有初始点 $x_{0}$ 充分靠近最优解时，算法是收敛的，则称该算法是局部收敛的。

4、收敛率(rate of convergence)：假设算法生产无穷点列 ${x_{k}}$ ，且算法收敛到最优解 $x^{*}$ ，不妨设 ${x_{k}}$ 收敛到 $x^{*}$ ，即 $k \to \infty lim ∥ x_{k} - x^{*} ∥ = 0$ ，则：

（1）全局Q-线性收敛：如果算法初始迭代点的选取无关于最优解的信息，且存在 $β \in (0, 1)$ 使得 $∥ x_{k + 1} - x^{*} ∥ \leq β ∥ x_{k} - x^{*} ∥$ ， $\forall k \in {0, 1, 2, \dots}$ ，则称该算法是全局Q-线性收敛的。

（2）局部Q-收敛率：如果存在 $β > 0$ 、 $ζ \geq 0$ 使得 $k \to \infty lim \frac{∥ x _{k + 1} - x ^{*} ∥}{∥ x _{k} - x ^{*} ∥ ^{β}} = ζ$ ，则称该算法是局部Q- $β$ 阶收敛的。

注：特别地，

若 $β = 1$ ， $ζ \in (0, 1)$ ，则称该算法是局部Q-线性收敛的.

若 $β \in (1, 2)$ 、 $ζ > 0$ 或 $β = 1$ 、 $ζ = 0$ ，则称该算法是局部Q-超线性收敛的.

若 $β = 2$ ， $ζ > 0$ ，则称算法是Q-二阶收敛的.

二、线性规划问题

1. 线性规划问题的数学模型

例1：某制药厂生产甲、乙两种药品，生产这两种药品都有消耗某种原料，生产每吨药品所需的原料量及所占设备时间见下表

项目 $\$ 消耗量每吨产品的消耗每周资源总量

甲乙

原料/kg 30 20 160

设备/台班 5 1 15

该厂每周所能得到的原料量为160kg，每周设备最多能开15个台班，且根据市场需求，甲种产品每周产量不应超过4t。已知该厂生产每吨甲、乙两种产品的利润分别为5万元和2万元，问该厂应如何安排两种产品的产量才能使每周获得的利润最大？

解：设该厂每周安排生产甲、乙两种药品的产量分别为 $x_{1}$ 、 $x_{2}$ ，则 $x_{1}, x_{2}$ 需要满足不等式条件 $s . t . ⎩ ⎨ ⎧ 30 x_{1} + 20 x_{2} \leq 160 5 x_{1} + x_{2} \leq 15 x_{1} \leq 4 x_{1} \geq 0 x_{2} \geq 0$ ，并且该问题变为 $max z = 5 x_{1} + 2 x_{2}$ .

项目 $\$ 消耗量	每吨产品的消耗		每周资源总量
	甲	乙
原料/kg	30	20	160
设备/台班	5	1	15

例2：某铁器加工厂需要制作100套钢架，每套要用长分别为2.9m、2.1m和1.5m的圆钢各一根，已知原料长为7.4m。问应如何下料，可使用材料最省？

解：通过分析，可知有如下几种切割方式

长度(数量) $\$ 方案编号 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ

2.9m 1 2 0 1 0

2.1m 0 0 2 2 1

1.5m 3 1 2 0 3

料头/m 0 0.1 0.2 0.3 0.8

假设按第 $i$ 种方案下料的原料根数为 $x_{i}$ （ $i = 1, 2, 3, 4, 5$ ），则求 $min z = 0 x_{1} + 0.1 x_{2} + 0.2 x_{3} + 0.3 x_{4} + 0.8 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + 2 x_{2} + x_{4} = 100 2 x_{3} + 2 x_{4} + x_{5} = 100 3 x_{1} + x_{2} + 2 x_{3} + 3 x_{5} = 100 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0 且为整数$ .

长度(数量) $\$ 方案编号	Ⅰ	Ⅱ	Ⅲ	Ⅳ	Ⅴ
2.9m	1	2	0	1	0
2.1m	0	0	2	2	1
1.5m	3	1	2	0	3
料头/m	0	0.1	0.2	0.3	0.8

线性规划问题的数学模型：像上面那样，每个问题都有一组决策变量 $x_{1}, x_{2}, \dots$ ，每个问题都有这些决策变量需要满足的一组约束条件（一般为线性等式或不等式），每个问题都有一个关于决策变量的线性目标函数并且该函数要在满足约束条件的条件下实现最大化或最小化，那么我们将约束条件和目标函数都是决策变量的线性函数的规划问题称为线性规划。

2. 图解法（两个决策变量）

对于只有两个决策变量的线性规划问题，一般采用图解法

例：求解 $max z = 5 x_{1} + 2 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 30 x_{1} + 20 x_{2} \leq 160 5 x_{1} + x_{2} \leq 15 x_{1} \leq 4 x_{1} \geq 0, x_{2} \geq 0$ .

解：以 $x_{1}$ 、 $x_{2}$ 为坐标轴建立直角坐标系，分别作出约束条件所对应的半平面（图中的蓝色区域就是可行域）

求出 $z = 5 x_{1} + 2 x_{2}$ 的梯度 $t = (\frac{\partial z}{\partial x _{1}}, \frac{\partial z}{\partial x _{2}})^{T} = (5, 2)^{T}$ ，将任一等值线 $l$ 沿 $t$ 的方向平移，直到将离开还未离开可行域时的一根等值线为 $l^{*}$ ，即为过图中 $A (2, 5)$ 点的等值线，故 $(2, 5)$ 为唯一的最优解。

关于可行域与解的一些结论

若可行域非空且有界，则线性规划问题必有最优解；若可行域无界，则线性规划问题可能有最优解，也可能无最优解。
若线性规划问题有最优解，其最优解必在某个顶点处达到，最优解的个数或是唯一的，或有无穷多个。

3. 线性规划问题的标准化

标准的线性规划问题要求满足：

目标函数一律改为最大化.
约束条件一律改为等式（非负约束条件除外）.
等式右端项大于等于零.

线性规划问题的矩阵形式： $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，其中 $c = (c_{1}, \dots, c_{n})$ ， $x = x_{1} ⋮ x_{n}$ ， $b = b_{1} ⋮ b_{m}$ ， $A = a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} ⋮ a_{m 2} \dots \dots \dots a_{1 n} a_{2 n} ⋮ a_{mn}$ .

线性规划问题的向量形式： $max z = c x$ ， $s . t . {\sum_{j = 1}^{n} x_{j} p_{j} = b x \geq 0$ ，其中 $c, x, b$ 同矩阵形式，而 $p_{j} = a_{1 j} ⋮ a_{mj}$ ， $j = 1, 2, \dots, n$ ，即 $A = (p_{1}, \dots, p_{n})$ .

如何将线性规划问题改写为标准形式：

（1）若目标函数为最小化 $min z = c x$ ，则作函数 $z^{'} = - c x$ ，对 $z^{'}$ 实现最大化，即 $max z^{'} = - c x$ .

（2）若约束条件是小于等于型，则在该约束不等式左边加上一个松弛变量，将不等式改为等式.

比如： $x_{1} - 2 x_{2} + 3 x_{3} \leq 8 \Rightarrow x_{1} - 2 x_{2} + 3 x_{3} + x_{4} = 8$ .

（3）若约束条件是大于等于型，则在该约束不等式左边减去一个剩余变量，将不等式改为等式。

比如： $2 x_{1} - 3 x_{2} - 4 x_{3} \geq 5 \Rightarrow 2 x_{1} - 3 x_{2} - 4 x_{3} - x_{4} = 5$ .

（4）若某个约束方程右端项 $b_{i} < 0$ ，则在约束方程两端乘以 $- 1$ ，不等式改变方向，然后再将不等式转化为等式.

（5）若决策变量 $x_{k}$ 无非负要求，则可令两个新变量 $x_{k}^{'} \geq 0$ 和 $x_{k}^{^{''}} \geq 0$ ，作 $x_{k} = x_{k}^{'} - x_{k}^{^{''}}$ ，在原有的数学模型中， $x_{k}$ 均用 $x_{k}^{'} - x_{k}^{^{''}}$ 来替代，而在非负约束中，增加 $x_{k}^{'} \geq 0$ 、 $x_{k}^{^{''}} \geq 0$ .

即一般的线性规划问题都要求决策变量 $x \geq 0$ ，如果实际问题中 $x$ 可以小于零，就要转化为两个非负的新的变量相减。

例：将下列线性规划问题化为标准形式： $min z = x_{1} - 2 x_{2} + 3 x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + x_{2} + x_{3} \leq 7 x_{1} - x_{2} + x_{3} \geq 2 - 3 x_{1} + x_{2} + 2 x_{3} = - 5 x_{1} \leq 0, x_{2} \geq 0, x_{3} 无约束$

解：令 $z^{'} = - z$ ，再令 $x_{3} = x_{4} - x_{5}$ ，并在第一个约束条件中加入松弛变量 $x_{6}$ ，在第二个约束条件左边减去剩余变量 $x_{7}$ ，第三个约束条件两边同乘 $- 1$ ，得 $max z^{'} = - x_{1} + 2 x_{2} - 3 (x_{4} - x_{5}) + 0 \cdot x_{6} + 0 \cdot x_{7}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + x_{2} + x_{4} - x_{5} + x_{6} = 7 x_{1} - x_{2} + x_{4} - x_{5} - x_{7} = 2 3 x_{1} - x_{2} - 2 x_{4} + 2 x_{5} = 5 x_{1}, x_{2}, x_{3}, x_{4}, x_{5}, x_{6}, x_{7} \geq 0$ .

4.线性规划问题的解

可行解、最优解：若数学模型为 $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，其中 $A = (a_{ij})_{m \times n}$ ， $r (A) = m < n$ ， $x \in R^{n}$ ， $b \in R^{m}$ ， $b \geq 0$ ， $c \in R^{n}$ ，我们把凡是满足 $A x = b$ 及 $x \geq 0$ 的解 $x = x_{1} ⋮ x_{n}$ 称为线性规划问题的可行解，同时满足 $max z = c x$ 的可行解为最优解。

基矩阵、基向量：设线性规划问题约束方程组的系数矩阵 $A_{m \times n}$ 的秩为 $m$ ，则 $A$ 中某 $m$ 列组成的任一 $m$ 阶可逆阵 $B$ 称为该规划问题的基矩阵，简称基，若把基记为 $B = (p_{1}, p_{2}, \dots, p_{m})$ ，则称 $p_{k}$ 为基 $B$ 中的一个基向量，而 $A$ 中其余 $n - m$ 个列向量称为非基向量。

基变量：当确定了 $A x = b$ 的一个基 $B$ 后，与基向量 $p_{k}$ 相对应的决策变量 $x_{k}$ 称为关于基 $B$ 的一个基变量，而与非基向量对应的决策变量称为非基变量。

基本解、基本可行解：若确定了基 $B$ 及其对应的基变量 $x_{k_{1}}, \dots, x_{k_{m}}$ ，我们称非基变量取值均为零且满足约束条件的一个解 $x$ ，为关于基 $B$ 的一个基本解；如果该基本解同时满足非负条件 $x \geq 0$ ，则称基本解为基本可行解。

基本解的确定：设 $B$ 为一个基矩阵， $x_{B}$ 为对应的基变量， $N$ 为非基矩阵， $x_{N}$ 为对应的非基变量，那么 $A x = b$ 可以改写为 $B x_{B} + N x_{N} = b$ ，因此 $x_{B} = B^{- 1} b - B^{- 1} N x_{N}$ ，如果令非基变量 $x_{N} = 0$ ，则基变量 $x_{B} = B^{- 1} b$ ，故 $[x_{B} x_{N}] = [B^{- 1} b 0]$ 就是关于基 $B$ 的一个基本解。

例：求 ${x_{1} + 2 x_{2} \leq 8 x_{2} \leq 2$ 的基本解和基本可行解

解：化为标准形式 $s . t . {x_{1} + 2 x_{2} + x_{3} = 8 x_{2} + x_{4} = 2$ ，于是 $A = [10211001] = (p_{1}, p_{2}, p_{3}, p_{4})$ ，设 $B_{1} = (p_{1}, p_{2}) = [1021]$ 是一个基，且 $x_{1}, x_{2}$ 是相应的基变量，而 $x_{3}, x_{4}$ 是非基变量，令 $x_{3} = x_{4} = 0$ ，算出基本解为 $x_{1} = 4200$ ，又因为 $x_{1} \geq 0$ ，那么 $x_{1}$ 也是基本可行解。

另外，如果选取 $B_{2} = (p_{1}, p_{3})$ ，得到 $x_{2} = 8002$ ，此时 $x_{3}$ 也是基本可行解。其他选法类似。

5. 线性规划问题基本理论

引入：通过两个变量的线性规划问题的图解法，可以得到如下结论：

线性规划问题的可行域是一个有界或无界的凸多边形，其顶点的个数是有限个。

若线性规划问题有最优解，则其最优解必可在某顶点处达到。

下面考虑对于多变量线性规划问题，讨论以上结论是否仍然成立。

凸集：设集合 $S \in R^{n}$ ，若对 $\forall x_{1}, x_{2} \in S$ 及每一个数 $λ \in [0, 1]$ ，都有 $λ x_{1} + (1 - λ) x_{2} \in S$ 成立，则称 $S$ 为凸集。

从直观上看，没有凹入部分，或没有空洞的是凸集。若集合 $S$ 中任意两点连线上的每一点仍在 $S$ 中，则 $S$ 为凸集。

凸组合：设 $x_{1}, x_{2}, \dots, x_{k}$ 是 $n$ 维欧式空间 $R^{n}$ 中的 $k$ 个点，若存在实数 $λ_{1}, λ_{2}, \dots, λ_{k}$ ，其中 $λ_{i} \in [0, 1]$ 且 $\sum_{i = 1}^{k} λ_{i} = 1$ ，有 $x = λ_{1} x_{1} + λ_{2} x_{2} + \dots + λ_{k} x_{k}$ ，则称 $x$ 为 $x_{1}, x_{2}, \dots, x_{k}$ 的一个凸组合。

严格凸组合：若存在实数 $λ_{1}, λ_{2}, \dots, λ_{k}$ ，其中 $λ_{i} \in (0, 1)$ 且 $\sum_{i = 1}^{k} λ_{i} = 1$ ，有 $x = λ_{1} x_{1} + λ_{2} x_{2} + \dots + λ_{k} x_{k}$ ，则称 $x$ 为 $x_{1}, x_{2}, \dots, x_{k}$ 的一个严格凸组合。

极点：设 $S$ 是凸集， $x \in S$ ，若 $x$ 不能表示为 $S$ 中任意两个不同点 $x_{1}, x_{2}$ 的一个严格凸组合，则称 $x$ 为 $S$ 的一个极点。

若 $x$ 是 $S$ 中的一个极点，且有 $x = λ x_{1} + (1 - λ) x_{2}$ ， $λ \in (0, 1)$ ， $x_{1}, x_{2} \in S$ ，则必有 $x = x_{1} = x_{2}$ .

五边形的每个顶点都是极点，而圆域边界上任意一点都是极点。

定理：若线性规划问题存在可行域，则可行域 $S = {x ∣ A x = b, x \geq 0, A \in M_{m \times n}, b \in R^{m}, x \in R^{n}}$ 为一凸集。

定理：线性规划问题的可行解 $x = (x_{1}, x_{2}, \dots, x_{n})^{T}$ 为基本可行解当且仅当 $x$ 中正分量所对应的系数列向量线性无关。

定理：线性规划问题的每个基本可行解 $x$ 对应于可行域 $S$ 的一个极点。

证明：设基本可行解 $x$ 的前 $m$ 个分量为基变量，即 $\sum_{j = 1}^{m} p_{j} x_{j} = b$ ，如果 $x$ 不是可行域 $S$ 中的极点，则 $x$ 一定可以表示为可行域 $S$ 中两个不同的点 $x^{(1)}$ 和 $x^{(2)}$ 的一个严格凸组合，即 $x = λ x^{(1)} + (1 - λ) x^{(2)}$ ， $0 < λ < 1$ ，若记 $x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{n}^{(2)})^{T}$ ， $x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{n}^{(2)})^{T}$ ，则有 $x_{1} ⋮ x_{m} 0 ⋮ 0 = λ x_{1}^{(1)} ⋮ x_{m}^{(1)} x_{m + 1}^{(1)} ⋮ x_{n}^{(1)} + (1 - λ) x_{1}^{(2)} ⋮ x_{m}^{(2)} x_{m + 1}^{(2)} ⋮ x_{n}^{(2)}$ ，故 $λ x_{k}^{(1)} + (1 - λ) x_{k}^{(2)} = 0$ （ $k = m + 1, \dots, n$ ），根据基本可行解的非负条件知， $x_{k}^{(1)} = 0$ 、 $x_{k}^{(2)} = 0$ ，因为 $x^{(1)}, x^{(2)} \in S$ 是可行解，有 ${x_{1}^{(1)} p_{1} + x_{2}^{(1)} p_{2} + \dots + x_{m}^{(1)} p_{m} = b x_{1}^{(2)} p_{1} + x_{2}^{(2)} p_{2} + \dots + x_{m}^{(2)} p_{m} = b$ ，两式相减得 $(x_{1}^{(1)} - x_{1}^{(2)}) p_{1} + (x_{2}^{(1)} - x_{2}^{(2)}) p_{2} + \dots + (x_{m}^{(1)} - x_{m}^{(2)}) p_{m} = 0$ ，由于 $x^{(1)} \neq = x^{(2)}$ ，所以至少有一个 $x_{j}^{(1)} - x_{j}^{(2)} \neq = 0$ ，其中 $1 \leq j \leq m$ ，也就是说 $p_{1}, p_{2}, \dots, p_{m}$ 线性相关，这与 $x$ 是基本可行解矛盾，故假设不成立。

定理：有界凸集 $S$ 上任一点 $x$ 都可以表示为 $S$ 的极点的凸组合。

定理：对线性规划问题的标准形式，若可行域有界，且存在最优解，则目标函数必可在其可行域 $S$ 的某个顶点达到最优值。

定理：对于线性规划问题的标准形式，若存在可行解，则必存在基本可行解。其中约束矩阵为秩是 $m$ 的 $m \times n$ 型矩阵 $A$ 。

通过以上分析，可得到以下结论：

线性规划问题的可行域是一个凸集，可行域可能有界也可能无界，但其顶点数是有限个。
线性规划问题每个基本可行解对应于可行域的一个极点（顶点）。
若线性规划问题有最优解，则必可在其可行域的某个（或多个）极点上达到最优值。

于是，我们就可以用代数方法寻找最优解：求最优解先找基本可行解，而基本可行解的个数不会超过基本解的个数 $C_{n}^{m}$ 。

6.单纯形法

单纯形法概述

引入：前面我们已经知道了要求线性规划问题的最优解可以先找基本可行解再逐个比较，但是往往基本可行解的个数 $C_{n}^{m}$ 会随着 $m$ 、 $n$ 增大而迅速增大，所以这种方法往往行不通。于是我们设想如果可以从某一基本可行解（初始基本可行解）出发，每次寻求比上次更“好”的基本可行解，这样就大大减少了计算量。

要使用这种逐步改善的求解方法，要解决如下几个问题：（1）如何得到一个初始基本解（2）如何判别是否达到了最优解（3）若当前不是最优解，如何寻找一个更好的基本可行解

下面利用例题来说明单纯性法的思路：

例： $max z = 5 x_{1} + 2 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 30 x_{1} + 20 x_{2} \leq 160 5 x_{1} + x_{2} \leq 15 x_{1} \leq 4 x_{1}, x_{2} \geq 0$ .

解：将问题标准化得， $max z = 5 x_{1} + 2 x_{2} + 0 x_{3} + 0 x_{4} + 0 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ 30 x_{1} + 20 x_{2} + x_{3} = 160 5 x_{1} + x_{2} + x_{4} = 15 x_{1} + x_{5} = 4 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ ，写出约束矩阵为 $A = 30512010100010001$ 。

步骤一：选取一个可逆的子阵作为初始基矩阵，比如 $B^{(0)} = 100010001$ ，则相应的基变量为 $x_{B} = x_{3} x_{4} x_{5}$ ，于是初始基本可行解为 $[x_{B} x_{N}] = [B^{- 1} b 0]$ ，带入计算得初始基本可行解为 $(0, 0, 160, 15, 4)^{T}$ ，相应的目标函数值为 $max z = 0$ 。

步骤二：判断当前解是否为最优解。将基变量用非基变量表示 $⎩ ⎨ ⎧ x_{3} = 160 - 30 x_{1} - 20 x_{2} x_{4} = 15 - 5 x_{1} - x_{2} x_{5} = 4 - x_{1}$ ，用非基变量表示目标函数 $z = 0 + 5 x_{1} + 2 x_{2}$ ，从数学角度看，目标函数中非基变量 $x_{1}, x_{2}$ 的系数为正数，故若让非基变量 $x_{1}$ （或 $x_{2}$ ）的取值从零增加，相应的目标函数值 $z$ 也将增加，因此就有可能找到一个新的基本可行解，使目标函数值比 $x^{(0)}$ 的更“好”。因此，这个不是最优解。

步骤三：解的改进。在 $z = 5 x_{1} + 2 x_{2}$ 中， $x_{1}$ 前的系数必比 $x_{2}$ 前的系数大，即 $x_{1}$ 每增加一个单位对 $z$ 的贡献比 $x_{2}$ 大，故让 $x_{1}$ 的取值从零变成正值。这样， $x_{1}$ 从非基变量转为基变量，我们称之为进基变量。但对于本例，任意一个基本可行解中只能有3个基变量，因此必须从原有的基变量 $x_{3}, x_{4}, x_{5}$ 中选择一个离开基变量，我们称之为离基变量（或出基变量），为了选取合适的离基变量，观察 $⎩ ⎨ ⎧ x_{3} = 160 - 30 x_{1} - 20 x_{2} x_{4} = 15 - 5 x_{1} - x_{2} x_{5} = 4 - x_{1}$ ，此时我们已经选取了 $x_{1}$ 为进基变量，而 $x_{2}$ 仍为非基变量取值仍为0，我们选取在 $x_{1}$ 从零增加直到使 $x_{3}, x_{4}, x_{5}$ 的取值减少到零时停止，第一个变为零的基变量为离基变量。显然 $x_{1} = min {\frac{160}{30}, \frac{15}{5}, \frac{4}{1}} = \frac{15}{5} = 3$ ，因此 $x_{4}$ 为离基变量（即令 $x_{4} = 0$ ），将 $x_{1} = 3$ 代入前面等式，可得到新的基本可行解 $x^{(1)}$ 。

经过以上三步，我们得到了一个新的基本可行解 $x^{(1)} = (3, 0, 70, 0, 1)^{T}$ ，然后再重复上述步骤。（1）算出新的基本可行解后再重新写出基矩阵、基变量和目标函数：相应的基矩阵为 $B^{(1)} = (p_{3}, p_{1}, p_{5})$ ，基变量为 $x_{3}, x_{1}, x_{5}$ ，非基变量为 $x_{2}, x_{4}$ ，对应的目标函数值是 $z (x^{(1)}) = 15 > z (x^{(0)}) = 0$ 。（2）判断当前解是否为最优解：将基变量用非基变量表示 $⎩ ⎨ ⎧ x_{3} = 70 - 14 x_{2} + 6 x_{4} x_{1} = 3 - \frac{1}{5} x_{2} - \frac{1}{5} x_{4} x_{5} = 1 + \frac{1}{5} x_{2} + \frac{1}{5} x_{4}$ ，用非基变量表示目标函数 $z = 15 + x_{2} - x_{4}$ ，此时目标函数中 $x_{2}$ 的系数仍为正数，于是选 $x_{2}$ 为进基变量，迭代到一个新的基本可行解 $x^{(2)}$ ，就有可能使目标函数值再增加，因此 $x^{(1)}$ 仍不时最优解。（3）解的改进：在基变量用非基变量表示的式子中， $x_{4}$ 仍为非基变量取值为0，在 $x_{2}$ 从零增加的过程中， $x_{3}$ 首先到达零，故取 $x_{2} = min {\frac{70}{14}, \frac{3}{\frac{1}{5}}} = \frac{70}{14} = 5$ ，则 $x_{3} = 0$ ， $x_{1} = 2 > 0$ ， $x_{5} = 2 > 0$ 。

经过两次迭代，可得到新的基本可行解 $x^{(2)} = (2, 5, 0, 0, 2)^{T}$ ，再次判断此解是否为最优解：将基变量用非基变量表示 $⎩ ⎨ ⎧ x_{2} = 5 - \frac{1}{14} x_{3} + \frac{3}{7} x_{4} x_{1} = 2 + \frac{1}{70} x_{3} - \frac{2}{70} x_{4} x_{5} = 2 - \frac{1}{70} x_{3} + \frac{2}{7} x_{4}$ ，用非基变量表示目标函数 $z = 20 - \frac{1}{14} x_{3} - \frac{4}{7} x_{4}$ ，这时 $x_{3}, x_{4}$ 中任意一个从零开始增加，都会使 $z$ 减少，因此当前解 $x^{(2)} = (2, 5, 0, 0, 2)^{T}$ 就是最优解了，此时最优值为 $z^{*} = z (x^{(2)}) = 20$ 。

通过上面例子，总结出单纯性法的求解步骤：

（1）在线性规划问题的标准形式中，设法在约束矩阵 $A_{m \times n}$ 中构造出一个 $m$ 阶单位矩阵作为初始可行基，获得一个初始基本可行解；

（2）判断当前基本可行解是否为最优解。判断方法为：求出用非基变量表示基变量及目标函数的表示式，称为线性规划问题的典式（或称为规范式），在目标函数的典式中，若至少有一个非基变量前的系数为正数，则当前解不是最优解；而如果所有非基变量的系数均为非正数，则当前解就是最优解。因此我们把目标函数的典式中非基变量前的系数称为检验数，对于最大化问题，当所有的检验数 $\leq 0$ 时，当前解为最优解；对于最小化问题，当所有的检验数 $\geq 0$ 时，当前解为最优解；

个人理解：随着学习的深入，最优解的意义不同。比如学到对偶单纯形法之后，最大化问题的所有检验数 $\leq 0$ 只能叫做正则解，而不能再叫做最优解，因为后面的最优解还要求 $\overline{b} \geq 0$ ，这样才能利用互补松弛性定理写出对偶问题的解，但是如果不考虑对偶问题的话，这里管检验数 $\leq 0$ 的解叫最优解也没错，只是学的越后面，对最优解的要求变得越多。

（3）若当前解不是最优解，则要进行基变换迭代到下一个基本可行解。变换方式为：首先从当前解的非基变量中选一个作进基变量（选择的原则一般为目标函数的典式中，最大的正检验数所属的非基变量作为进基变量）；再从当前解的基变量中选一个作为离基变量（选择的方法是在用非基变量表示基变量的典式中，除进基变量外，让其余非基变量取值为零，再按最小比值准则确定离基变量）。选好后再继续重复上面步骤，直至找到最优解。

单纯形法的矩阵描述

考虑线性规划问题的标准模型 $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，其中 $A = (a_{ij})_{m \times n}$ ， $r (A) = m < n$ ， $x \in R^{n}$ ， $b \in R^{m}$ ， $c^{T} \in R^{n}$ ，在下面的讨论中，假设：（1）此线性规划问题的可行域非空（2）所有的基本可行解不退化。

步骤一：将 $A$ 分解为 $A = (B, N)$ ，其中 $B$ 为基矩阵， $N$ 为非基矩阵，相应地， $x_{B}$ 为基变量， $x_{N}$ 为非基变量，那么解向量可写为 $x = [x_{B} x_{N}]$ ，根据前面的结论知，当前的基本可行解 $[x_{B} x_{N}] = [B^{- 1} b 0]$ ，相应地，将价值系数向量也分为两块 $c = (c_{B}, c_{N})$ ；

步骤二：判断当前解是否为最优解，即求检验数。①先用非基变量表示基变量，由 $A x = b$ 得 $B x_{B} + N x_{N} = b$ ，又因为 $B$ 可逆，则有 $x_{B} = B^{- 1} b - B^{- 1} N x_{N}$ 。②再用非基变量表示目标函数， $z = c_{B} (B^{- 1} b - B^{- 1} N x_{N}) + c_{N} x_{N} = c_{B} B^{- 1} b + \sum_{k \in N} (c_{k} - c_{B} B^{- 1} p_{k}) x_{k}$ ，故对于每个非基变量 $x_{k}$ ，其对应的检验数为 $σ_{k} = c_{k} - c_{B} B^{- 1} p_{k}$ ，其中 $p_{k}$ 是 $x_{k}$ 在约束矩阵中对应的列向量，而基变量的检验数 $c_{k} - c_{B} B^{- 1} p_{k}$ 都为零；

步骤三：若当前解不是最优解，则要进行基变换迭代到下一个基本可行解。①若某个非基变量的检验数 $σ_{k} > 0$ ，则当前解不是最优解，而且 $σ_{k}$ 越大，目标函数值增加越多，选择进基变量 $x_{i}$ 使 $σ_{i} = max_{k \in N} {σ_{k}}$ 。②选择离基变量，因为 $x_{B} = B^{- 1} b - B^{- 1} N x_{N} = B^{- 1} b - \sum_{k \in N} B^{- 1} p_{k} x_{k}$ ，除 $x_{i}$ 以外，其他的非基变量取值仍为零，所以 $x_{B} = B^{- 1} b - B^{- 1} p_{i} x_{i} = \overline{b} - Y_{i} x_{i}$ ，其中 $\overline{b} = B^{- 1} b$ ， $Y_{i} = B^{- 1} p_{i}$ 都为 $m$ 维向量，于是 $x_{B} = x_{B_{1}} x_{B_{2}} ⋮ x_{B_{m}} = \overline{b_{1}} \overline{b_{2}} ⋮ \overline{b_{m}} - y_{1 i} y_{2 i} ⋮ y_{mi} x_{i}$ ，由最小比值准则知， $x_{i} = min {\frac{b _{l}}{y _{l i}} ∣ y_{l i} > 0} = \frac{b _{r}}{y _{r i}}$ ，故当前的第 $r$ 个基标量 $x_{B_{r}}$ 为离基变量。于是新的基矩阵为 $B = (p_{B_{1}}, p_{B_{2}}, \dots, p_{B_{r - 1}}, p_{i}, p_{B_{r + 1}}, \dots, p_{B_{m}})$ 。

定理：根据上面分析，可以看出，对于最大化线性规划问题，若存在一个检验数 $σ_{k} > 0$ ，且 $y_{l i} \leq 0$ ， $l = 1, 2, \dots, m$ ，即 $B^{- 1} p_{i} \leq 0$ ，则线性规划问题有无界解（无最优解）。

定理：对于最大化线性规划问题，若所有非基变量的检验数 $σ_{k} \leq 0$ ，则当前解为最优解；对于最小化线性规划问题，若所有非基变量的检验数 $σ_{k} > 0$ ，则当前解为最优解。

例：用单纯形法求解 $max 4 x_{1} + x_{2}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1} + 2 x_{2} \leq 4 2 x_{1} + 3 x_{2} \leq 12 x_{1} - x_{2} \leq 3 x_{1}, x_{2} \geq 0$ .

解：将问题化为标准型得 $max 4 x_{1} + x_{2} + 0 x_{3} + 0 x_{4} + 0 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1} + 2 x_{2} + x_{3} = 4 2 x_{1} + 3 x_{2} + x_{4} = 12 x_{1} - x_{2} + x_{5} = 3 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ ，写出系数矩阵 $A = (p_{1}, p_{2}, p_{3}, p_{4}, p_{5}) = - 1 21 23 - 1 100010001$ 。

第一次迭代：步骤一：选择初始可行基 $B = (p_{3}, p_{4}, p_{5}) = 100010001$ ，则 $x_{B} = (x_{3}, x_{4}, x_{5})^{T} = B^{- 1} b = 4123$ ，故基本可行解为 $x^{(0)} = (0, 0, 4, 12, 3)^{T}$ ，相应的目标函数值 $z^{(0)} = c_{B} x_{B} = 0$ 。步骤二：计算非基变量的检验数 $σ_{k} = c_{k} - c_{B} B^{- 1} p_{k}$ ，对于非基变量 $x_{1}$ ，其检验数 $σ_{1} = c_{1} - c_{B} B^{- 1} p_{1} = 4 - [000] 100010001 - 1 21 = 4$ ，同理， $x_{2}$ 的检验数为 $σ_{2} = c_{2} - c_{B} B^{- 1} p_{2} = 1 - [000] 100010001 23 - 1 = 1$ 。步骤三：由于 $σ_{1}, σ_{2}$ 都大于0，选取 $σ_{i} = max {σ_{1}, σ_{2}} = σ_{1}$ ，其对应的非基变量 $x_{1}$ 为进基变量；为选取离基变量，先求出 $Y_{1} = B^{- 1} p_{1} = 100010001 - 1 21 = - 1 21$ ，利用最小比值准则，找出 $min {\frac{b _{l}}{y _{l i}} ∣ y_{l i} > 0} = min {\frac{b _{2}}{y _{21}}, \frac{b _{3}}{y _{31}}} = min {\frac{12}{2}, \frac{3}{1}} = \frac{3}{1} = \frac{b _{3}}{y _{31}}$ ，其中 $\overline{b} = B^{- 1} b$ ，，故 $x_{B}$ 中的第三个分量 $x_{5}$ 为离基变量，相应的新的基矩阵为 $B = (p_{3} . p_{4}, p_{1})$ 。

第二次迭代：步骤一：新可行基的逆 $B^{- 1} = 100010 1 - 2 1$ ，则基变量 $x_{B} = (x_{3}, x_{4}, x_{1})^{T} = B^{- 1} b = 100010 1 - 2 1 4123763$ ，非基变量为 $x_{N} = (x_{2}, x_{5})^{T}$ ，于是初始基本可行解为 $x^{(1)} = (3, 0, 7, 6, 0)^{T}$ ，相应的目标函数值 $z^{(1)} = z^{(0)} + (c_{1} - z_{1}) x_{1} = 0 + 4 \cdot 3 = 12$ 。步骤二：计算非基变量的检验数，公式为 $σ_{k} = c_{k} - c_{B} B^{- 1} p_{k}$ ，算出 $σ_{2} = c_{2} - c_{B} B^{- 1} p_{2} = 1 - [004] 100010 1 - 2 1 23 - 1 = 5$ ，同理 $σ_{5} = 0 - 100010 1 - 2 1 001 = - 4$ 。步骤三： $σ_{i} = max {σ_{2}, σ_{5}} = σ_{2}$ ，故对应的 $x_{2}$ 为进基变量；此时 $Y_{2} = B^{- 1} p_{2} = 100010 1 - 2 1 23 - 1 = 15 - 1$ ，找出 $min {\frac{b _{l}}{y _{l i}} ∣ y_{l i} > 0} = min {\frac{7}{1}, \frac{6}{5}} = \frac{b _{2}}{y _{22}}$ ，其中 $\overline{b} = B^{- 1} b$ ，故 $x_{B}$ 中的第二个分量 $x_{4}$ 为离基变量，相应的新的基矩阵为 $B = (p_{3}, p_{2}, p_{1}) = 100 23 - 1 - 1 21$ 。

第三次迭代：新可行基的逆为 $B^{- 1} = 100 - \frac{1}{5} \frac{1}{5} \frac{1}{5} \frac{7}{5} - \frac{2}{5} \frac{3}{5}$ ，则 $x_{B} = (x_{3}, x_{2}, x_{1})^{T} = B^{- 1} b = 100 - \frac{1}{5} \frac{1}{5} \frac{1}{5} \frac{7}{5} - \frac{2}{5} \frac{3}{5} 4123 = \frac{29}{5} \frac{6}{5} \frac{21}{5}$ ， $x_{N} = (x_{4}, x_{5})^{T}$ ，故初始基本可行解为 $x^{(2)} = (\frac{21}{5}, \frac{6}{5}, \frac{29}{5}, 0, 0)^{T}$ ，目标函数值为 $z^{(2)} = z^{(1)} + (c_{2} - z_{2}) x_{2} = 18$ 。计算非基变量的检验数 $σ_{4} = c_{4} - c_{B} B^{- 1} p_{4} = 0 - [014] 100 - \frac{1}{5} \frac{1}{5} \frac{1}{5} \frac{7}{5} - \frac{2}{5} \frac{3}{5} 010 = - 1$ ，同理 $σ_{5} = - 2$ ，由前面定理知，所有非基变量的检验数 $σ_{k} \leq 0$ ，则当前解为最优解。

综上，最优解 $x^{*} = x^{(2)} = (\frac{21}{5}, \frac{6}{5}, \frac{29}{5}, 0, 0)^{T}$ ，最优值 $z^{*} = z^{(2)} = 18$ 。

单纯形表

考虑线性规划问题的标准模型 $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，其中 $A = (a_{ij})_{m \times n}$ ， $r (A) = m < n$ ， $x \in R^{n}$ ， $b \in R^{m}$ ， $c^{T} \in R^{n}$ ，假设 $B$ 为初始的可行基， $x_{B}$ 为基变量， $x_{N}$ 为非基变量，则 $A = (B, N)$ ， $x = [x_{B} x_{N}]$ ， $c = (c_{B}, c_{N})$ ，于是上述线性规划问题可以写成如下等价形式， $max z$ ， $s . t . ⎩ ⎨ ⎧ B x_{B} + N x_{N} = b - z + c_{B} x_{B} + c_{N} x_{N} = 0 x_{B} \geq 0, x_{N} \geq 0$ ，进一步化为 $max z$ ， $s . t . ⎩ ⎨ ⎧ x_{B} + B^{- 1} N x_{N} = B^{- 1} b - z + 0 \cdot x_{B} + (c_{N} - c_{B} B^{- 1} N) x_{N} = - c_{B} B^{- 1} b x_{B} \geq 0, x_{N} \geq 0$ （其中第二条用到了 $x_{B} = B^{- 1} b - B^{- 1} N x_{N}$ ），该约束方程可以看作是以 $x_{B}, x_{N}$ 为变量的方程组，把其系数列成表格，得到单纯形表:

$z$	$x_{B}$	$x_{N}$	右端项
0	$E_{m}$ （单位阵）	$B^{- 1} N$	$B^{- 1} b$
-1	0	$c_{N} - c_{B} B^{- 1} N$	$- c_{B} B^{- 1} b$

若假设 $x_{1}, x_{2}, \dots, x_{m}$ 为基变量，可设计如下单纯形表：

	$c_{j}$		$c_{1}$	$c_{2}$	$\dots$	$c_{m}$	$c_{m + 1}$	$\dots$	$c_{n}$
$c_{B}$	$x_{B}$	$\overline{b}$	$x_{1}$	$x_{2}$	$\dots$	$x_{m}$	$x_{m + 1}$	$\dots$	$x_{n}$	$θ$
$c_{1}$	$x_{1}$	$\overline{b_{1}}$	1	0	$\dots$	0	$a_{1, m + 1}$	$\dots$	$a_{1, n}$
$c_{2}$	$x_{2}$	$\overline{b_{2}}$	0	1	$\dots$	0	$a_{2, m + 1}$	$\dots$	$a_{2},_{n}$
$⋮$	$⋮$	$⋮$
$c_{m}$	$x_{m}$	$\overline{b_{m}}$	0	0	$\dots$	1	$a_{m, m + 1}$	$\dots$	$a_{m, n}$
	$- z$	$- z_{0}$	0	0	$\dots$	0	$σ_{m + 1}$	$\dots$	$σ_{n}$

若按行看， $c_{1}, \dots, c_{m}, c_{m + 1}, \dots, c_{n}$ 为价值系数， $x_{1}, \dots, x_{m}, x_{m + 1}, \dots, x_{n}$ 为决策变量，中间的 $m \times n$ 矩阵包含着一个 $m$ 阶方阵，该方阵对应着 $m$ 个基变量，而 $0, \dots, 0, σ_{m + 1}, \dots, σ_{n}$ 是检验行（其中基变量的检验数都是零）；若按列看， $c_{B}, c_{1}, \dots, c_{m}$ 是基变量的价值系数， $x_{B}, x_{1}, \dots, x_{m}$ 是基变量， $\overline{b}, \overline{b_{1}}, \dots, \overline{b_{m}}$ 是基变量取值（因为 $\overline{b} = B^{- 1} b = x_{B}$ ），而最右边的 $θ$ 这一列是最小比值列。

根据单纯形表，可以：

（1）检验当前基本可行解是否为最优解：若检验行所有的 $σ_{j} \leq 0$ ，则已获得最优解，停止计算，否则要进行下一次步计算。

（2）检验是否为无界解：在 $σ_{j} > 0$ （ $j \in J_{N}$ ）中，若有一个 $σ_{m + t} > 0$ ，而在单纯形表中 $σ_{m + t}$ 所在列的 $Y_{m + t} = B^{- 1} p_{m + t}$ 所有元素都 $\leq 0$ ，则该问题无最优解，停止计算，否则进行下一步计算。

（3）选择进基变量：由进基变量选择准则 $max_{j \in J_{N}} σ_{j} = σ_{m + t}$ （ $σ_{j} > 0$ ）（即在所有检验数为正的当中选取最大的检验数），选择进基变量 $x_{m + t}$ ，相应的列 $p_{m + t}$ 为进基向量，称表中 $p_{m + t}$ 所在列为主列。

（4）选择离基变量：由离基变量的最小比值准则 $θ = min {\frac{b _{i}}{a _{i, m + t}} ∣ a_{i, m + t} > 0} = \frac{b _{r}}{a _{r, m + t}}$ ，则称第 $r$ 行为主行，与主行对应的基变量 $x_{B_{r}}$ 为离基变量。

（5）基变换：将可行基由 $(p_{1}, p_{2}, \dots, p_{r}, \dots, p_{m}) \to (p_{1}, \dots, p_{l - 1}, p_{m + t}, \dots, p_{m})$ ，且将主列 $p_{m + t}$ 化为单位列向量 $e_{r}$ ，即 $p_{m + t} = a_{1, m + 1} a_{2, m + t} ⋮ a_{m, m + t} \Rightarrow p_{r} = 0 ⋮ 1_{r} ⋮ 0$ 。

例：用单纯形表解下列问题， $max 5 x_{1} + 2 x_{2} + 0 x_{3} + 0 x_{4} + 0 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ 30 x_{1} + 20 x_{2} + x_{3} = 160 5 x_{1} + x_{2} + x_{4} = 15 x_{1} + x_{5} = 4 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ .

解：系数矩阵为 $A = (p_{1}, p_{2}, p_{3}, p_{4}, p_{5}) = 30512010100010001$ 。

第一次迭代：步骤一，选取初始可行基 $B = 100010001$ ， $B^{- 1} b = 160154$ ，其中 $x_{B} = (x_{3}, x_{4}, x_{5})^{T}$ ， $x_{N} = (x_{1}, x_{2})^{T}$ ，故初始基本可行解为 $x^{(0)} = (0, 0, 160, 15, 4)^{T}$ ， $z^{(0)} = 0$ 。步骤二，计算检验数 $σ_{j} = c_{j} - c_{B} B^{- 1} p_{j}$ ， $σ_{1} = c_{1} - c_{B} B^{- 1} p_{1} = 5 - [000] 1000100013051 = 5$ ， $σ_{2} = c_{2} - c_{B} B^{- 1} p_{2} = 2 - [000] 1000100012010 = 2$ ，建立初始单纯形表

步骤三，选取检验数最大的5所在列的 $x_{1}$ 作为进基变量，此时 $x_{1}$ 所在列称为主列，再用 $\overline{b}$ 列对应元素除以主列对应元素（根据最小比值准则知，主列为负的不用除），即可得到 $θ$ 列（最小比值列），最小比值3所在的行对应 $x_{4}$ ，于是选取 $x_{4}$ 为离基变量，这时检验数5所在列与最小比值3所在行交叉处的元素5（用中括号括起来），称这个5为主元素。

更新单纯形表：我们要将主元素5变为1，再把主元素所在列其他的元素变为0，这样主列才能变成单位向量。于是把主元素所在行所有元素都乘以 $\frac{1}{5}$ （中间的大矩阵及 $\overline{b}$ 列），把主元素变为1，同时把主元素适当倍数加到除主元素所在行以外的其他行（中间的大矩阵及 $\overline{b}$ 列），就能把主元素所在列其他的元素变为0。按顺序写出新的基变量 $x_{B}$ 及其价值函数系数 $c_{B}$ ，再次计算 $- z$ 、检验数和最小比值，于是得到了新的单纯形表如下

此时检验数仍然有大于零的数，所以当前解还不是最优解，再次重复上面步骤，得到新的单纯形表

此时所有检验数都 $\leq 0$ ，即当前解 $x^{*} = x^{(2)} = (2, 5, 0, 0, 2)^{T}$ 是最优解， $z^{*} = 20$ 。

这种方法的好处是，每一次都令 $B$ 是单位阵，在计算检验数的过程中就不用反复计算 $B^{- 1}$ ，并且也不需要计算 $Y_{i}$ ，直接用 $\overline{b}$ 除以主列对应元素即可得到 $θ$ 。

线性规划问题解的数目

定理：在最大化问题中，若当前基本可行解的非基变量的检验数满足最优准则 $σ_{j} \leq 0$ （ $j \in J_{N}$ ），且其中有一个非基变量的检验数 $σ_{j} = 0$ ，则该线性规划问题有无穷多个最优解。

证明：设 $x^{(1)}$ 为当前的基本可行解， $σ_{j} \leq 0$ （ $j \in J_{N}$ ），满足最优准则，故此时 $x^{*} = x^{(1)}$ ， $z^{*} = z (x^{(1)})$ 。不妨设 $x_{1}$ 为非基变量，且检验数 $σ_{1} = 0$ ，选 $x_{1}$ 为进基变量，则 $x_{1}$ 对应的数列 $Y_{1} = B^{- 1} p_{1}$ 有以下两种情况：

（1）若 $Y_{1}$ 中至少有一个分量 $y_{i 1} > 0$ ，则按最小比值准则选择离基变量，可由当前解迭代到下一个基本可行解 $x^{(2)}$ ，而对应的目标函数值为 $z (x^{(2)}) = z (x^{(1)}) + (c_{1} - z_{1}) x_{1} = z (x^{(1)})$ （因为其中的 $c_{1} - z_{1}$ 就是 $x_{1}$ 的检验数 $σ_{1}$ ），因此 $x^{(2)}$ 也是最优解，由凸集的性质可知， $x^{(1)}$ 和 $x^{(2)}$ 连线上的任一点 $\overset{x}{^}$ 都是方程的可行解，且 $z (\overset{x}{^}) = z (x^{(1)}) = z (x^{(2)})$ ，因此有无穷多个最优解。

（2）若 $Y_{1}$ 中所有分量 $y_{i 1} \leq 0$ ，则不能运用最小比值准则，但仍然可以构造其他不同的最优解 $x^{(2)}$ 。把 $x_{B}$ 写成 $x_{B} = x_{B_{1}} x_{B_{2}} ⋮ x_{B_{m}} = \overline{b_{1}} \overline{b_{2}} ⋮ \overline{b_{m}} - y_{11} y_{21} ⋮ y_{m 1} x_{1}$ ，令 $x_{1}^{(2)} = θ > 0$ ， $x_{B_{i}}^{(2)} = \overline{b_{i}} - y_{i 1} θ$ ， $i = 1, 2, \dots, m$ ，其余 $x_{j}^{(2)} = 0$ ，不难发现， $x^{(2)}$ 必为一个可行解（但不是基本可行解），由于 $θ$ 可取任意正值，则相应的目标函数值 $z (x^{(2)}) = z (x^{(1)}) + (c_{1} - z_{1}) θ = z (x^{(1)})$ ，故 $x^{(2)}$ 也是最优解，也就是说该问题有无穷多个最优解。

定理：对线性规划问题的某一个基本可行解 $x^{(1)} = [x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}, 0, \dots, 0]^{T} = [b_{1}^{(1)}, b_{2}^{(1)}, \dots, b_{m}^{(1)}, 0, \dots, 0]^{T}$ ，若第 $t$ 个非基变量 $x_{m + t}$ 的检验数 $σ_{m + t} > 0$ ，而 $x_{m + t}$ 对应的系数列向量 $p_{m + t} \leq 0$ （即单纯形表中 $x_{m + t}$ 所在列的各元素都小于等于零），则该线性规划问题没有最优解。

例：求下列问题的最优解， $max x_{1} + 6 x_{2} + 4 x_{3}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1} + 2 x_{2} + 2 x_{3} \leq 13 4 x_{1} - 4 x_{2} + x_{3} \leq 20 x_{1} + 2 x_{2} + x_{3} \leq 17 x_{1} \geq 1, x_{2} \geq 2, x_{3} \geq 3$ .

解：把问题标准为 $max x_{1}^{'} + 6 x_{2}^{'} + 4 x_{3}^{'} + 0 x_{4} + 0 x_{5} + 0 x_{6}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1}^{'} + 2 x_{2}^{'} + 2 x_{3}^{'} + x_{4} = 4 4 x_{1}^{'} - 4 x_{2}^{'} + x_{3}^{'} + x_{5} = 21 x_{1}^{'} + 2 x_{2}^{'} + x_{3}^{'} + x_{6} = 9 x_{1}^{'}, x_{2}^{'}, x_{3}^{'}, x_{4}, x_{5}, x_{6} \geq 0$ ，列出初始单纯形表

这时当前解还不是最优解，经过计算，得到最优单纯形表为：

由于有一个非基变量的检验数为零（蓝色那一列），根据定理，该问题一定有无穷多个最优解。验证：选 $x_{3}^{'}$ 为进基变量， $x_{5}$ 为离基变量，得到第二个最优单纯形表：

根据凸集的性质，这两个最优解连线上的任意一点都是最优解，即该问题有无穷多个最优解。

7. 大M法与两阶段法

人工变量及其处理方法：前面的单纯形法告诉我们，选取单位阵作为初始可行基可以很大程度地简化计算。为了便于计算及寻找计算方法上的规律性，希望在化线性规划为标准形式时，约束矩阵 $A_{m \times n}$ 中含有一个 $m$ 阶单位阵作为初始可行基，这有以下几种情况：

若在化标准形式前， $m$ 个约束条件都是“ $\leq$ 型”，则在化标准形式时，每一个约束条件左边都加上一个松弛变量 $x_{n + i}$ ，该松弛变量所对应的系数列向量就是单位向量 $e_{i}$ ，且这 $m$ 个松弛变量所对应的系数列向量恰好组成了一个 $m$ 阶单位阵。
若在化标准形式前，约束条件中有 $\geq$ 的不等式，则在约束条件左端减去剩余变量化为标准形式后，再加上一个非负的新变量，称为人工变量，显然该人工变量的系数列向量也为单位向量。（比如： $2 x_{1} - x_{2} + 3 x_{3} \geq 30 \Rightarrow 2 x_{1} - x_{2} + 3 x_{3} - x_{5} + x_{6} = 30$ ）
若在化标准形式前，约束条件中有等式方程，则直接在该条件左端添加人工变量。

比如，考虑线性规划 $max z = \sum_{j = 1}^{n} c_{j} x_{j}$ ， $s . t . {\sum_{j = 1}^{n} x_{j} p_{j} = b x_{j} \geq 0, j = 1, 2, \dots, n$ ，在每个约束方程左边加上一个人工变量 $x_{n + i}$ （ $i = 1, 2, \dots, m$ ）有 $⎩ ⎨ ⎧ a_{11} x_{1} + a_{12} x_{2} + \dots + a_{1 n} x_{n} + x_{n + 1} = b_{1} a_{21} x_{1} + a_{22} x_{2} + \dots + a_{2 n} x_{n} + x_{n + 2} = b_{2} \dots a_{m 1} x_{1} + a_{m 2} x_{2} + \dots + a_{mn} x_{n} + x_{n + m} = b_{m}$ ，这样就让其中含有了一个 $m$ 阶单位矩阵，以 $x_{n + 1}, x_{n + 2}, \dots, x_{n + m}$ 为基变量，得初始基本可行解 $x^{(0)} = (0, \dots, 0, b_{1}, \dots, b_{m})^{T}$ 。

加入人工变量后的数学模型与未加人工变量的数学模型一般不是等价的。因此，人工变量与松弛变量或剩余变量是不同的，松弛变量或剩余变量只是将不等式改写为等式，而改写前后，两个约束是等价的。虽然加入人工变量后的新问题与原问题不等价，但它们有如下关系：

新问题的最优解中，若人工变量都处在非基变量的位置，则原问题有最优解，且将新问题最优解中去掉人工变量部分即为原问题的最优解。
新问题的最优解中，包含非零人工变量，则原问题无可行解。
新问题最优解的基变量中包含人工变量，但该人工变量取值为0，这时可将某个非基变量引入基变量中来替换该人工变量，从而得到原问题的最优解。

当以新问题的 $x^{(0)}$ 作为初始基本可行解进行迭代时，要怎样才能将所有的人工变量从基变量中“赶”出去，通常有大M法与两阶段法两种。

大M法

对于最大化问题，当以下式作为约束方程组（每个方程加一个人工变量） $⎩ ⎨ ⎧ a_{11} x_{1} + a_{12} x_{2} + \dots + a_{1 n} x_{n} + x_{n + 1} = b_{1} a_{21} x_{1} + a_{22} x_{2} + \dots + a_{2 n} x_{n} + x_{n + 2} = b_{2} \dots a_{m 1} x_{1} + a_{m 2} x_{2} + \dots + a_{mn} x_{n} + x_{n + m} = b_{m}$ ，若将目标函数修改为 $max z = \sum_{j = 1}^{n} c_{j} x_{j} - M x_{n + 1} - M x_{n + 2} - \dots - M x_{n + m}$ ，其中 $M$ 是一个很大的正数，因为是对目标函数实现最大化，因此人工变量必须从基变量中迅速换出去，否则目标函数不可能实现最大化。

注：如果是最小化问题要用大M法，则把最小化目标函数化为 $min z = \sum_{j = 1}^{n} c_{j} x_{j} + M x_{n + 1} + M x_{n + 2} + \dots + M x_{n + m}$ 。

例：求解线性规划问题 $max z = 3 x_{1} - x_{2} - x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} + x_{3} \leq 11 - 4 x_{1} + x_{2} + 2 x_{3} \geq 3 - 2 x_{1} + x_{3} = 1 x_{1}, x_{2}, x_{3} \geq 0$ .

解：将问题化为 $max z = 3 x_{1} - x_{2} - x_{3} - M x_{6} - M x_{7}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} + x_{3} + x_{4} = 11 - 4 x_{1} + x_{2} + 2 x_{3} - x_{5} + x_{6} = 3 - 2 x_{1} + x_{3} + x_{7} = 1 x_{j} \geq 0, j = 1, 2, \dots, 7$ ，写出初始单纯形表

这里的M看作是一个很大的正数即可（因此选取 $x_{3}$ 所在列为主列），第一次迭代：

第二次迭代：

第三次迭代：

对于最大化问题，检验数全部 $\geq 0$ 时取得最优解，于是当前解为新问题的最优解。此时基变量中不含人工变量，且人工变量取值为零，所以当前解去掉 $x_{6}, x_{7}$ 的部分就是原问题的最优解，即原问题的最优解为 $x^{*} = (4, 1, 9, 0, 0)^{T}$ ， $z^{*} = 2$ 。

两阶段法

当线性规划问题添加人工变量后，将问题拆成两个线性规划问题：

（1）第一阶段：求解第1个线性规划 $min w = \sum_{i = 1}^{m} x_{n + i}$ ， $s . t . ⎩ ⎨ ⎧ a_{11} x_{1} + a_{12} x_{2} + \dots + a_{1 n} x_{n} + x_{n + 1} = b_{1} a_{21} x_{1} + a_{22} x_{2} + \dots + a_{2 n} x_{n} + x_{n + 2} = b_{2} \dots a_{m 1} x_{1} + a_{m 2} x_{2} + \dots + a_{mn} x_{n} + x_{n + m} = b_{m} x_{j} \geq 0, j = 1, 2, \dots, n; i = 1, 2, \dots, m$ ，即第1个线性规划的目标函数是对所有人工变量之和求最小，分以下情况进行讨论：

若求得的最优解中，所有人工变量都处在非基变量的位置，即 $x_{n + i} = \dots = x_{n + m} = 0$ 及 $w^{*} = 0$ ，则从第一阶段的最优解中去掉人工变量，得原问题的一个基本可行解。以其为原问题的初始基本解，进入第二阶段求解原问题的最优解。
若求得的最优解中，至少有一个人工变量不为零值，则说明添加人工变量之前的原问题无可行解，无需再进行第二阶段。

（2）第二阶段：得出原问题的一个基本可行解后，通过单纯形法对原问题进行计算。

例：考虑线性规划问题 $max z = 3 x_{1} - x_{2} - x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} + x_{3} \leq 11 - 4 x_{1} + x_{2} + 2 x_{3} \geq 3 - 2 x_{1} + x_{3} = 1 x_{1}, x_{2}, x_{3} \geq 0$ .

解：建立第一阶段的线性规划问题 $min z = x_{6} + x_{7}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} + x_{3} + x_{4} = 11 - 4 x_{1} + x_{2} + 2 x_{3} - x_{5} + x_{6} = 3 - 2 x_{1} + x_{3} + x_{7} = 1 x_{j} \geq 0, j = 1, 2, \dots, 7$ ，令 $B^{(0)} = (p_{4}, p_{6}, p_{7})$ 作初始可行基，作初始单纯形表：

由于这里是最小化问题，当所有检验数都 $\geq 0$ 时才取得最优解，选取第三列为主列，进行第一次迭代：

第二次迭代:

此时已达到最优值，因此第一阶段的最优解为 $x = (0, 1, 1, 12, 0, 0, 0)^{T}$ ，将该表中人工变量列划去，即可得到第二阶段的初始单纯形表（由于第二阶段目标函数不同，涉及目标函数的部分需重新计算），且 $x^{(0)} = (0, 1, 1, 12, 0)^{T}$ 为第二阶段的初始基本可行解。

建立第二阶段的线性规划问题 $max z = 3 x_{1} - x_{2} - x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} + x_{3} + x_{4} = 11 - 4 x_{1} + x_{2} + 2 x_{3} - x_{5} = 3 - 2 x_{1} + x_{3} = 1 x_{j} \geq 0, j = 1, 2, \dots, 5$ ，写出初始单纯形表：

第一次迭代：

因此原问题的最优解 $x^{*} = (4, 1, 9, 0, 0)^{T}$ ， $z^{*} = 2$ 。

8. 对偶问题

对偶问题概述

引入：一个线性规划问题往往伴随着与之配对的，两者有密切联系的另一个线性规划问题，我们将其中一个称为原问题，另一个称为对偶问题。对偶问题在经济学上有重要意义，下面通过一个问题来说明。

问题：某家具长木器车间生产木门和木窗两种产品，加工木门收入为56元/扇，加工木窗收入为30元/扇，生产一扇木门需要木工4小时、油漆工2小时，生产一扇木窗需要木工3小时、油漆工1小时。该车间每日可用木工总工时为120小时，油漆工总工时为50小时，问该车间应如何安排生产才能使每日收入最大？

解：令该车间每日安排生产木门 $x_{1}$ 扇、木窗 $x_{2}$ 扇，则数学模型为 $max z = 56 x_{1} + 30 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 4 x_{1} + 3 x_{2} \leq 120 2 x_{1} + x_{2} \leq 50 x_{1}, x_{2} \geq 0$ ，用图解法或单纯形法，可求得最优解 $x^{*} = (x_{1}, x_{2})^{T} = (15, 20)^{T}$ ， $z^{*} = 1440$ 元。

现在从另一个角度来考虑车间的生产问题。假设有一个个体经营者，手中有一批木器家去生产订单，他想利用该木器生产车间的木工与油漆工来完成他的订单，他就要实现考虑付给该车间每个工时的价格。他可以构造一个数学模型来研究如何定价才能：（1）木器生产车间觉得有利可图从而愿意替他加工这批订单（2）他自己所付的工时费用总数最小。设 $w_{1}$ 为付给木工每个工时的价格， $w_{2}$ 为付给油漆工每个工时的价格，则该个体经营者的目标函数为每日所付工时总费用最小，即 $min f = 120 w_{1} + 50 w_{2}$ ，但该个体经营者所付的价格不能太低，至少不能低于该车间生产木门、木窗时所得到的收入，否则车间觉得无利可图就不会替他加工这批订单，因此 $w_{1}, w_{2}$ 应满足 $s . t . ⎩ ⎨ ⎧ 4 w_{1} + 2 w_{2} \geq 56 3 w_{1} + w_{2} \geq 30 w_{1}, w_{2} \geq 0$ ，解出 $w^{*} = (2, 24)^{T}$ ， $f^{*} = 1440$ 。

对比两个问题， $max s . t . 原问题 z = 56 x_{1} + 30 x_{2} 4 x_{1} + 3 x_{2} \leq 120 2 x_{1} + x_{2} \leq 50 x_{1}, x_{2} \geq 0 x^{*} = (15, 20)^{T} z^{*} = 1440$ 与 $min s . t . 对偶问题 f = 120 w_{1} + 50 w_{2} 4 w_{1} + 2 w_{2} \geq 56 3 w_{1} + w_{2} \geq 30 w_{1}, w_{2} \geq 0 w^{*} = (2, 24)^{T} f^{*} = 1440$ ，他们有某些共同点：原问题的价值系数是对偶问题约束条件的右端项，对偶问题价值系数是原问题约束条件右端项，原问题约束不等式系数的行是对偶问题约束不等式系数的列，原问题约束不等式系数的列是对偶问题约束不等式系数的行，…

原问题与对偶问题：原问题与对偶问题一般表示为 $max s . t . LP z = c x A x \leq b x \geq 0_{n \times 1}$ ， $min s . t . DP f = w b w A \geq c w \geq 0_{1 \times m}$ ，其中 $c_{1 \times n}$ ， $x_{n \times 1}$ ， $w_{1 \times m}$ ， $A_{m \times n}$ ， $b_{m \times 1}$ ，两个问题之间的对应关系总结如下表（如果原问题是最小化问题，则从右侧对应左侧）：

比如：写出下列问题的对偶问题： $min s . t . 原问题 z = 25 x_{1} + 2 x_{2} + 3 x_{3} - x_{1} + x_{2} - x_{3} \leq 1 x_{1} + 2 x_{2} - x_{3} \geq 1 2 x_{1} - x_{2} + x_{3} = 1 x_{1} \geq 0, x_{2} \leq 0, x_{3} 无限制$ ， $max s . t . 对偶问题 w_{1} + w_{2} + w_{3} - w_{1} + w_{2} + 2 w_{3} \leq 25 w_{1} + 2 w_{2} - w_{3} \geq 2 - w_{1} - w_{2} + w_{3} = 3 w_{1} \leq 0, w_{2} \geq 0, w_{3} 无限制$ .

对偶理论

对于 $max s . t . L P z = c x A x \leq b x \geq 0_{n \times 1}$ 与 $min s . t . D P f = w b w A \geq c w \geq 0_{1 \times m}$ ，其中 $c_{1 \times n}$ ， $x_{n \times 1}$ ， $w_{1 \times m}$ ， $A_{m \times n}$ ， $b_{m \times 1}$ ，有如下定理：

弱对偶性定理：设 $x^{(0)}$ 及 $w^{(0)}$ 分别是LP和DP的任一可行解，则恒有 $c x^{(0)} \leq w^{(0)} b$ 。

证明： $c x^{(0)} \leq w^{(0)} A x^{(0)} \leq w^{(0)} b$ .

该定理说明了，最大化问题的任一可行解的目标函数值都是其对偶最小化问题目标函数的下界。最小化问题的任一可行解的目标函数值都是其对偶最大化问题目标函数值的上界。

定理：设 $x^{(0)}$ 及 $w^{(0)}$ 分别是LP及DP问题的可行解，则当 $c x^{(0)} = w^{(0)} b$ 时， $x^{(0)}$ 与 $w^{(0)}$ 必分别是各自问题的最优解。

证明：设 $x$ 是LP问题的任意一个可行解，则由弱对偶性定理知，必有 $c x \leq w^{(0)} b = c x^{(0)}$ ，说明 $x^{(0)}$ 是LP问题的最优解；同理可证 $w^{(0)}$ 是DP问题的最优解。

定理：若原问题LP与对偶问题DP同时有可行解，则它们必都有最优解。

定理：若原问题的目标函数无界，则其对偶问题必无可行解。

强对偶定理：设LP与DP中有一个最优解，则另一个问题也必存在最优解，且两个问题最优解的目标函数值必相等。

证明：将原问题标准化为 $max s . t . z^{'} = c x + c_{a} x_{a} A x + E x_{a} = b x \geq 0, x_{a} \geq 0$ ，其中 $x_{a}$ 为松弛变量， $c_{a}$ 为松弛变量的系数（显然 $c_{a} = 0$ ）， $E$ 为单位矩阵，设其相应的最优基为 $B$ ，则所有变量的检验数 $σ_{j} \leq 0$ 。考虑变量 $x_{1}, x_{2}, \dots, x_{n}$ 的检验数 $(c_{1}, c_{2}, \dots, c_{n}) - c_{B} B^{- 1} (p_{1}, p_{2}, \dots, p_{n}) \leq 0$ ，可以写成 $c - c_{B} B^{- 1} A \leq 0$ ，若记 $w^{(0)} = c_{B} B^{- 1}$ ，代入上式得 $w^{(0)} A \geq c$ ，因此 $w^{(0)}$ 满足对偶问题的约束条件；再考虑 $x_{n + 1}, x_{n + 2}, \dots, x_{n + m}$ 的检验数 $(0, 0, \dots, 0) - c_{B} B^{- 1} (p_{n + 1}, p_{n + 2}, \dots, p_{n + m}) \leq 0$ ，可以写成 $0 - c_{B} B^{- 1} E \leq 0$ ，那么 $w^{(0)} = c_{B} B^{- 1} \geq 0$ ，因此 $w^{(0)} = c_{B} B^{- 1}$ 是对偶问题的可行解，此时原问题与对偶问题的目标函数值有 $w^{(0)} b = (c_{B} B^{- 1}) b = c_{B} (B^{- 1} b)$ ，故 $w^{(0)} = c_{B} B^{- 1}$ 为对偶问题的最优解（前面的定理，目标函数值相等即为各自最优解）。

对称形式的互补松弛性定理：设 $x^{(0)}$ 与 $w^{(0)}$ 分别是对称形式的原问题及其对偶问题的两个可行解，则 $x^{(0)}$ 与 $w^{(0)}$ 分别是各自问题的最优解的充分必要条件为：对所有的 $i, j$ ，下列各式都成立：

（1）若 $x_{j}^{(0)} > 0$ ，必有 $w^{(0)} p_{j} = c_{j}$ ；

（2）若 $w^{(0)} p_{j} > c_{j}$ ，必有 $x_{j}^{(0)} = 0$ ；

（3）若 $w_{i}^{(0)} > 0$ ，必有 $A_{i} x^{(0)} = b_{i}$ ；

（4）若 $A_{i} x^{(0)} < b_{i}$ ，必有 $w_{i}^{(0)} = 0$ 。

其中 $A_{i}$ 为原问题约束矩阵 $A$ 的第 $i$ 行， $p_{j}$ 为 $A$ 的第 $j$ 列， $w^{(0)} = (w_{1}^{(0)}, w_{2}^{(0)}, \dots, w_{m}^{(0)})$ 是对偶变量， $x^{(0)} = (x_{1}^{(0)}, x_{2}^{(0)}, \dots, x_{n}^{(0)})^{T}$ 是原问题的决策变量， $c_{j}$ 是原问题的价值系数， $b_{i}$ 是原问题约束方程右端项。

例：若已知 $max x_{1} + 2 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 3 x_{1} + x_{2} \leq 2 - x_{1} + 2 x_{2} \leq 3 x_{1} - 3 x_{2} \leq 1 x_{1}, x_{2} \geq 0$ 的最优解为 $x^{*} = (\frac{1}{7}, \frac{11}{7})^{T}$ ，求其对偶问题的最优解

解：对偶问题为 $min 2 w_{1} + 3 w_{2} + w_{3}$ ， $s . t . ⎩ ⎨ ⎧ 3 w_{1} - w_{2} + w_{3} \geq 1 w_{1} + 2 w_{2} - 3 w_{3} \geq 2 w_{1}, w_{2}, w_{3} \geq 0$ ，根据互补松弛定理的第(1)条，因为所有的 $x_{1}^{*}, x_{2}^{*} > 0$ ，列出 $w^{*}$ 的方程得 ${3 w_{1}^{*} - w_{2}^{*} + w_{3}^{*} = 1 w_{1}^{*} + 2 w_{2}^{*} - 3 w_{3}^{*} = 2$ ，此时方程还无法求解，于是再根据互补松弛定理的第(4)条，再将 $x^{*} = (\frac{1}{7}, \frac{11}{7})^{T}$ 代入原问题的约束条件中，得 $⎩ ⎨ ⎧ 3 x_{1}^{*} + x_{2}^{*} = 2 - x_{1}^{*} + 2 x_{2}^{*} = 3 x_{1}^{*} - 3 x_{2}^{*} = - \frac{32}{7} < 1$ ，所以 $w_{3}^{*} = 0$ ，最后解得对偶问题最优解为 $w^{*} = (\frac{4}{7}, \frac{5}{7}, 0)^{T}$ .

对偶单纯形法

引入：单纯形法从一个基本可行解迭代到下一个基本可行解时，总是保持解的可行性不变，变化的只是检验数向量 $σ$ ，对于最大化问题，当 $σ \leq 0$ 时最优解诞生，此时由 $σ = c - c_{B} B^{- 1} A = c - w^{(0)} A \leq 0$ 及 $w^{(0)} = c_{B} B^{- 1} \geq 0$ 知， $w^{(0)} = c_{B} B^{- 1}$ 是对偶问题的可行解。因此，我们可以这样来描述单纯形法的过程：从基本解向最优解迭代时，是始终保持原问题可行性的条件下，其对偶问题由不可行（ $c ≰ w^{(0)} A$ ）向可行（ $c \leq w^{(0)} A$ ）转化，一旦其对偶问题也成为可行解时，根据前面定理，原问题的可行解即成为最优解。而对偶单纯形法是把上面的过程反过来，在迭代的过程中，始终保持对偶问题解的可行性，而使原问题的解由不可行逐渐向可行转化，一旦原问题的解满足了可行性，对偶问题也就达到了最优解。

正则解与正则基的定义：设 $x^{(0)}$ 是原问题的一个基本解，对应的基是 $B$ ，若它所对应的检验数向量 $σ = c - c_{B} B^{- 1} A \leq 0$ 成立，则称 $x^{(0)}$ 是原问题的一个正则解，对应的基矩阵 $B$ 称为正则基。

正则解对原问题而言只是一个基本解，并不要求是可行解，而其 $σ \leq 0$ 成立，即满足了对偶问题的可行性，称之为正则。因此用正则性语言来描述对偶单纯形法的思路是：在保持正则解的正则性不变的条件下，在迭代过程中，使原问题的不可行性逐步消失，一旦迭代到可行解时，即达到了最优解。

对偶单纯形法计算步骤：

（1）给定一个初始正则解 $x^{(0)}$ ，对应的正则基为 $B$ ；

（2）计算 $\overline{b} = B^{- 1} b$ ，若 $\overline{b} = B^{- 1} b \geq 0$ 时，则停止计算，当前的正则解 $x = B^{- 1} b$ 便是最优解，否则继续进入到下一步；

（3）确定离基变量：令 $\overline{b_{r}} = min {\overline{b_{i}} ∣ \overline{b_{i}} < 0}$ ，则 $x_{B_{r}}$ 为离基变量（此时称第 $r$ 行称为主行）；

（4）检查单纯形表中第 $r$ 行的系数： $A_{r}^{'} = (a_{r 1}^{'}, a_{r 2}^{'}, \dots, a_{r m}^{'})$ ，若所有的 $a_{r j}^{'} \geq 0$ ，则原问题无可行解，否则转下一步（理由如下：对于第 $r$ 个约束方程 $x_{B_{r}} = \overline{b_{r}^{'}} - \sum_{j \in J_{N}} a_{r j}^{'} x_{j}$ ，因为所有的 $a_{r j}^{'} \geq 0$ ，因此不论 $x_{j}$ （ $j \in J_{N}$ ）改为怎样的正值，都无法使 $x_{B_{r}}$ 的值转化为正数，故本问题无可行解）；

（5）确定进基变量：取 $\frac{σ _{k}}{a _{r k}^{'}} = min {\frac{σ _{j}}{a _{r j}^{'}} ∣ a_{r j}^{'} < 0, j \in J_{N}}$ ，则 $x_{k}$ 是进基变量， $p_{k}$ 是主列；

（6）迭代：以 $a_{r k}^{'}$ 为主元素进行消元变换，迭代到下一个正则解。

对偶单纯形法与单纯形法的不同之处在于，先根据 $\overline{b}$ 确定离基变量得到主行，再用检验数除以主行中的负元素得到比值确定进基变量。

例：用对偶单纯形法求解 $min z = 2 x_{1} + 3 x_{2} + 4 x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + 2 x_{2} + x_{3} \geq 3 2 x_{1} - x_{2} + 3 x_{3} \geq 4 x_{1}, x_{2}, x_{3} \geq 0$ .

解：将问题标准化为 $max z = - 2 x_{1} - 3 x_{2} - 4 x_{3} + 0 x_{4} + 0 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + 2 x_{2} + x_{3} - x_{4} = 3 2 x_{1} - x_{2} + 3 x_{3} - x_{5} = 4 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ ，为了利用 $p_{4}, p_{5}$ 作为初始基，将两个约束方程左右两端各乘 $- 1$ ，得 $max z = - 2 x_{1} - 3 x_{2} - 4 x_{3} + 0 x_{4} + 0 x_{5}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1} - 2 x_{2} - x_{3} + x_{4} = - 3 - 2 x_{1} + x_{2} - 3 x_{3} + x_{5} = - 4 x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ ，写出初始单纯形表：

第一次迭代：

第二次迭代：

此时达到了最优解。

9. 单纯形法的灵敏度分析

引入：之前的计算中，总是把 $c$ （价值系数）、 $A$ （约束矩阵）、 $b$ （约束方程右端项）视作常数，而灵敏度分析是讨论他们如果变化，会对解产生什么影响。

灵敏度分析通常有两类问题：

当 $c$ 、 $A$ 、 $b$ 中某一部分数据发生变化时，最优解与最优值怎么变？

研究 $c$ 、 $A$ 、 $b$ 中数据在多大范围内波动时，使原有最优解仍为最优解，同时讨论此时最优值如何变动？

设考虑的问题为 $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，相应的最优单纯形表为：

下面分情况讨论（注意计算时由于题目数据发生了改变，大部分情况下都要用题目的数据进行重算，而不能用单纯形表中的数据计算）：

价值系数c发生改变

当 $c$ 由 $c \to c + Δ c$ 时，最优表会发生改变的只是最后一行（检验行）。设 $c = (c_{1}, \dots, c_{n})$ ，则 $c + Δ c = (c_{1} + Δ c_{1}, \dots, c_{n} + Δ c_{n})$ ，则检验数应修改为 $(c + Δ c) - (c_{B} + Δ c_{B}) B^{- 1} A$ ，而目标函数值应修改为 $(c_{B} + Δ c_{B}) B^{- 1} b$ 。此时：

若检验数仍保持 $\leq 0$ ，则原最优解仍为最优解，但目标函数值已变；
若检验数不满足最优性条件，则当前解已不是最优解，要从修改后的单纯形表出发，重新进行迭代。

例1：已知标准形式的线性规划问题 $max z = - x_{1} + 2 x_{2} + x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + x_{2} + x_{3} + x_{4} = 6 2 x_{1} - x_{2} + x_{5} = 4 x_{1}, x_{2}, \dots, x_{5} \geq 0$ ，其最优单纯形表如下

问：（1）当 $c_{1}$ 由 $- 1$ 变为 $c_{1} + Δ c_{1} = 4$ 时，求新问题的最优解（2）讨论 $c_{2}$ 在什么范围内变化时，原有的最优解仍是最优解

解：（1）因为只有非基变量的 $x_{1}$ 系数 $c_{1}$ 发生了改变，只需重新计算 $σ_{1}^{'} = (c_{1} + Δ c_{1}) - c_{B} B^{- 1} p_{1} = σ_{1} + 5 = (- 3) + 5 = 2 > 0$ ，可见最优性准则已不满足，修改上表后重新迭代可得问题的最优解：

（2）要使原最优解仍为最优解，须在新条件下仍满足 $σ \leq 0$ ，记 $c_{2}^{'} = c_{2} + Δ c_{2}$ ，由于 $x_{2}$ 为基变量， $c_{B}$ 发生了改变全部检验数都要重算，于是 $σ = c - c_{B} B^{- 1} A = (c_{1}, c_{2}^{'}, c_{3}, c_{4}, c_{5}) - c_{B}^{'} B^{- 1} (p_{1}, p_{2}, p_{3}, p_{4}, p_{5}) = (- 1, c_{2}^{'}, 1, 0, 0) - (c_{2}^{'}, c_{5}) [1 - 1 01]^{- 1} [12 1 - 1 101001] = (- 1, c_{2}^{'}, 1, 0, 0) - (c_{2}^{'}, 0) [1101] [12 1 - 1 101001] = (- 1, c_{2}^{'}, 1, 0, 0) - (c_{2}^{'}, c_{2}^{'}, c_{2}^{'}, c_{2}^{'}, 0) = (- 1 - c_{2}^{'}, 0, 1 - c_{2}^{'}, - c_{2}^{'}, 0) \leq 0$ ，即当 $c_{2}^{'} \geq 1$ 或写成 $Δ c_{2} \geq - 1$ 时，原最优解仍为最优解。

右端项b发生改变

当右端列向量 $b \to b + Δ b$ ，改变的只是表中第三列（右端列），即基变量的取值由 $x_{B} = B^{- 1} b \to x_{B}^{'} = B^{- 1} (b + Δ b)$ ，而目标函数值由 $- z = - c_{B} B^{- 1} \to - z^{'} = - c_{B} B^{- 1} (b + Δ b)$ 。此时：

若 $x_{B}^{'} = B^{- 1} (b + Δ b) \geq 0$ 仍成立，则因为 $σ_{j}$ （ $j \in J_{N}$ ）没有改变，此时 $x_{B}^{'}$ 为新问题的最优解， $z^{'}$ 为新问题的最优值；
若 $x_{B}^{'} = B^{- 1} (b + Δ b) ≱ 0$ ，但因为 $σ_{j} \leq 0$ 仍成立，故 $[x_{B}^{'} x_{N}^{'}] = [B^{- 1} (b + Δ b) 0]$ 是一个正则解，故可用对偶单纯形法再次进行迭代，直到求得新的最优解。

例2：已知线性规划问题 $max z = - x_{1} - x_{2} + 4 x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + x_{2} + 2 x_{3} + x_{4} = 9 x_{1} + x_{2} - x_{3} + x_{5} = 2 - x_{1} + x_{2} + x_{3} + x_{6} = 4 x_{1}, x_{2}, \dots, x_{6} \geq 0$ ，若右端列向量从 $b = (9, 2, 4)^{T} \to (3, 2, 3)^{T}$ ，求新问题的最优解。

解：原问题的最优单纯形表如下：

当 $b$ 由 $(9, 2, 4)^{T}$ 改变为 $(3, 2, 3)^{T}$ 时， $x_{B}^{'} = B^{- 1} (b + Δ b) = 11 - 1 010 2 - 1 1^{- 1} 323 = \frac{1}{3} 0 \frac{1}{3} 010 - \frac{2}{3} 1 \frac{1}{3} 323 = - 1 52 ≱ 0$ ， $- z^{'} = - c_{B} B^{- 1} (b + Δ b) = - [- 1 04] - 1 52 = - 9$ ，当前解只是一个正则解，还要用对偶单纯形法进行迭代：

第一次迭代：

故新问题的最优解是 $x^{*} = (0, 0, \frac{3}{2}, 0, \frac{7}{2}, \frac{3}{2})^{T}$ ，最优值为 $z^{*} = 6$ 。

约束系数列向量 $p_{k}$ 发生改变

设系数列向量由 $p_{k} \to p_{k} + Δ p_{k} = (a_{1 k} + Δ a_{1 k}, a_{2 k} + Δ a_{2 k}, \dots, a_{mk} + Δ a_{mk})$ 。此时：

若 $p_{k}$ 不属于最优基 $B$ ，即 $x_{k}$ 不是基变量，这时非基变量 $x_{k}$ 的检验数为 $σ_{k}^{'} = c_{k} - c_{B} B^{- 1} (p_{k} + Δ p_{k})$ ，那么
- $σ_{k}^{'} \leq 0$ ，则原最优解仍为最优解，最优值也不变；
- $σ_{k}^{'} > 0$ ，则最优性准则已不满足，修改最优单纯形表中的第 $k$ 列，即 $B^{- 1} p_{k} \to B^{- 1} (p_{k} + Δ p_{k})$ ，以 $x_{k}$ 作进基变量进行迭代，求出新问题的最优解；
若 $p_{k}$ 属于最优基 $B$ ，即 $x_{k}$ 为基变量，此时表中所有的系数都要发生改变，因此还是用单纯形法重新计算比较方便。

例3：已知线性规划问题 $max z = 2 x_{1} + 3 x_{2} + x_{3}$ ， $s . t . ⎩ ⎨ ⎧ \frac{1}{3} x_{1} + \frac{1}{3} x_{2} + \frac{1}{3} x_{3} + x_{4} = 1 \frac{1}{3} x_{1} + \frac{4}{3} x_{2} + \frac{7}{3} x_{3} + x_{5} = 3 x_{1}, x_{2}, \dots, x_{5} \geq 0$ ，若 $p_{3}$ 由原来的 $(\frac{1}{3}, \frac{7}{3})^{T} \to (\frac{1}{10}, \frac{1}{3})^{T}$ ，最优解将如何变化？

解：原问题的最优单纯形表如下

若 $p_{3}$ 发生改变，此时 $σ_{3} = c_{3} - c_{B} B^{- 1} p_{3}^{'} = 1 - [23] [\frac{1}{3} \frac{1}{3} \frac{1}{3} \frac{4}{3}]^{- 1} [\frac{1}{10} \frac{1}{3}] = 1 - [23] [4 - 1 - 1 1] [\frac{1}{10} \frac{1}{3}] = \frac{1}{6} > 0$ ，最优准则已不满足，修改最优单纯形表中的第三列为 $[p_{3}^{'} σ_{3}] = [B^{- 1} p_{3} σ_{3}] = \frac{1}{15} \frac{7}{30} \frac{1}{6}$ ，选出主元素再进行迭代

第一次迭代：

故新问题的最优解是 $x^{*} = (\frac{3}{7}, 0, \frac{60}{7}, 0, 0)^{T}$ 。

增加一个新变量 $x_{n + 1}$

考虑线性规划问题 $max z = c x$ ， $s . t . {A x = b x \geq 0$ ，设该问题已经得到了最优解 $x^{*} = (x_{1}^{*}, x_{2}^{*}, \dots, x_{n}^{*})^{T}$ ，最优基为 $B$ ，现追加一个新变量 $x_{n + 1}$ ，其价值系数为 $c_{n + 1}$ ，系数列向量为 $p_{n + 1} = (a_{1, n + 1}, a_{2, n + 1}, \dots, a_{m, n + 1})^{T}$ ，得到新问题 $max = f = c_{1} x_{1} + c_{2} x_{2} + \dots + c_{n} x_{n} + c_{n + 1} x_{n + 1}$ ， $s . t . {a_{i 1} x_{1} + \dots + a_{in} x_{n} + a_{i, n + 1} x_{n + 1} = b_{i}, i = 1, 2, \dots, m x_{j} \geq 0, j = 1, 2, \dots, n, n + 1$ ，这时原问题的最优基 $B$ 是新问题的可行基，原由变量的检验数都保持不变，而 $σ_{n + 1} = c_{n + 1} - c_{B} B^{- 1} p_{n + 1}$ 。此时：

若 $σ_{n = 1} \leq 0$ ，则新问题的最优性准则仍满足，故 $\overline{x^{*}} = (x_{1}^{*}, x_{2}^{*}, \dots, x_{n}^{*}, 0)^{T}$ 是新问题的最优解，此时 $x_{n + 1} = 0$ ，说明所追加的新变量 $x_{n + 1}$ 对最优解没有影响，或说新增加的内容对总的结果是不利的（因为若 $x_{n + 1} > 0$ 则达不到最优解）；
若 $σ_{n + 1} > 0$ ，说明新增加的内容对总的结果有利，故 $\overline{x^{*}} = (x_{1}^{*}, x_{2}^{*}, \dots, x_{n}^{*}, 0)^{T}$ 一定不是新问题的最优解，这时在原问题的最优单纯形表上增加一列 $[p_{n + 1}^{'} σ_{n + 1}] = [B^{- 1} p_{n + 1} c_{n + 1} - c_{B} B^{- 1} p_{n + 1}]$ ，并以 $x_{n + 1}$ 作为进基变量继续迭代。

例4：已知线性规划问题 $max z = - x_{1} - x_{2} + 4 x_{3}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} + x_{2} + 2 x_{3} + x_{4} = 9 x_{1} + x_{2} - x_{3} + x_{5} = 2 - x_{1} + x_{2} + x_{3} + x_{6} = 4 x_{1}, x_{2}, \dots, x_{6} \geq 0$ ，现增加新变量 $x_{7}$ ，且 $c_{7} = 3$ ， $p_{7} = (3, 1, - 3)^{T}$ ，求新问题的最优解。

解：原问题的最优单纯形表如下

计算决策变量 $x_{7}$ 的检验数 $σ_{7} = c_{7} - c_{B} B^{- 1} p_{7} = 3 - [- 1 04] 11 - 1 010 2 - 1 1^{- 1} 31 - 3 = 3 - [- 1 04] \frac{1}{3} 0 \frac{1}{3} 010 - \frac{2}{3} 1 \frac{1}{3} 31 - 3 = 6 \geq 0$ ，说明新增加的 $x_{7}$ 对总的结果有利，目标函数肯定有所增加。在原最优单纯形表加入列 $[p_{7}^{'} σ_{7}] = [B^{- 1} p_{7} σ_{7}] = (3, - 2, 0, 6)^{T}$ ，然后以 $p_{7}$ 作为进基变量进行迭代

第一次迭代：

故新问题的最优解是 $x^{*} = (0, 0, \frac{13}{3}, 0, \frac{56}{9}, 0, \frac{1}{9})^{T}$ 。

10. 运输问题

运输问题的数学模型

运输问题是一种典型的线性规划问题，所以它可以用单纯形法求解，但是其数学模型有特殊的结构，存在一种比单纯形法更简便的计算方法–表上作业法（表上作业法本质上仍是单纯形法）。下面通过例子来了解运输问题：

问题：设有 $m$ 个生产点 $A_{1}, A_{2}, \dots, A_{m}$ 可供应某种物质，其生产量分别为 $a_{1}, a_{,} 1, \dots, a_{m}$ ，另有 $n$ 销售点 $B_{1}, B_{2}, \dots, B_{n}$ ，其销售量分别为 $b_{1}, b_{2}, \dots, b_{n}$ 。如果从 $A_{i}$ 到 $B_{j}$ 运输单位物质的运价为 $c_{ij}$ ，那么在产销平衡的条件下（ $\sum_{i = 1}^{m} a_{i} = \sum_{j = 1}^{n} b_{j}$ ），如何设计调运方案才使得运费最小？

解：将问题通过表格来描述，其中 $x_{ij}$ 表示从 $A_{i}$ 到 $B_{j}$ 的发运量：

	$B_{1}$	$B_{2}$	$B_{3}$	$\dots$	$B_{n}$
$A_{1}$	$x_{11} [c_{11}]$	$x_{12} [c_{12}]$	$x_{13} [c_{13}]$	$\dots$	$x_{1 n} [c_{1 n}]$
$A_{2}$	$x_{21} [c_{21}]$	$x_{22} [c_{22}]$	$x_{23} [c_{23}]$	$\dots$	$x_{2 n} [c_{2 n}]$
$\dots$	$\dots$	$\dots$	$\dots$	$\dots$	$\dots$
$A_{m}$	$x_{m 1} [c_{m 1}]$	$x_{m 2} [c_{m 2}]$	$x_{m 3} [c_{m 3}]$	$\dots$	$x_{mn} [c_{mn}]$

于是可以得到数学模型： $min \sum_{i = 1}^{m} \sum_{j = 1}^{n} c_{ij} x_{ij}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{j = 1}^{n} x_{ij} = a_{i} \sum_{i = 1}^{m} x_{ij} = b_{j} x_{ij} \geq 0 i = 1, 2, \dots, m j = 1, 2, \dots, n i = 1, 2, \dots, m 和 j = 1, 2, \dots, n$ ，把前两个约束展开，得到 $⎩ ⎨ ⎧ x_{11} + x_{12} + \dots + x_{1 n} = a_{1} x_{21} + x_{22} + \dots + x_{2 n} = a_{2} \dots x_{m 1} + x_{m 2} + \dots + x_{mn} = a_{m} x_{11} + x_{21} + \dots + x_{m 1} = b_{1} x_{12} + x_{22} + \dots + x_{m 2} = b_{2} \dots x_{1 n} + x_{2 n} + \dots + x_{mn} = b_{n}$ ，其系数矩阵为 $A = 1111 \dots ⋱ 111111 \dots ⋱ 11 ⋱ \dots 1111 \dots ⋱ 11_{(m + n) \times (mn)}$ ，观察可知：

$A$ 是一个结构特殊的稀疏矩阵，每列的 $(m + n)$ 个元素中只有两个元素为1，其余的为0；
变量 $x_{ij}$ 所对应的系数列向量 $p_{ij} = e_{i} + e_{m + j} = (0, \dots, 1, \dots, 0, \dots, 1, \dots, 0)^{T}$ ，即只有第 $i$ 个和第 $m + j$ 位置元素为1，其余为0；
矩阵 $A$ 的秩为 $(m + n - 1)$ ；

证明：已知 $A$ 是一个 $(m + n) \times mn$ 型矩阵，并假设 $mn > m + n$ ，当产销平衡时前 $m$ 个方程之和与后 $n$ 个方程之和相等，即产销平衡的约束方程组中有一个方程是多余的，亦即矩阵 $A$ 的前 $m$ 行之和与后 $n$ 行之和相等，故矩阵 $A$ 的任一 $(m + n)$ 阶子式比为零，即 $R (A) \leq m + n - 1$ ；将 $A$ 的第一行删去得 $A = [p_{11}^{'}, p_{12}^{'}, \dots, p_{1 n}^{'}, p_{21}^{'}, p_{22}^{'}, \dots, p_{2 n}^{'}, \dots, p_{m 1}^{'}, p_{m 2}^{'}, \dots, p_{mn}^{'}]$ ，取 $A$ 的前 $n$ 列，第 $n + 1$ 列、第 $2 n + 1$ 列， $\dots$ 和第 $(m - 1) n + 1$ 列构成一个 $(m + n - 1)$ 阶子矩阵 $A = 0101 ⋱ ⋱ 01110110 ⋱ \dots \dots 110 = [p_{11}^{'}, \dots, p_{1 n}^{'}, p_{21}^{'}, p_{31}^{'}, \dots, p_{m 1}^{'}]$ ，把它看作是 $2 \times 2$ 的分块矩阵，容易算出 $∣ A ∣ = \pm 1 \neq = 0$ ，也就是说 $R (A) = m + n - 1$ ，即向量组 $p_{11}^{'}, \dots, p_{1 n}^{'}, p_{21}^{'}, p_{31}^{'}, \dots, p_{m 1}^{'}$ 线性无关，即向量组 $p_{11}, \dots, p_{1 n}, p_{21}, p_{31}, \dots, p_{m 1}$ 也线性无关，故 $R (A) = m + n - 1$ 。

定理（运输问题解的存在性）：产销平衡问题存在最优基本可行解。

证明：记 $\sum_{i = 1}^{m} a_{i} = \sum_{j = 1}^{n} b_{j} = k$ ，若构造 $x_{ij} = \frac{a _{i} b _{j}}{k}$ （ $i = 1, 2, \dots, m$ ， $j = 1, 2, \dots, n$ ），将 $x_{ij}$ 代入约束方程得 ${\sum_{j = 1}^{n} x_{ij} = \sum_{j = 1}^{n} \frac{a _{i} b _{j}}{k} = \frac{a _{i}}{k} \sum_{j = 1}^{n} b_{j} = a_{i}, i = 1, 2 \dots, m \sum_{i = 1}^{m} x_{ij} = \sum_{i = 1}^{m} \frac{a _{i} b _{j}}{k} = \frac{b _{j}}{k} \sum_{i = 1}^{m} a_{i} = b_{j}, j = 1, 2, \dots, n$ ，因为 $a_{i} \geq 0$ ， $b_{j} \geq 0$ ，所以 $x_{ij} \geq 0$ 是产销平衡问题的可行解，故原问题有基本可行解。

再由 $x_{ij}$ 的定义知， $x_{ij} \leq min {a_{i}, b_{j}}$ ，即产销问题的任意可行解是有限的，故其可行域是有界的，因此原问题必有最优解。

（补充）产销不平衡问题的数学模型：当产量大于销量时，有 $\sum_{i = 1}^{m} a_{i} > \sum_{j = 1}^{n} b_{j}$ ，相应的数学模型为 $min \sum_{i = 1}^{m} \sum_{j = 1}^{n} c_{ij} x_{ij}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{j = 1}^{n} x_{ij} \leq a_{i} \sum_{i = 1}^{m} x_{ij} = b_{j} x_{ij} \geq 0 i = 1, 2, \dots, m j = 1, 2, \dots, n i = 1, 2, \dots, m 和 j = 1, 2, \dots, n$ ，

表上作业法：要求解产销平衡时的运输问题，可以用西北角法或最小元素法确定初始可行解，然后用位势法求检验数，再用闭合回路法调整基本可行解，由于以上都在表（价格表或调运表）中进行，所以它们都是表上作业法。

首先了解几个相关的定义：将变量 $x_{ij}$ 在调运表中对应的空格记作 $(i, j)$ ，称为格点 $(i, j)$ ，将 $x_{ij}$ 的系数列向量 $p_{ij}$ 称为格点 $(i, j)$ 所对应的系数列向量。若 $x_{ij}$ 为基变量，则 $(i, j)$ 称为基格，否则称为非基格。

西北角法

下面通过例题了解西北角法如何确定初始可行解：

例：某公司生产糖果，它有3个加工厂 $A_{1}, A_{2}, A_{3}$ ，每月产量分别为 $7 t, 4 t, 9 t$ ，该公司把产品分别运往4个销售店 $B_{1}, B_{2}, B_{3}, B_{4}$ ，每月销量分别为 $3 t, 6 t, 5 t, 6 t$ 。已知从第 $i$ 个加工厂到第 $j$ 个销售店的每吨糖果的运价 $c_{ij}$ 见下表，试设计在满足销售店需求量的前提下，个加工厂到每个销售店的调运方案，使该公司所花总的运费最小。

价格表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$

$A_{1}$ 3 11 3 10

$A_{2}$ 1 9 2 8

$A_{3}$ 7 4 10 5

解：画出调运表如下：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 7

$A_{2}$ 4

$A_{3}$ 9

收量 3 6 5 6

要填写该表，可以用西北角法，观察最西北角处的格子（ $A_{1}$ 行与 $B_{1}$ 列交界处），此时发量（即产量）为7，而收量（即需求量）为3，因此可以满足， $B_{1}$ 不再需要来自 $A_{2}$ 、 $A_{3}$ 的货物，画斜线，于是填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 7-3

$A_{2}$ / 4

$A_{3}$ / 9

收量 3-3 6 5 6

那么剩下的格子的西北角是 $A_{1}$ 与 $B_{2}$ 交界处位置，此时收量为6，而发量只剩下4，于是剩下的 $B_{3}$ 、 $B_{4}$ 不可能再接收来自 $A_{1}$ 的货物，划斜线，而剩下的收量2需要来自 $A_{2}$ ，于是填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 / / 7-3-4

$A_{2}$ / 2 4-2

$A_{3}$ / / 9

收量 3-3 6-4-2 5 6

以此类推，最后填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 / / 7-3-4

$A_{2}$ / 2 2 / 4-2-2

$A_{3}$ / / 3 6 9-3-6

收量 3-3 6-4-2 5 6

故原问题的一个初始可行解 $x^{(0)} = (3, 4, 0, 0, 0, 2, 2, 0, 0, 0, 3, 6)^{T}$ ，相应的总费用为1330元。

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$
$A_{1}$	3	11	3	10
$A_{2}$	1	9	2	8
$A_{3}$	7	4	10	5

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3				7-3
$A_{2}$	/				4
$A_{3}$	/				9
收量	3-3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4	/	/	7-3-4
$A_{2}$	/	2			4-2
$A_{3}$	/	/			9
收量	3-3	6-4-2	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4	/	/	7-3-4
$A_{2}$	/	2	2	/	4-2-2
$A_{3}$	/	/	3	6	9-3-6
收量	3-3	6-4-2	5	6

最小元素法

下面通过例题了解最小元素法如何确定初始可行解：

例题同西北角法，但是这次使用最小元素法确定初始可行解，价格表如下：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$

$A_{1}$ 3 11 3 10

$A_{2}$ 1 9 2 8

$A_{3}$ 7 4 10 5

解：画出调运表如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 7

$A_{2}$ 4

$A_{3}$ 9

收量 3 6 5 6

要填写该表，根据最小元素法，从价格表中找出运费最低的是1，即从 $A_{2}$ 运往 $B_{1}$ ，于是在调运表对应位置尽可能发更多的货，对应位置发货量为3可以满足，于是此时 $B_{1}$ 达到饱和，不需要再来自 $A_{1}$ 、 $A_{3}$ 的货物，画斜线

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ / 7

$A_{2}$ 3 4-3

$A_{3}$ / 9

收量 3-3 6 5 6

再找下一个最小的元素，是从 $A_{2}$ 运往 $B_{3}$ 的2， $A_{2}$ 给 $B_{3}$ 发完1的货物后，已经不可能再给 $B_{2}$ 、 $B_{4}$ 发货了，于是填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ / 7

$A_{2}$ 3 / 1 / 4-3-1

$A_{3}$ / 9

收量 3-3 6 5-1 6

再找下一个最小的元素，是从 $A_{1}$ 运往 $B_{3}$ 的3，以此类推，最后填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ / / 4 3 7-4-3

$A_{2}$ 3 / 1 / 4-3-1

$A_{3}$ / 6 / 3 9-6-3

收量 3-3 6-6 5-1-4 6

故原问题的一个初始可行解 $x^{(0)} = (0, 0, 4, 3, 3, 0, 1, 0, 0, 6, 0, 3)^{T}$ 。

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$
$A_{1}$	3	11	3	10
$A_{2}$	1	9	2	8
$A_{3}$	7	4	10	5

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	/				7
$A_{2}$	3				4-3
$A_{3}$	/				9
收量	3-3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	/				7
$A_{2}$	3	/	1	/	4-3-1
$A_{3}$	/				9
收量	3-3	6	5-1	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	/	/	4	3	7-4-3
$A_{2}$	3	/	1	/	4-3-1
$A_{3}$	/	6	/	3	9-6-3
收量	3-3	6-6	5-1-4	6

位势法

位势法的原理是利用基变量检验数为零，得到公式 $c_{ij} = (u_{i} + v_{j})$ （ $(i, j) \in J_{B}$ ， $u_{i}, v_{j}$ 是其对偶问题的决策变量），依此得到方程组解出 $u_{i}, v_{j}$ ，再利用非基变量检验数公式 $σ_{ij} = c_{ij} - (u_{i} + v_{j})$ 算出非基变量的检验数。

推导：在原来检验数公式的基础上修改，得到双下标形式的检验数公式 $σ_{ij} = c_{ij} - z_{ij} = c_{ij} - c_{B} B^{- 1} p_{ij}$ ，若记 $c_{B} B^{- 1} = w$ ，则 $w$ 就是对偶问题的决策变量，设 $w = (u_{1}, \dots, u_{m}, v_{1}, \dots, v_{n})$ ，则运输问题的对偶问题为 $max f = \sum_{i = 1}^{m} a_{i} u_{i} + \sum_{j = 1}^{n} b_{j} v_{j}$ ， $s . t . {u_{i} + v_{j} \leq c_{ij}, i = 1, 2 \dots, m; j = 1, 2, \dots, n u_{i}, v_{j} 无正负限制$ ，决策变量的检验数为 $σ_{ij} = c_{ij} - w p_{ij} = c_{ij} - (u_{1}, \dots, u_{m}, v_{1}, \dots, v_{n}) (e_{i} + e_{m + j}) = c_{ij} - (u_{i} + v_{j}), (i = 1, 2, \dots, m; j = 1, 2, \dots, n)$ ，因为基变量的检验数 $σ_{ij} = 0$ ，故当 $(i, j) \in J_{B}$ 时 $c_{ij} - (u_{i} + v_{j}) = 0$ ，这是一个含有 $(m + n - 1)$ 个方程、 $(m + n)$ 个未知量的线性方程组，为求解方程组，我们人为规定令 $v_{n} = 0$ ，这样就可以求出所有的 $u_{i}, v_{j}$ ，以及所有非基变量的检验数。

下面通过例题了解位势法如何求检验数（注意位势法是在价格表上进行的）：

同样是前面的问题，用西北角法求出的可行解 $x^{(0)} = (3, 4, 0, 0, 0, 2, 2, 0, 0, 0, 3, 6)^{T}$ 为例，下面是其对应的调运表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 / / 7-3-4

$A_{2}$ / 2 2 / 4-2-2

$A_{3}$ / / 3 6 9-3-6

收量 3-3 6-4-2 5 6

在例题的价格表上加上一行一列，其中 $u_{i}$ 、 $v_{j}$ 是其对偶问题的决策变量，在对应的调运表中非零元素的位置作加粗标识（其对应的 $x_{ij}$ 是基变量），非基变量用中括号括住，如下表

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3] [10]

$A_{2}$ [1] $9$ $2$ [8]

$A_{3}$ [7] [4] $10$ $5$

$v_{j}$

由于检验数公式为 $c_{ij} - (u_{i} + v_{j})$ ，所以我们应将 $u_{i}$ 和 $v_{j}$ 确定下来，首先根据前面的分析， $v_{n}$ 人为规定为0，于是填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3] [10]

$A_{2}$ [1] $9$ $2$ [8]

$A_{3}$ [7] [4] $10$ $5$

$v_{j}$ 0

以某个基格为标准，结合公式 $c_{ij} = (u_{i} + v_{j})$ （仅当 $(i, j) \in J_{B}$ 时成立）计算运输问题的对偶问题的基变量 $u_{i}$ 和 $v_{j}$ ，比如 $c_{34} = u_{3} + v_{4} \Rightarrow 5 = u_{3} + 0 \Rightarrow u_{3} = 5$ ，（注意只看基变量对应的格子，即加粗元素的位置），最后填写如下

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3] [10] -1

$A_{2}$ [1] $9$ $2$ [8] -3

$A_{3}$ [7] [4] $10$ $5$ 5

$v_{j}$ 4 12 5 0

对于非基变量的检验数，通过 $σ_{ij} = c_{ij} - (u_{i} + v_{j})$ 计算，比如 $σ_{31} = c_{31} - (u_{3} + v_{1}) = 7 - (5 + 4) = - 2$ ，把检验数写在价格表上，如下表（原非基变量的 $c_{ij}$ 用中括号括住，而基变量的检验数一定为0就不填写了）

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3]-1 [10]11 -1

$A_{2}$ [1]0 $9$ $2$ [8]11 -3

$A_{3}$ [7]-2 [4]-13 $10$ $5$ 5

$v_{j}$ 4 12 5 0

由于问题是最小化问题，当所有检验数都 $\geq 0$ 时得到最优解，显然当前解还不是最优解，还要再用闭合回路法对基本可行解进行调整。

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4	/	/	7-3-4
$A_{2}$	/	2	2	/	4-2-2
$A_{3}$	/	/	3	6	9-3-6
收量	3-3	6-4-2	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$
$A_{1}$	$3$	$11$	[3]	[10]
$A_{2}$	[1]	$9$	$2$	[8]
$A_{3}$	[7]	[4]	$10$	$5$
$v_{j}$

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$
$A_{1}$	$3$	$11$	[3]	[10]
$A_{2}$	[1]	$9$	$2$	[8]
$A_{3}$	[7]	[4]	$10$	$5$
$v_{j}$				0

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	$u_{i}$
$A_{1}$	$3$	$11$	[3]	[10]	-1
$A_{2}$	[1]	$9$	$2$	[8]	-3
$A_{3}$	[7]	[4]	$10$	$5$	5
$v_{j}$	4	12	5	0

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	$u_{i}$
$A_{1}$	$3$	$11$	[3]-1	[10]11	-1
$A_{2}$	[1]0	$9$	$2$	[8]11	-3
$A_{3}$	[7]-2	[4]-13	$10$	$5$	5
$v_{j}$	4	12	5	0

闭合回路法

定义：若一组格点经过适当的排序后，能写成以下形式： $(i_{1}, j_{1})$ 、 $(i_{1}, j_{2})$ 、 $(i_{2}, j_{2})$ 、 $(i_{2}, j_{3})$ 、 $(i_{3}, j_{3})$ 、 $\dots$ 、 $(i_{s}, j_{s})$ 、 $(i_{s}, j_{1})$ ，则称这组格点构成了闭合回路。

比如以下格点：

由梨花组成的 $(1, 1), (1, 2), (3, 2), (3, 1)$ 就构成了闭合回路；再比如心形组成的 $(3, 3), (1, 3), (1, 4), (2, 4), (2, 5), (3, 5)$ 也构成了闭合回路，…

下面通过例题了解闭合回路法如何调整基本可行解：

前面通过位势法得到了下面价格表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3]-1 [10]11 -1

$A_{2}$ [1]0 $9$ $2$ [8]11 -3

$A_{3}$ [7]-2 [4]-13 $10$ $5$ 5

$v_{j}$ 4 12 5 0

同单纯形法选择进基变量的准则，对于最小化问题，找出最小检验数对应变量作为进基变量， $σ_{k l} = min_{i, j \in J_{N}} {σ_{ij} ∣ σ_{ij} < 0} = σ_{32} = - 13$ ，即 $x_{32}$ 为进基变量，也就是说 $(3, 2)$ 为进基格，为确定离基变量，以进基格为起点作一个闭合回路，要求除起始格为进基格外，该闭合回路的其余顶点均为基格。

我们在调运表中进行操作（进基格用 $∙$ 标注）：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 7

$A_{2}$ 2 2 4

$A_{3}$ $∙$ 3 6 9

收量 3 6 5 6

找出任意一个闭合回路，比如 $(3, 2), (3, 3), (2, 3), (2, 2)$ ，考虑（闭合回路用 $∙$ 标注）：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 7

$A_{2}$ $2 - θ ∙$ $2 + θ ∙$ 4

$A_{3}$ $0 + θ ∙$ $3 - θ ∙$ 6 9

收量 3 6 5 6

其中 $θ = min {x_{22} = 2, x_{33} = 3 ∣ (2, 2) 与 (3, 3) 为闭合回路中排列的序号为偶数的格点} = 2$ 。因为根据产销平衡原则，进基变量要增大（从0变为正数），所以销售点 $B_{2}$ 从 $A_{3}$ 进更多的货（ $θ$ 吨）就要从 $A_{2}$ 少进同等数量的货（ $θ$ 吨），同时闭合回路上的 $B_{3}$ 也从 $A_{3}$ 进了货，由于 $A_{2}$ 、 $A_{3}$ 的发量是固定的，所以销售点 $B_{3}$ 要从 $A_{3}$ 少进 $θ$ 吨货，同时从 $A_{2}$ 进 $θ$ 吨货以保持收量；而 $θ$ 的取值准则是尽可能大，由于最多只能减到零，所以找 $(2, 2)$ 和 $(3, 3)$ （也就是 $θ$ 符号为负）中的最小值。

此时显然易见，选择 $θ = 2$ 后 $(2, 2)$ 变为了零，于是 $x_{22}$ 就是离基变量。因此改善后的基本可行解为

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 4 7

$A_{2}$ 4 4

$A_{3}$ 2 1 6 9

收量 3 6 5 6

此时再通过位势法检验是否为最优解，若不是，再重复前面的步骤直至得到最优解。

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	$u_{i}$
$A_{1}$	$3$	$11$	[3]-1	[10]11	-1
$A_{2}$	[1]0	$9$	$2$	[8]11	-3
$A_{3}$	[7]-2	[4]-13	$10$	$5$	5
$v_{j}$	4	12	5	0

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4			7
$A_{2}$		2	2		4
$A_{3}$		$∙$	3	6	9
收量	3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4			7
$A_{2}$		$2 - θ ∙$	$2 + θ ∙$		4
$A_{3}$		$0 + θ ∙$	$3 - θ ∙$	6	9
收量	3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	4			7
$A_{2}$			4		4
$A_{3}$		2	1	6	9
收量	3	6	5	6

后续过程

第二次迭代

用位势法得到的价格表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ [3]-14 [10]-2 12

$A_{2}$ [1]13 [9]13 $2$ [8]11 -3

$A_{3}$ [7]11 $4$ $10$ $5$ 5

$v_{j}$ -9 -1 5 0

检验数还有小于零的部分，继续迭代，对应的调运表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 $4 - θ ∙$ $0 + θ ∙$ 7

$A_{2}$ 4 4

$A_{3}$ $2 + θ ∙$ $1 - θ ∙$ 6 9

收量 3 6 5 6

用闭合回路法得到的调运表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 3 1 7

$A_{2}$ 4 4

$A_{3}$ 3 6 9

收量 3 6 5 6

第三次迭代

再用位势法检验是否为最优解，得到的价格表为：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ $u_{i}$

$A_{1}$ $3$ $11$ $3$ [10]-2 12

$A_{2}$ [1]-1 [9]-1 $2$ [8]-3 11

$A_{3}$ [7]11 $4$ [10]14 $5$ 5

$v_{j}$ -9 -1 -9 0

检验数还有小于零的部分，继续迭代，对应的调运表：

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 3 $3 - θ ∙$ $1 + θ ∙$ 7

$A_{2}$ $4 - θ ∙$ $0 + θ ∙$ 4

$A_{3}$ $3 + θ ∙$ $6 - θ ∙$ 9

收量 3 6 5 6

…

经过有限次运算得到最优解，且最优解有无穷多个

$B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$ 发量

$A_{1}$ 2 5 7

$A_{2}$ 1 3 4

$A_{3}$ 6 3 9

收量 3 6 5 6

相应的最优值为 $z = 85$ .

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	$u_{i}$
$A_{1}$	$3$	$11$	[3]-14	[10]-2	12
$A_{2}$	[1]13	[9]13	$2$	[8]11	-3
$A_{3}$	[7]11	$4$	$10$	$5$	5
$v_{j}$	-9	-1	5	0

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	$4 - θ ∙$	$0 + θ ∙$		7
$A_{2}$			4		4
$A_{3}$		$2 + θ ∙$	$1 - θ ∙$	6	9
收量	3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	3	1		7
$A_{2}$			4		4
$A_{3}$		3		6	9
收量	3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	$u_{i}$
$A_{1}$	$3$	$11$	$3$	[10]-2	12
$A_{2}$	[1]-1	[9]-1	$2$	[8]-3	11
$A_{3}$	[7]11	$4$	[10]14	$5$	5
$v_{j}$	-9	-1	-9	0

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	3	$3 - θ ∙$	$1 + θ ∙$		7
$A_{2}$			$4 - θ ∙$	$0 + θ ∙$	4
$A_{3}$		$3 + θ ∙$		$6 - θ ∙$	9
收量	3	6	5	6

	$B_{1}$	$B_{2}$	$B_{3}$	$B_{4}$	发量
$A_{1}$	2		5		7
$A_{2}$	1			3	4
$A_{3}$		6		3	9
收量	3	6	5	6

三、整数规划问题

1. 整数规划问题的数学模型

在许多线性规划问题中，决策变量具有不可分割的性质，如人数、设备的台数、车辆船只数、项目的个数等

若一规划所有的决策变量都取整数，则称其为纯整数规划问题；
若有部分决策变量要求取整数，则称其为混合整数规划问题；
若决策变量只能取0或者1，则称其为0-1型整数线性规划问题。

例1：设有一背包的最大容量 $V_{0}$ ，现有 $n$ 种物品可供选择装入背包，每种物品数量不限，设第种物品的体积为 $V_{i}$ （ $i = 1, 2, \dots, n$ ），相应的价值为 $c_{i}$ ，问每种物品各取多少件装入，可使背包中价值最大？

解：设第 $i$ 种物品有 $x_{i}$ 件装入背包，则 $max z = c_{1} x_{1} + c_{2} x_{2} + \dots + c_{n} x_{n}$ ， $s . t . {V_{1} x_{1} + V_{2} x_{2} + \dots + V_{n} x_{n} \leq V_{0} x_{1}, x_{2}, \dots, x_{n} \geq 0 且均为整数$ ，这是一个纯整数规划问题。

通常情况下，整数规划无法通过单纯形法求解然后对结果舍零取整得到解，因为取整后的解不一定仍然是可行解，即使是可行解也不一定是最优解。我们把整数规划问题中的整数要求去掉后的问题称为原问题的伴随规划。

例2：某厂计划用集装箱托运甲乙两种货物，每箱的体积、重量、可获利润及托运所受限制见下表，如何设计装运方案可使所获利润最大？

货物/箱体积/ $m^{2}$ 重量/百斤利润/百元

甲 5 2 20

乙 4 5 10

托运限制/集装箱 24 13

解：数学模型为 $max z = 20 x_{1} + 10 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 5 x_{1} + 4 x_{2} \leq 24 2 x_{1} + 5 x_{2} \leq 13 x_{1}, x_{2} \geq 0 且为整数$ ，这是一个纯整数规划问题，其伴随规划为 $max z = 20 x_{1} + 10 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 5 x_{1} + 4 x_{2} \leq 24 2 x_{1} + 5 x_{2} \leq 13 x_{1}, x_{2} \geq 0$ ，伴随规划的最优解为 $x^{*} = (4.8, 0)^{T}$ ，易知舍零取整后的解 $x_{1} = (5, 0)^{T}$ 不是原问题的整数规划的可行解；而 $x_{2} = (4, 0)^{T}$ 是可行解，但不是整数规划的最优解。

货物/箱	体积/ $m^{2}$	重量/百斤	利润/百元
甲	5	2	20
乙	4	5	10
托运限制/集装箱	24	13

2. 分枝定界法

分枝定界法既可以用来求解整数规划，也可以用来求解混合整数规划。分枝定界法的主要思路是：首先求解整数规划的伴随规划，如果求得的最优解不符合整数条件，则增加新约束条件以便缩小可行域，将原整数规划问题分枝为两个子规划，再解子规划的伴随规划，通过求解一系列子规划的伴随规划问题，从而不断地定界，最后得到原整数规划问题的整数最优解。

原问题与伴随规划问题的解的关系如下：

如果伴随规划问题无可行解二，则原整数规划问题无可行解；
若伴随规划的最优解满足整数规划的整数条件，则该最优解也为原整数规划的最优解；
否则使用分支定界法进行计算。

分枝定界法的步骤如下（一般将原问题(整数规划问题)称为问题 $A_{0}$ ，将它的伴随问题称为 $B_{0}$ ）：

步骤一：计算原问题 $A_{0}$ 目标函数的初始上界 $\overline{z}$ 。因为问题 $A_{0}$ 的可行域 $\subset$ 问题 $B_{0}$ 的可行域，故一般用伴随问题的 $z^{*}$ 作为初始上界；

步骤二：计算原问题 $A_{0}$ 目标函数的初始下界 $\underline{z}$ 。若能从问题 $A_{0}$ 的约束条件观察到一个整数可行解，则可将其目标函数值作为问题 $A_{0}$ 目标函数的初始下界，否则可以令初始下界为 $\underline{z} = - \infty$ 。

步骤三：增加约束条件将原问题分枝。一般是分别采用向上、向下取整将伴随问题的小数部分去掉，从而分为两枝。

步骤四：分别求解每一分枝。对某分枝的伴随问题求解，可能出现以下情形：

无可行解：说明该分枝情况已查明，不需对其继续分枝，称该分枝为明枝；

得到整数最优解：这种情况也不需再进行分枝，也称为明枝；

得到不满足整数条件的最优解：

该最优解的目标函数值 $z$ 小于当前下界 $\underline{z}$ ，该分枝内不可能含有原问题的整数最优解，故不需对其继续分枝，称为枯枝；

该最优解的目标函数值 $z$ 大于当前下界 $\underline{z}$ ，仍需对该枝继续分枝，以查明分枝内是否有目标函数值比当前的 $\underline{z}$ 更好的整数最优解。（如果有多对分枝都需要继续分枝时，首先对目标函数值较优的分枝求解，待目标函数较优的那枝全部分解到不能再分，全部查清时为止，再回过头来考虑目标函数稍差的那枝。）

步骤五：修改上界 $\overline{z}$ 与下界 $\underline{z}$ 。修改的时机和原则如下：

修改下界 $\underline{z}$ 的时机：每求出一个整数可行解，须修改下界 $\underline{z}$ 。

修改下界 $\underline{z}$ 的原则：在至今所求的全部整数可行解中，选目标函数值最大的那个作为最新下界 $\underline{z}$ 。

修改上界 $\overline{z}$ 的时机：每求解完一对分枝，须考虑修改上界 $\overline{z}$ 。

修改上界 $\overline{z}$ 的原则：挑选目前为止所有未被分枝问题的目标函数值中最大的一个作为新的上界。

步骤六：结束准则：当所有分枝均已查明，且此时 $\overline{z} = \underline{z}$ ，则已得到了原问题的整数最优解，即目标函数值为下界 $\underline{z}$ 的那个整数解。

下面通过例题了解分枝定界法

例：求解下列整数规划问题 $max z = 10 x_{1} + 20 x_{2}$ ， $s . t . ⎩ ⎨ ⎧ 5 x_{1} + 8 x_{2} \leq 60 x_{1} \leq 8 x_{2} \leq 4 x_{1}, x_{2} \geq 0 且为整数$ .

解：为方便表示，这里将原问题称为问题 $A_{0}$ ，将它的伴随问题称为 $B_{0}$ 。通过之前的方法可以求出 $B_{0}$ 的最优解为 $x_{0}^{*} = (5.6, 4)^{T}$ ，最优值为 $f_{0}^{*} = 136$ ，下面开始使用分枝定界法：

步骤一：计算原问题 $A_{0}$ 目标函数的初始上界 $\overline{z}$ 。因为问题 $B_{0}$ 的最优解不满足整数条件，故不为 $A_{0}$ 的最优解，又因为 $A_{0}$ 的可行域 $\subset$ 问题 $B_{0}$ 的可行域，故有 $z^{*} \leq f_{0}^{*} = 136$ ，于是 $z^{*}$ 的初始上界为 $\overline{z} = 136$ 。

步骤二：计算原问题 $A_{0}$ 目标函数的初始下界 $\underline{z}$ 。对于本例，一个显然的可行解为零，故 $\underline{z} = 0$ 。

步骤三：分枝。由于 $B_{0}$ 的最优解为 $x_{0}^{*} = (5.6, 4)^{T}$ ，可以将问题分枝为 $问题 A_{1} max z = 10 x_{1} + 20 x_{2} s . t . ⎩ ⎨ ⎧ 5 x_{1} + 8 x_{2} \leq 60 x_{1} \leq 8 x_{2} \leq 4 x_{1} \leq 5 x_{1}, x_{2} \geq 0 且为整数$ 和 $问题 A_{2} max z = 10 x_{1} + 20 x_{2} s . t . ⎩ ⎨ ⎧ 5 x_{1} + 8 x_{2} \leq 60 x_{1} \leq 8 x_{2} \leq 4 x_{1} \geq 6 x_{1}, x_{2} \geq 0 且为整数$ 。

步骤四、五、六：分别求解这一对分枝的伴随问题，并更新上、下界，一直进行分枝，直至上界与下界相等时得到整数最优解。

3. 割平面法

割平面法主要用于求解纯整数规划。割平面法的主要思路是：不断切割原问题伴随规划的可行域，使它在不断缩小的过程中，将原问题的整数最优解逐渐暴露，且趋于可行域极点。

下面通过例题了解割平面法

例：求解下列整数规划问题 $原问题 A_{0} max z = x_{1} + x_{2} s . t . ⎩ ⎨ ⎧ - x_{1} + x_{2} \leq 1 3 x_{1} + x_{2} \leq 4 x_{1}, x_{2} \geq 0 且为整数$ 、 $伴随规划 B_{0} 的标准形 max z = x_{1} + x_{2} s . t . ⎩ ⎨ ⎧ - x_{1} + x_{2} + x_{3} = 1 3 x_{1} + x_{2} + x_{4} = 4 x_{1}, x_{2}, x_{3}, x_{4} \geq 0$ .

解：求出伴随问题的最优单纯形表如下

割平面法步骤如下：

（1）割平面方程可以由上述最优单纯形表上任一含有不满足整数条件的基变量的约束方程演变得到，比如上表中 $x_{1}$ 对应的行（第4行），有 $x_{1} - \frac{1}{4} x_{3} + \frac{1}{4} x_{4} = \frac{3}{4}$ ；

（2）将所选的约束方程中非基变量的系数及常数项进行拆分处理，具体规则是：将上述系数和常数项均拆成一个整数加一个非负的真分数之和，即 $x_{1} + (- 1 + \frac{3}{4}) x_{3} + (0 + \frac{1}{4}) x_{4} = (0 + \frac{3}{4})$ ；

（3）将上述方程重新组合，组合的原则是：将非基变量系数及常数项中的非负真分数移到等号左端，将其他部分移到等式右端，即 $\frac{3}{4} x_{3} + \frac{1}{4} x_{4} - \frac{3}{4} = 0 - x_{1} + x_{3} + 0 \cdot x_{4}$ ；

（4）求割平面方程，等式右端全部项为整数，并且松弛变量被认为是非负整数（当原问题 $A_{0}$ 的约束方程组中的系数或常数项中有非整数时，可以先将它们化为整数再标准化，所以这里只考虑整数的情况）。这里 $\frac{3}{4} x_{3} + \frac{1}{4} x_{4} = \frac{3}{4} + (x_{3} - x_{1})$ ，故 $x_{3} - x_{1} \geq 0$ ，否则 $\frac{3}{4} + (x_{3} - x_{1}) < 0$ 与 $x_{3}, x_{4}$ 非负的条件矛盾（反证法：由于 $x_{1}, x_{3}, x_{4}$ 都是整数，如果 $x_{3} - x_{1}$ 严格小于零，那么最大只能取 $- 1$ ，此时 $\frac{3}{4} - 1 < 0$ ，而如果 $x_{3}, x_{4}$ 非负， $\frac{3}{4} x_{3} + \frac{1}{4} x_{4}$ 不可能等于一个小于零的数），因此割平面条件为： $\frac{3}{4} x_{3} + \frac{1}{4} x_{4} \geq \frac{3}{4}$ ；

（5）把割平面条件化为 $- \frac{3}{4} x_{3} - \frac{1}{4} x_{4} \leq - \frac{3}{4}$ ，加入松弛变量得 $- \frac{3}{4} x_{3} - \frac{1}{4} x_{4} + x_{5} = - \frac{3}{4}$ ，将此方程加入到伴随规划 $B_{0}$ 的约束方程中，得到新问题 $max z = x_{1} + x_{2}$ ， $s . t . ⎩ ⎨ ⎧ - x_{1} + x_{2} + x_{3} = 1 3 x_{1} + x_{2} + x_{4} = 4 - \frac{3}{4} x_{3} - \frac{1}{4} x_{4} + x_{5} = - \frac{3}{4} x_{1}, x_{2}, x_{3}, x_{4}, x_{5} \geq 0$ ；

新问题的单纯形表可以由原来的单纯形表改写得到，直接添加一行一列如下

此时还不是最优单纯形表，通过对偶单纯形法得到最优单纯形表如下

可见此时已得到整数最优解，所以最优解为 $x^{*} = (1, 1)^{T}$ ，且相应的目标函数值为 $z^{*} = 2$ 。

4. 指派问题与匈牙利算法

最小化的指派问题

指派问题：在实践中经常会遇到这样一种问题：有n项不同的工作或任务，需要n个人去完成，要求每人只完成一项工作，由于每人的知识、能力、经验等不同，故各人完成不同任务所需要的时间不同，问应指派何人完成何项工作，使完成n项工作总耗时最少，这种问题叫做指派问题，指派问题是一种整数规划问题，同时也是一类特殊的运输问题。

指派问题的数学模型为 $min z = \sum_{i = 1}^{n} \sum_{j = 1}^{n} c_{ij} x_{ij}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{j = 1}^{n} x_{ij} = 1, \sum_{i = 1}^{n} x_{ij} = 1, x_{ij} = 0 或 1, i = 1, 2, \dots, n j = 1, 2, \dots, n i, j = 1, 2, \dots, n$ ，其中 $x_{ij}$ 表示令第 $i$ 个人去完成第 $j$ 份工作， $c_{ij}$ 表示第 $i$ 个人做第 $j$ 份工作的时间（或资源浪费，匈牙利算法要求 $c_{ij}$ 非负），约束条件表示一个人只能做一份工作，并且每份工作只由一个人来完成。将效率系数 $c_{ij}$ 排成一个 $n \times n$ 矩阵，称为效率矩阵或价值系数矩阵，即 $C = c_{11} c_{21} ⋮ c_{n 1} c_{12} c_{22} ⋮ c_{n 2} \dots \dots \dots c_{1 n} c_{2 n} ⋮ c_{nn}$ 。

定理：设指派问题的效率矩阵为 $C = (c_{ij})_{n \times n}$ ，若将该矩阵的某一行或列的各元素都减去同一个常数 $t$ ，得到新的效率矩阵 $C^{'} = (c_{ij}^{'})_{n \times n}$ ，则以 $C^{'}$ 为效率矩阵的新指派问题与原指派问题的最优解相同，但其最优值比原最优值减少 $t$ 。

证明：根据指派问题定义，假设第 $k$ 行减去了 $t$ ， $z^{'} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} c_{ij}^{'} x_{ij} = \sum_{i = 1, i \neq = k}^{n} \sum_{j = 1}^{n} c_{ij}^{'} x_{ij} + \sum_{j = 1}^{n} c_{kj}^{'} x_{kj} = \sum_{i = 1, i \neq = k}^{n} \sum_{j = 1}^{n} c_{ij} x_{ij} + \sum_{j = 1}^{n} (c_{kj} - t) x_{kj} = \sum_{i = 1, i \neq = k}^{n} \sum_{j = 1}^{n} c_{ij} x_{ij} + \sum_{j = 1}^{n} c_{kj} x_{kj} - t \sum_{j = 1}^{n} x_{kj} = z - t$ .

定理：若将指派问题的效率矩阵每一行（或每一列）分别减去各自的最小元素，则得到的新指派问题与原指派问题有相同的最优解。

将效率矩阵的每一行减去各行最小元素，所得矩阵的每一列再减去当前列中最小元素，最后的新效率矩阵 $C^{'}$ 中必然会出现一些零元素，显然，元素 $c_{ij}^{'} = 0$ 表示第 $i$ 个人去干第 $j$ 项工作效率最好，或表示第 $j$ 项工作由第 $i$ 个人来干效率最高。

定义：在效率矩阵 $C$ 中，有一组处在不同行不同列的零元素，称为独立零元素组，此时其中每个元素称为独立零元素。

例1：由效率矩阵的独立零元素组确定最优指派问题： $C = 5204035820600070$ ，其中加粗的零就组成了一个独立零元素组，此时将独立零元素组所在的位置赋1，其他为零，就得到了一个解 $x_{(1)} = 0010100000010100$ ，即让第1个人去完成第2份工作、第2个人去完成第4份工作，…；独立零元素组并不唯一，比如 $x_{(2)} = 0010100001000001$ 。

可见，当独立零元素组的个数 $m$ 和矩阵的阶数 $n$ 相等时，可以直接利用定理2及独立零元素组写出解。但是在有的问题中，效率矩阵 $C$ 的独立零元素的个数不到 $n$ 个，这样就无法求到最优指派方案，需要作进一步分析。

定理：效率矩阵 $C$ 中独立零元素的最多个数等于能覆盖所有零元素的最少直线数。

比如： $C_{1} = \underline{5204035820600070}$ 是4个独立零元素， $C_{2} = 5204003586205030070620245$ 也是4个独立零元素。

圈零法：要找出矩阵的独立零元素，可以使用圈零法，具体步骤如下：

（1）进行行检验：对 $C$ 进行逐行检查，每行只有一个未标记的零元素时，用O记号将该元素圈起，然后将被圈起的零元素所在列的其他未标记的零元素用记号×划去；（2）进行列检验：与进行行检验类似；

（3）重复检验，直到每一行都没有未被标记的零元素或至少有两个未被标记的零元素为止。

根据圈零法标记的个数的不同，最后可能会有如下情况：

每一行均有一个圈零（即独立零元素）出现，圈零的个数 $m$ 恰好等于矩阵阶数 $n$ ，即前面的例1的情况，此时可以直接给出指派方案；
存在未标记过的零元素，但它们所在的行或列中，未标记过的零元素至少有两个，此时任选一个作为独立零元素（划圈），其他零元素划×标记（此时方案可能有多个）；
不存在未被标记过的零元素，但圈零的个数 $m < n$ 。

匈牙利算法的步骤：

（1）根据定理2，将各行或各列都减去各自的最小元素，得到新效率矩阵 $C_{1}$ ，此时新效率矩阵对应的最优解仍与原问题相同；

（2）用圈零法找出新矩阵 $C_{1}$ 中的独立零元素;

（3）进行试指派，根据前面圈零法讨论的不同情况：①情况1可以直接令圈零位置的决策变量取值1，其他决策变量取值0，得到一个最优指派方案；②情况2经过任选一个作为独立零元素的处理，再次进行圈零法的检验，会转变为情况1或情况3；③情况3，需进行第四、五步。

（4）增加独立零元素的个数。首先要作最少直线覆盖当前所有零元素：①对 $C_{1}$ 中所有不含圈零元素的行打；②对打的行中所有零元素所在列打；③对所有打列中圈零元素所在行打；④重复上述第②、③步，直到不能进一步打为止；然后对所有没有打的行划横线、对已打的列划竖线，便能用最少直线覆盖所有零元素。然后再在未被直线覆盖的元素中找出最小元素，将打行的各元素减去这个最小元素，将打列的各元素加上这个最小元素，这样就能增加独立零元素的个数。

（5）对已增加独立零元素的矩阵，重复(2)、(3)、(4)步，直至出现圈零数 $m$ 等于矩阵阶数 $n$ 为止。

下面通过例题了解匈牙利算法的完整求解步骤

例2：现有一个 $5 \times 5$ 的指派问题，其效率矩阵为 $C = 1287154791714109612677614610969109$ ，求该指派问题。

解：

步骤一：变换效率矩阵，根据定理2，将各行都减去各自的最小元素，得 $C_{1} = 52090031086205030070620245$ ；

步骤二：用圈零法求出新矩阵 $C_{1}$ 中独立零元素，最后得到 $C_{1} = 5209 0 \times 031086 2 0 \times 503 0 \times 0 \times 7 0 \times 6 20245$ ，检查的过程为（这里用代替圈）：先看第1、2行，都有多于一个的零，不作任何标记；到第3行时，只有一个零，对这个零作标记，此时同列的 $(5, 1)$ 位置的零划掉；再到后面4、5行都不符合，不作标记；行检查完一次，开始对列进行检查，第1列的所有零都已经有标记了，不作检查；第2列只有一个零，对这个零作标记，此时同行的 $(1, 4)$ 位置的零划掉；第3、4列都有多于一个的零，不作任何标记；第5列只有一个零，对这个零作标记，此时同行的 $(2, 3)$ 和 $(2, 4)$ 位置的零划掉；第二次行检查可以看到，只剩下 $(4, 3)$ 和 $(4, 4)$ 位置的零还没有被标记，任选一个画，另一个划 $\times$ 即可。

步骤三：进行试指派。此时显然独立零元素的个数4小于矩阵阶数5，属于情况3，进入步骤四。

步骤四：先作最少直线覆盖当前所有零元素，根据规则对行、列打，然后对所有没有打的行划横线、对已打的列划竖线，最后得到 $C_{1} = 5209 0 \times 031086 2 0 \times 503 0 \times 0 \times 7 0 \times 6 20245$ ，然后找出没有划线元素中最小元素为2，打行减去2、打列加上2，得到 $C_{2} = 74011003884203010050420043$ 。

步骤五：找出 $C_{2}$ 的独立零元素，用圈零法得 $C_{2} = 74 0 \times 110 03884 2 0 \times 301 0 \times 05 0 \times 4 2 0 \times 043$ ，此时可以直接写出最优解为 $x_{12} = x_{24} = x_{35} = x_{43} = x_{51} = 1$ ，其余 $x_{ij} = 0$ 。

(补充)最大化的指派问题

对于最大化的指派问题， $max z = \sum_{i = 1}^{n} \sum_{j = 1}^{n} c_{ij} x_{ij}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{j = 1}^{n} x_{ij} = 1, \sum_{i = 1}^{n} x_{ij} = 1, x_{ij} = 0 或 1, i = 1, 2, \dots, n j = 1, 2, \dots, n i, j = 1, 2, \dots, n$ ，不能使用将目标函数添加负号转化为最小化问题的方法，因为匈牙利算法要求每个元素都非负。

我们可以在效率矩阵 $C = (c_{ij})_{n \times n}$ 中，找出一个最大元素 $M$ ，并令 $b_{ij} = M - c_{ij}$ （ $i, j = 1, 2, \dots, n$ ），这样就能转化为求解最小化问题 $min z = \sum_{i = 1}^{n} \sum_{j = 1}^{n} b_{ij} x_{ij}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{j = 1}^{n} x_{ij} = 1, \sum_{i = 1}^{n} x_{ij} = 1, x_{ij} = 0 或 1, i = 1, 2, \dots, n j = 1, 2, \dots, n i, j = 1, 2, \dots, n$ 。

这两个问题等价的证明： $z^{'} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} b_{ij} x_{ij} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} (M - c_{ij}) x_{ij} = M \sum_{i = 1}^{n} \sum_{j = 1}^{n} x_{ij} - \sum_{i = 1}^{n} \sum_{j = 1}^{n} c_{ij} x_{ij} = n M - z$ ，即 $z^{'}$ 与 $z$ 负相关， $z^{'}$ 的最小值就是 $z$ 的最大值。

四、非线性规划

1. 非线性规划的数学模型

非线性规划的概念：线性规划的一个明显的特点是其目标函数与约束条件都是决策变量的一次函数，如果在一个规划问题的目标函数和约束条件中，至少有一个方程是决策变量的非线性函数，则称这类规划问题为非线性规划。

例1（选址问题）：设有 $n$ 个市场，第 $k$ 个市场的位置为 $(p_{k}, q_{k})$ ，它对某种货物的需求量为 $b_{k}$ （ $k = 1, 2, \dots, n$ ），现计划建立 $m$ 个仓库，第 $l$ 个仓库的存储容量为 $a_{l}$ （ $l = 1, 2, \dots, m$ ）。试确定仓库的位置使各仓库对各市场的运输量与路程乘积之和为最小。

解：设第 $l$ 个仓库的位置为 $(x_{l}, y_{l})$ ，它到第 $k$ 个市场的货物供应量为 $z_{l k}$ ，则数学模型为 $min \sum_{l = 1}^{m} \sum_{k = 1}^{n} z_{l k} (x_{l} - p_{k})^{2} + (y_{l} - q_{k})^{2}$ ， $s . t . ⎩ ⎨ ⎧ \sum_{k = 1}^{n} z_{l k} \leq a_{l}, \sum_{l = 1}^{m} z_{l k} = b_{k}, z_{l k} \geq 0, l = 1, 2, \dots, m k = 1, 2, \dots, n l = 1, 2, \dots, m; k = 1, 2, \dots, n$ .

一般非线性规划的数学模型可表示为 $min f (x)$ ， $s . t . {g_{i} (x) \geq 0, h_{j} (x) = 0, i = 1, 2, \dots, m j = 1, 2, \dots, l$ ，其中 $x = (x_{1}, x_{2}, \dots, x_{n})^{T} \in R^{n}$ ，而 $f, g_{i}, h_{j}$ 都是 $R^{n} \to R^{1}$ 的映射。

定义：我们称下列集合 $H = {g_{i} (x) \geq 0 (i = 1, 2, \dots, m), h_{j} (x) = 0 (j = 1, 2, \dots, l)}$ 为非线性规划问题的可行域。当非线性规划问题的自变量 $x$ 没有任何约束，或说可行域是整个 $n$ 维向量空间 $H = R^{n}$ ，则称该非线性规划问题为无约束问题，记作 $min f (x)$ 或 $min_{x \in R^{n}} f (x)$ ，有约束问题与无约束问题在处理方法上有明显的不同。

在微积分中曾讨论过极值问题，它们都属于无约束极值问题，即使有约束，也是等式约束，这样可利用拉格朗日乘子法。将等式约束极值问题化为无约束极值问题来求解，这种极值问题统称为经典极值问题。

定义：若 $x^{*} \in H$ ，且满足 $min_{x \in H} f (x) = f (x^{*})$ ，即对 $\forall x \in H$ 都有 $f (x^{*}) \leq f (x)$ ，则称 $x^{*}$ 为非线性规划的全局最优解。

定义：若 $x^{*} \in H$ ，且存在一个 $δ > 0$ ，对于 $\forall x \in N (x^{*}, δ) \cap H$ （这里的 $N (x^{*}, δ)$ 表示 $x^{*}$ 的一个邻域），使 $min_{x \in N (x^{*}, δ) \cap H} f (x) = f (x^{*})$ 成立，即 $\forall x \in N (x^{*}, δ) \cap H$ ，都有 $f (x^{*}) \leq f (x)$ ，则称 $x^{*}$ 为非线性规划的局部最优解。

若线性规划问题有最优解，则其最优解一定在可行域的极点上，但非线性规划的最优解却可能是可行域上的任何一点。

线性规划问题的最优解一定是全局最优解，而非线性规划问题有局部最优解与全局最优解之分，一般的非线性规划算法往往求出的是局部最优解。

2. 无约束问题-最优性条件

定义：设 $u = f (x)$ ， $x \in S \subseteq R^{n}$ ，若在 $x_{0} = (x_{1} (0), x_{2} (0), \dots, x_{n} (0))^{T}$ 处对于自变量 $x = (x_{1}, x_{2}, \dots, x_{n})^{T}$ 的各分量的偏导数 $\frac{\partial f ( x _{0} )}{\partial x _{i}}$ 都存在，则称函数 $u = f (x)$ 在点 $x_{0}$ 处一阶可导，并称向量 $\nabla f (x_{0}) = (\frac{\partial f ( x _{0} )}{\partial x _{1}}, \frac{\partial f ( x _{0} )}{\partial x _{2}}, \dots, \frac{\partial f ( x _{0} )}{\partial x _{n}})^{T}$ 是 $u = f (x)$ 在点 $x_{0}$ 处的梯度或一阶导数。

定理（微分与梯度的关系）：设 $u = f (x)$ ， $x \in S \subseteq R^{n}$ ，若 $f$ 在点 $x_{0}$ 处可微，则 $f$ 在点 $x_{0}$ 处的梯度存在，并且有 $d f (x_{0}) = \nabla f (x_{0})^{T} Δ x$ ，其中 $Δ x = (x_{1} - x_{1} (0), x_{2} - x_{2} (0) . \dots, x_{n} - x_{n} (0))^{T}$ 为 $x_{0}$ 处的增量。

定义：设 $u = f (x)$ ， $x_{0} \in S \subseteq R^{n}$ ，若 $f$ 在 $x_{0} \in S$ 处对于自变量 $x \in S$ 的各分量的二阶偏导数 $\frac{\partial ^{2} f ( x _{0} )}{\partial x _{i} \partial x _{j}}$ （ $i, j = 1, 2, \dots, n$ ）都存在，则称函数在 $f (x)$ 在点 $x_{0}$ 处二阶可导，且称矩阵 $\nabla^{2} f (x) = \frac{\partial ^{2} f ( x _{0} )}{\partial x _{1}^{2}} \frac{\partial ^{2} f ( x _{0} )}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f ( x _{0} )}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f ( x _{0} )}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f ( x _{0} )}{\partial x _{2}^{2}} ⋮ \frac{\partial ^{2} f ( x _{0} )}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f ( x _{0} )}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f ( x _{0} )}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f ( x _{0} )}{\partial x _{n}^{2}}$ 为 $f (x)$ 在点 $x_{0}$ 处的二阶导数或黑塞矩阵，记作 $H (x_{0})$ 。

定义：设 $f (x)$ 是一个多元函数， $x \in S \subseteq R^{n}$ ，若 $\exists x^{*} \in S$ ，且 $\exists δ > 0$ ，则：

如果对 $\forall x \in N (x^{*}, δ) \cap S$ ，都有 $f (x^{*}) \leq f (x)$ ，则称 $x^{*}$ 为 $f (x)$ 的局部极小点，称 $f (x^{*})$ 是局部极小值；
如果对 $\forall x \in N (x^{*}, δ) \cap S$ ， $x \neq = x^{*}$ ，都有 $f (x^{*}) < f (x)$ ，则称 $x^{*}$ 为 $f (x)$ 的严格局部极小点，称 $f (x^{*})$ 是严格局部极小值。

定义：设 $f (x)$ 是一个多元函数， $x \in S \subseteq R^{n}$ ，若 $\exists x^{*} \in S$ ，则：

对 $\forall x \in S$ ，都有 $f (x^{*}) \leq f (x)$ ，则称 $x^{*}$ 为 $f (x)$ 的整体极小点，称 $f (x^{*})$ 是整体极小值；
对 $\forall x \in S$ ， $x \neq = x^{*}$ ，都有 $f (x^{*}) < f (x)$ ，则称 $x^{*}$ 为 $f (x)$ 的严格整体极小点，称 $f (x^{*})$ 是严格整体极小值。

多元函数局部极小点(极大点)的判定条件：

定理（一阶必要条件）：设 $f (x)$ （ $x \in S \subseteq R^{n}$ ）在点 $x^{*} \in S$ 处可微，若 $x^{*}$ 是 $f (x)$ 的局部极值点，则 $\nabla f (x^{*}) = 0$ 。

注意 $\nabla f (x^{*}) = 0$ 只是函数取得极值点的必要条件；

我们将满足 $\nabla f (x) = 0$ 的点称为函数的平稳点；函数的平稳点或是其极小点，或是其极大点，或两者都不是。

定理（二阶必要条件）：设 $f (x)$ （ $x \in S \subseteq R^{n}$ ）在点 $x^{*} \in S$ 处二次可微，若 $x^{*}$ 是 $f (x)$ 的局部极小点，则 $\nabla f (x^{*}) = 0$ ，且 $\nabla^{2} f (x^{*})$ 半正定。

定理（二阶充分条件）：设 $f (x)$ （ $x \in S \subseteq R^{n}$ ）在点 $x^{*} \in S$ 处二次可微，若 $\nabla f (x^{*}) = 0$ ，且 $\nabla^{2} f (x^{*})$ 正定，则 $x^{*}$ 是函数 $f (x)$ 的严格局部极小点。

定理（二阶充分条件）：设 $f (x)$ （ $x \in S \subseteq R^{n}$ ）在点 $x^{*} \in R^{n}$ 的一个邻域 $N (x^{*}, δ)$ 内二次可微，若在点 $x^{*}$ 处满足 $\nabla f (x^{*}) = 0$ ，且 $\forall x \in N (x^{*}, δ)$ 都有 $\nabla^{2} f (x)$ 半正定，则 $x^{*}$ 是函数 $f (x)$ 的局部极小点。

例1：求下列函数的极小点 $f (x) = (x_{1}^{2} - 1)^{2} + x_{1}^{2} + 2 x_{2}^{2} - 2 x_{1}$ .

解：先找出平稳点 ${f_{x_{1}} (x) = 4 x_{1}^{3} - 2 x_{1} - 2 = 0 f_{x_{2}} (x) = 4 x_{2} = 0$ ，得出平稳点为 $x^{*} = (1, 0)^{T}$ ，然后再判断黑塞阵的正定性 $\nabla^{2} f (x) = [12 x_{1}^{2} - 2 0 04]$ ，在平稳点的黑塞阵为 $\nabla^{2} f (x^{*}) = [10004]$ ，观察可知它是一个正定矩阵（因为特征值都大于零），根据前面的定理（二阶充分条件1）知， $x^{*} = (1, 0)^{T}$ 是严格局部极小点。

例2：求下列函数的极小点 $f (x) = (x_{1} - 2)^{4} + (x_{1} - 2 x_{2})^{2}$ .

解：先找出平稳点 ${f_{x_{1}} (x) = 4 (x_{1} - 2)^{3} + 2 (x_{1} - 2 x_{2}) = 0 f_{x_{2}} (x) = - 4 (x_{1} - 2 x_{2}) = 0$ ，得出平稳点为 $x^{*} = (2, 1)^{T}$ ，黑塞阵为 $\nabla^{2} f (x) = [12 (x_{1} - 2)^{2} + 2 - 4 - 4 8]$ ，在平稳点的黑塞阵为 $\nabla^{2} f (x) = [2 - 4 - 4 8]$ ，该矩阵是半正定的（一阶顺序主子式大于零，而二阶顺序主子式等于零），考虑 $x^{*}$ 的邻域 $x = x^{*} + Δ x = (2 + Δ x_{1} 1 + Δ x_{2})$ ，则 $H (x) = [12Δ x_{1}^{2} + 2 - 4 - 4 8]$ ，易证上述矩阵是半正定的，故 $x^{*}$ 是局部极小点。

3. 解非线性规划的基本思路

引入：前面讨论了无约束问题的最优性条件，但是对大多数实际问题，要用最优性条件来求解非线性规划是很困难的：有的问题导数不存在，有的问题导数即使存在，计算也很麻烦；多数问题由条件 $\nabla f (x) = 0$ 得到的是一个非线性方程组，求解非常困难，甚至根本无法得到解析解。

求解非线性规划问题一般采用数值计算的选代方法。迭代就是从某个已知点 $x^{(k)}$ 出发，按照某种算法求出后继点 $x^{(k + 1)}$ ，用 $k + 1$ 代替 $k$ ，重复以上过程，得到一个点列 ${x^{(k)}}$ 。非线性规划选代方法的基本思想是：使得要求的送代算法（1）当 ${x^{(k)}}$ 是穷点列时，其最后一点是该问题的最优解；（2）当 ${x^{(k)}}$ 是无穷点列时，它的极限点是该问题的最优解。

定义：设 $x^{(k)}, x^{(k + 1)} \in R^{n}$ 是某种迭代算法的第 $k$ 轮和第 $k + 1$ 轮迭代点，记 $Δ x_{k}$ 为两者之差，即 $Δ x_{k} = x^{(k + 1)} - x^{(k)}$ ，故 $x^{(k + 1)} = x^{(k)} + Δ x_{k}$ ，令 $p^{(k)}$ 是向量 $Δ x_{k}$ 方向上的单位向量，则有 $Δ x_{k} = λ_{k} p^{(k)}$ ，进而有 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ，其中 $λ_{k}$ 是大于零的实数。这里的 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ 就是基本迭代格式，并且从该选代格式可知，求解非线性规划问题的关键在于：如何构造每一轮的搜索方向 $p^{(k)}$ 和步长因子 $λ_{k}$ 。

根据基本选代格式，求解非线性规划问题的选代算法的关键在于构造搜索方向，构造不同的搜索方向，就是不同的算法。但这些不同的搜索方向有一个共同的要求：就是当算法从 $x^{(k)}$ 产生了搜索方向 $p^{(k)}$ 和步长 $λ_{k}$ ，从而得到了 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ，要求 $f (x^{(k + 1)}) = f (x^{(k)} + λ_{k} p^{(k)}) < f (x^{(k)})$ ，也就是说，搜索方向 $p^{(k)}$ 应指向目标函数值减小的方向。

定义：设 $f : R^{n} \to R^{1}$ ，点 $\overline{x} \in R^{n}$ ，向量 $p \in R^{n}$ （ $p \neq = 0$ ），若存在一个数 $δ > 0$ ，使 $\forall λ \in (0, δ)$ 都有 $f (\overline{x} + λ p) < f (\overline{x})$ ，则称向量 $p$ 是 $f (x)$ 在点 $\overline{x}$ 处的下降方向。

一般来说， $f (x)$ 在点 $\overline{x}$ 处的下降方向不止一个，可能有无穷多个，那么如何在点 $\overline{x}$ 处选择使函数下降最快的方向是一个重要的问题。并且对于有约束的非线性规划问题 $min_{x \in H} f (x)$ ，算法不仅要保证搜索方向为下降方向，而且要保证 $x^{(k)} + λ_{k} p^{(k)}$ 仍在可行域 $H$ 内，因此对于有约束的非线性规划问题，要寻找可行下降方向。

计算的终止条件：常用的计算终止条件有：

当自变量的改变量充分小时终止计算 $∣∣ x^{(k + 1)} - x^{(k)} ∣∣ < ϵ_{1}$ ，或相继两次迭代的相对误差充分小时终止计算 $\frac{∣∣ x ^{(k + 1)} - x ^{(k)} ∣∣}{∣∣ x ^{(k)} ∣∣} < ϵ_{2}$ ;
当函数值的下降量充分小时终止计算 $f (x^{(k)}) - f (x^{(k + 1)}) < ϵ_{3}$ ，或相继两次迭代的相对误差充分小时终止计算 $\frac{f ( x ^{(k)} ) - f ( x ^{(k + 1)} )}{∣ f ( x ^{(k)} ) ∣} < ϵ_{4}$ ；
对于无约束优化问题，当函数梯度的模充分小时终止计算 $∣∣\nabla f (x^{(k + 1)}) ∣∣ < ϵ_{5}$ ；

非线性规划迭代算法的一般步骤：

（1）选取初始点 $x^{(0)}$ ，令 $k := 0$ ；

（2）构造搜索方向（下降方向或可行下降方向，构造的方向不同，就是不同的算法）；

（3）确定步长因子 $λ_{k}$ ，此时 $f (x^{(k)} + λ_{k} p^{(k)})$ 只是 $λ$ 的一元函数，求步长 $λ_{k}$ 就相当于求一元函数 $f (x^{(k)} + λ_{k} p^{(k)})$ 的极小点，即 $f (x^{(k)} + λ_{k} p^{(k)}) = min_{λ > 0} f (x^{(k)} + λ p^{(k)})$ ，称上述 $λ_{k}$ 为最优步长，并称求最优步长的过程为一维搜索；

（4）求出下一个迭代点 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ；若 $x^{(k + 1)}$ 已满足规定的终止条件，停止迭代，否则令 $k := k + 1$ ，转第二步。

4. 无约束问题-步长（一维搜索）

前面提到过，求解 $f (x^{(k)} + λ_{k} p^{(k)}) = min_{λ > 0} f (x^{(k)} + λ p^{(k)})$ 的过程称作一维搜索，因为 $λ_{k}$ 是 $φ (λ) = f (x^{(k)} + λ p^{(k)})$ 的极小点，故在理论上 $λ_{k}$ 应满足 $\frac{d φ ( λ )}{d λ} ∣_{λ = λ_{k}} = 0$ ，但是对许多问题来说，求导计算并不容易，且不便于利用计算机来解决，因此一般不是用求导的方法来求 $λ_{k}$ 的精确值，而是求它的近似值。求解 $λ_{k}$ 近似值的方法主要分为区间收缩法、函数逼近法。

后面介绍的黄金分割法属于区间收缩法，而牛顿法和抛物线法属于函数逼近法。

黄金分割法

黄金分割法也称0.618法，属于区间收缩法，其主要步骤为：①找出包含极小点的初始搜索区间；②按黄金分割点通过对函数值的比较不断缩小搜索区间（要保证极小点始终在搜索区间内）；③当区间长度小到精度范围之内时，可以粗略地认为区间端点的平均值即为极小点的近似值。

定义：设函数 $φ (λ) : R^{1} \to R^{1}$ ，闭区间 $[a_{0}, b_{0}] \subset R^{1}$ ，若存在一点 $λ^{*} \in [a_{0}, b_{0}]$ ，使 $φ (λ)$ 在 $[a_{0}, λ^{*}]$ 上严格递减，在 $[λ^{*}, b_{0}]$ 上严格递增，则称 $φ (λ)$ 为 $[a_{0}, b_{0}]$ 的单谷函数， $[a_{0}, b_{0}]$ 为 $φ (λ)$ 的单谷区间。

单谷函数及其性质：：若 $φ (λ)$ 是单谷区间 $[a_{0}, b_{0}]$ 上的单谷函数，极小点为 $λ^{*}$ ，在 $[a_{0}, b_{0}]$ 中任取两点 $a_{1}, b_{1}$ ，且 $a_{1} < b_{1}$ ，则

当 $φ (a_{1}) < φ (b_{1})$ 时， $λ^{*} \in [a_{0}, b_{1}]$ ；
当 $φ (a_{1}) > φ (b_{1})$ 时， $λ^{*} \in [a_{1}, b_{0}]$ ；

黄金分割法的步骤：

（1）在单谷区间 $[a_{0}, b_{0}]$ 中找两个试点 $x_{1}, x_{1}^{'}$ 后，比较 $φ (x_{1})$ 与 $φ (x_{1}^{'})$ 的大小，就可把搜索区域缩小至 $[a_{1}, b_{1}]$ ；

（2）在区间 $[a_{1}, b_{1}]$ 中继续找试点 $x_{2}, x_{2}^{'}$ ，比较 $φ (x_{2})$ 与 $φ (x_{2}^{'})$ 的大小，又可以把搜索区域从 $[a_{1}, b_{1}]$ 缩小至 $[a_{2}, b_{2}]$ ；

（3）重复上述过程，直到 $[a_{k}, b_{k}]$ 的区间长度足够小，并达到事先规定的精度时，取 $λ^{*} \approx \frac{1}{2} [a_{k} + b_{k}]$ 。

$x_{1}$ 和 $x_{1}^{'}$ 一般取黄金分割点及对称点。

黄金分割点及对称点：若记 $∣ a_{0} b_{0} ∣ = l$ ， $∣ a_{0} x_{1} ∣ = c$ ，则 $∣ x_{1} b_{0} ∣ = l - c$ ，若希望 $\frac{∣ a _{0} x _{1} ∣}{∣ a _{0} b _{0} ∣} = \frac{x _{1} b _{0}}{a _{0} x _{1}} \Leftrightarrow \frac{c}{l} = \frac{l - c}{l} \Leftrightarrow \frac{c}{l} = \frac{5 - 1}{2}$ ，因此 $x_{1} = a_{0} + 0.618 (b_{0} - a_{0})$ ， $x_{1}^{'} = a_{0} + 0.382 (b_{0} - a_{0})$ 。

取黄金分割点及对称点的优势：

若 $φ (x_{1}^{'}) < φ (x_{1})$ ，搜索区间被保留下来的是 $[a_{0}, x_{1}]$ ，则 $x_{1}^{'}$ 是 $[a_{0}, x_{1}]$ 区间的黄金分割点；

若 $φ (x_{1}) < φ (x_{1}^{'})$ ，搜索区间被保留下来的是 $[x_{1}^{'}, b_{0}]$ ，则其中的 $x_{1}$ 是 $[x_{1}^{'}, b_{0}]$ 区间的对称点。

黄金分割法的简化步骤：

（1）选取初始数据：确定初始搜索区间 $[a_{0}, b_{0}]$ ，给出最后的区间精度 $δ > 0$ ；

（2）计算初始的两个试点 $x_{1}, x_{1}^{'}$ ：在区间 $[a_{k}, b_{k}]$ 上黄金分割点用 $x_{k + 1}$ 表示，其对称点用 $x_{k + 1}^{'}$ 表示，计算 ${x_{1} = a_{0} + 0.618 (b_{0} - a_{0}) x_{1}^{'} = a_{0} + 0.382 (b_{0} - a_{0})$ ，并计算相应试点的函数值 $φ (x_{1})$ 和 $φ (x_{1}^{'})$ ，此时规定 $k := 0$ ；

（3）比较目标函数值：

当 $φ (x_{k + 1}^{'}) \leq φ (x_{k + 1})$ 时，取 ${a_{k + 1} = a_{k} b_{k + 1} = x_{k + 1}$ 以缩小搜索区间，此时：
- 若 $Δ = \frac{b _{k + 1} - a _{k + 1}}{b _{0} - a _{0}} < δ$ ，算法终止，则 $λ^{*} = \frac{1}{2} [a_{k + 1} + b_{k + 1}]$ ；
- 若 $Δ = \frac{b _{k + 1} - a _{k + 1}}{b _{0} - a _{0}} > δ$ ，则要计算新的试点 ${x_{k + 2} = x_{k + 1}^{'} x_{k + 2}^{'} = a_{k + 1} + 0.382 (b_{k + 1} - a_{k + 1})$ ，计算 $φ (x_{k + 2})$ 和 $φ (x_{k + 2}^{'})$ ，算法在 $k := k + 1$ 转至第三步。
当 $φ (x_{k + 1}^{'}) > φ (x_{k + 1})$ 时，取 ${a_{k + 1} = x_{k + 1}^{'} b_{k + 1} = b_{k}$ 以缩小搜索区间，此时：
- 若 $Δ = \frac{b _{k + 1} - a _{k + 1}}{b _{0} - a _{0}} < δ$ ，算法终止，则 $λ^{*} = \frac{1}{2} [a_{k + 1} + b_{k + 1}]$ ；
- 若 $Δ = \frac{b _{k + 1} - a _{k + 1}}{b _{0} - a _{0}} > δ$ ，则要计算新的试点 ${x_{k + 2}^{'} = x_{k + 1} x_{k + 2} = a_{k + 1} + 0.618 (b_{k + 1} - a_{k + 1})$ ，计算 $φ (x_{k + 2}^{'})$ 和 $φ (x_{k + 2})$ ，算法在 $k := k + 1$ 转至第三步。

例：用黄金分割法求 $min_{x \geq 0} φ (x) = x^{3} - 2 x + 1$ 的近似最优解，设初始的搜索区间为 $[0, 3]$ ，精度 $\frac{b _{k} - a _{k}}{b _{0} - a _{0}} \leq δ = 0.238$ .

解：初始数据题目已经给出；接下来计算初始的两个试点 $x_{1}, x_{1}^{'}$ ，计算 ${x_{1} = a_{0} + 0.618 (b_{0} - a_{0}) = 0 + 0.618 (3 - 0) = 1.854 x_{1}^{'} = a_{0} + 0.382 (b_{0} - a_{0}) = 0 + 0.382 (3 - 0) = 1.146$ ，计算得 $φ (x_{1}) = 3.6648$ 和 $φ (x_{1}^{'}) = 0.2131$ ，此时规定 $k := 0$ ；显然 $φ (x_{1}^{'}) \leq φ (x_{1})$ ，取 ${a_{1} = a_{0} = 0 b_{1} = x_{1} = 1.854$ ，此时 $Δ = \frac{b _{1} - a _{1}}{b _{0} - a _{0}} = \frac{1.854 - 0}{3 - 0} = 0.618 > 0.238 = δ$ ，精度不满足要求，故需继续寻找试点 ${x_{2} = x_{1}^{'} = 1.146 x_{2}^{'} = a_{1} + 0.382 (b_{1} - a_{1}) = 0 + 0.382 (1.854 - 0) = 0.708$ ，计算得 $φ (x_{2}) = 0.2131$ 和 $φ (x_{2}^{'}) = - 0.0611$ ，算法在 $k := k + 1$ 转至第三步。

显然 $φ (x_{2}^{'}) = - 0.0611 \leq 0.2131 = φ (x_{2})$ ，取 ${a_{2} = a_{1} = 0 b_{2} = x_{2} = 1.146$ ，此时 $Δ = \frac{b _{2} - a _{2}}{b _{0} - a _{0}} = \frac{1.146 - 0}{3 - 0} = 0.382 > 0.238 = δ$ ，精度不满足要求，故需继续寻找试点 ${x_{3} = x_{2}^{'} = 0.708 x_{3}^{'} = a_{2} + 0.382 (b_{2} - a_{2}) = 0 + 0.382 (1.146 - 0) = 0.438$ ，计算得 $φ (x_{3}) = 0.0611$ 和 $φ (x_{3}^{'}) = 0.2080$ ，算法在 $k := k + 1$ 转至第三步。

显然 $φ (x_{3}^{'}) = 0.2080 > - 0.0611 = φ (x_{3})$ ，取 ${a_{3} = x_{3}^{'} = 0.438 b_{3} = b_{2} = 1.146$ ，此时 $Δ = \frac{b _{3} - a _{3}}{b _{0} - a _{0}} = \frac{1.146 - 0.438}{3 - 0} = 0.236 > 0.238 = δ$ ，精度满足要求，因此近似最优解为 $x^{*} = \frac{b _{3} + a _{3}}{2} = \frac{1.146 + 0.438}{2} = 0.792$ ，相应的近似最优值为 $φ (x^{*}) = φ (0.792) \approx - 0.087$ 。

牛顿法

牛顿法是一种函数通近法，它的基本思想是：在极小点附近用二阶泰勒多项式近似代替目标函数 $f (x)$ ，从而求出 $f (x)$ 极小点的估计值。

如 $min f (x), x \in R^{1}$ ，现已有 $f (x)$ 极小点的第 $k$ 级估计值 $x^{(k)}$ ，在 $x^{(k)}$ 点将 $f (x)$ 作二阶泰勒展开： $f (x) = f (x^{(k)}) + f^{'} (x^{(k)}) (x - x^{(k)}) + \frac{1}{2} f^{''} (x^{(k)}) (x - x^{(k)})^{2} + o (∣ x - x^{(k)} ∣^{2})$ ，记 $φ (x) = f (x^{(k)}) + f^{'} (x^{(k)}) (x - x^{(k)}) + \frac{1}{2} f^{''} (x^{(k)}) (x - x^{(k)})^{2}$ ，则在 $x^{(k)}$ 附近可用 $φ (x)$ 来近似 $f (x)$ ，即 $φ (x) \approx f (x)$ ，因此可以用 $φ (x)$ 的极小点来近似 $f (x)$ 的极小点（假定 $f (x)$ 的极小点在 $x^{(k)}$ 附近）。

首先要找出 $φ (x)$ 的驻点 $x^{(k + 1)}$ ， $φ^{'} (x) = f^{'} (x^{(k)}) + f^{''} (x^{(k)}) (x - x^{(k)})$ ，令 $φ^{'} (x) = 0$ ，得驻点为 $x^{(k + 1)} = x^{(k)} - \frac{f ^{'} ( x ^{(k)} )}{f ^{''} ( x ^{(k)} )}$ ，以 $φ (x)$ 的驻点 $x^{(k + 1)}$ 作为 $f (x)$ 在 $x^{(k)}$ 附近的极小点的第 $k + 1$ 级估计值。

牛顿法的步骤：

（1）给定初始点 $x^{(1)}$ ，给定精度 $ϵ > 0$ ，令 $k := 1$ ；

（2）计算 $f^{'} (x^{(k)})$ 及 $f^{''} (x^{(k)})$ ：若 $∣ f^{'} (x^{(k)}) ∣ < ϵ$ ，则停止迭代，输出近似极小点 $x^{(k)}$ ，否则进行第三步；

（3）用迭代公式计算 $x^{(k + 1)}$ ： $x^{(k + 1)} = x^{(k)} - \frac{f ^{'} ( x ^{(k)} )}{f ^{''} ( x ^{(k)} )}$ ，令 $k := k + 1$ ，返回第二步。

例：用牛顿法求函数 $min f (x) = \int_{0}^{x} arctan t d t$ 的极小点，取 $x^{(1)} = 1$ ， $ϵ = 0.01$ .

解： $f^{'} (x) = arctan x$ ， $f^{''} (x) = \frac{1}{( 1 + x ^{2} )}$

$k$ $x^{(k)}$ $f^{'} (x^{(k)})$ $\frac{1}{f ^{''} ( x ^{(k)} )}$ $ϵ$ $x^{(k + 1)}$

1 1 0.7854 2 0.7854 -0.5708

2 -0.5708 -0.5187 1.3258 0.5187 0.1169

3 0.1169 0.1164 1.0137 0.1164 -0.00106

4 -0.00106 0.0010

$k$	$x^{(k)}$	$f^{'} (x^{(k)})$	$\frac{1}{f ^{''} ( x ^{(k)} )}$	$ϵ$	$x^{(k + 1)}$
1	1	0.7854	2	0.7854	-0.5708
2	-0.5708	-0.5187	1.3258	0.5187	0.1169
3	0.1169	0.1164	1.0137	0.1164	-0.00106
4	-0.00106	0.0010

加步探索法

黄金分割法及其他一维搜索方法都要事先给定一个包含极小点的初始搜索区间，加步探索法能解决这个问题。

加步探索法本身是一种区间试探法，其主要思路就是从一点出发，按一定的步长，试图确定出函数值呈现“高-低-高”的三点。首先从一个方向去找，若不成功，就退回来，再沿相反方向寻找，若方向正确，则加大步长进行探索，最终找到 $x_{1}, x_{2}, x_{3}$ 三点，并满足 $x_{1} < x_{2} < x_{3}$ ， $f (x_{1}) > f (x_{2})$ ， $f (x_{2}) < f (x_{3})$ 。

加步探索法的步骤：

（1）给定初始点 $x_{1}$ ，初始步长 $h_{0} > 0$ ；

（2）用加倍步长的外推法找出初始区间，由初始点 $x_{1}$ 向某个方向，比如 $x$ 向增大方向走一步，步长为 $h_{0}$ ，得 $x_{2} = x_{1} + h_{0}$ ，计算 $f (x_{1}), f (x_{2})$ 并比较函数值的大小：

若 $f (x_{2}) < f (x_{1})$ ，说明方向选对，则步长加倍，继续往前走，有 $x_{3} = x_{2} + 2 h_{0}$ ，若仍有 $f (x_{3}) < f (x_{2})$ ，则将步长再加倍，有 $x_{4} = x_{3} + 4 h_{0}$ ，直到 $x_{k}$ 点函数值刚刚变为增加为止，则得三点 $x_{k - 2} < x_{k - 1} < x_{k}$ ，且相应的函数值呈“高-低-高”的形式，即 $f (x_{k - 2}) > f (x_{k - 1})$ ， $f (x_{k - 1}) < f (x_{k})$ ，故极小点必在区间 $[x_{k - 2}, x_{k}]$ 上。
若 $f (x_{2}) > f (x_{1})$ ，说明方向选错，因此仍由 $x_{1}$ 点出发向相反方向走一步，有 $x_{3} = x_{2} - h_{0}$ ，若此时有 $f (x_{3}) < f (x_{2})$ ，说明方向对，仍需在此方向上加步迈进，取 $x_{4} = x_{3} - 2 h_{0}$ ，若仍有 $f (x_{4}) < f (x_{3})$ ，再加倍步长继续同方向迈出，直到函数值刚刚变为增加为止，这样就得到了三点 $x_{k} < x_{k - 1} < x_{k - 2}$ ，且 $f (x_{k}) > f (x_{k - 1})$ ， $f (x_{k - 1}) < f (x_{k - 2})$ ，故极小点必在 $[x_{k}, x_{k - 2}]$ 上。

（3）再进一步缩小搜索区间，在上述三个点 $x_{k - 2}, x_{k - 1}, x_{k}$ 之间，步长是逐次加倍的，故有 $x_{k} - x_{k - 1} = 2 (x_{k - 1} - x_{k - 2})$ ，若在 $x_{k - 1}$ 与 $x_{k}$ 之间再插入一点 $x_{k + 1}$ ，令 $x_{k + 1} = \frac{1}{2} (x_{k - 1} + x_{k})$ ，得到等间距的四个点 $x_{k - 2}, x_{k - 1}, x_{k + 1}, x_{k}$ ，比较 $f (x_{k - 2}), f (x_{k - 1}), f (x_{k + 1}), f (x_{k})$ ，令函数值最小的点为 $x_{2}$ ，它的左、右邻点分为称为 $x_{1}$ 与 $x_{3}$ ，则得到更小的搜索区间 $[x_{1}, x_{3}]$ ，这三点有 $x_{1} < x_{2} < x_{3}$ ，且 $f (x_{1}) > f (x_{2})$ ， $f (x_{2}) < f (x_{3})$ 。

例：用加步探索法确定 $min_{x \geq 0} f (x) = x^{3} - 2 x + 1$ 的搜索区间，要求选取 $x_{1} = 0, h_{0} = 1$ ，步长的倍数 $α = 2$ .

解：取 $x_{1} = 0$ ，令 $x_{2} = x_{1} + h_{0} = 0 + 1 = 1$ ，由于 $f (x_{1}) = 1 > f (x_{2}) = 0$ ，说明方向正确，取 $x_{3} = x_{2} + 2 h_{0} = 1 + 2 = 3$ ，则 $f (x_{3}) = 22 > f (x_{2}) = 0$ ，即对 $x_{1}, x_{2}, x_{3}$ 三点有 $x_{1} < x_{2} < x_{3}$ 且 $f (x_{1}) > f (x_{2})$ ， $f (x_{2}) < f (x_{3})$ ，在 $x_{2}$ 与 $x_{3}$ 间插入点 $x_{4} = \frac{1}{2} (x_{2} + x_{3}) = 2$ ，且 $f (x_{4}) = 5$ ，比较 $f (x_{1}), \dots, f (x_{4})$ 知， $f (x_{2}) = 0$ 为最小值，故 $[x_{1}, x_{4}] = [0, 2]$ 为初始搜索区间。

抛物线法

抛物线法的步骤：

（1）在极小点附近，用二次三项式 $φ (x)$ 逼近目标函数 $f (x)$ ，若 $f (x)$ 有 $x_{1} < x_{2} < x_{3}$ 这三个点。且满足 $f (x_{1}) > f (x_{2})$ ， $f (x_{2}) < f (x_{3})$ ，令二次三项式 $φ (x) = a x^{2} + b x + c$ ，设 $⎩ ⎨ ⎧ φ (x_{1}) = a x_{1}^{2} + b x_{1} + c = f (x_{1}) φ (x_{2}) = a x_{2}^{2} + b x_{2} + c = f (x_{2}) φ (x_{3}) = a x_{3}^{2} + b x_{3} + c = f (x_{3}) \Rightarrow a, b, c \Rightarrow φ (x)$ ；

（2）解出 $φ (x)$ 的表达式后，通过 $φ^{'} (x) = 2 a x + b = 0$ 求得 $φ (x)$ 的驻点 $\overline{x} = - \frac{b}{2 a} = \frac{1}{2} \frac{( x _{2}^{2} - x _{3}^{2} ) f ( x _{1} ) + ( x _{3}^{2} - x _{1}^{2} ) f ( x _{2} ) + ( x _{1}^{2} - x _{2}^{2} ) f ( x _{3} )}{( x _{2} - x _{3} ) f ( x _{1} ) + ( x _{3} - x _{1} ) f ( x _{2} ) + ( x _{1} - x _{2} ) f ( x _{3} )}$ ，用抛物线 $φ (x)$ 的极小点 $\overline{x}$ 来近似 $f (x)$ 的极小点 $x^{(k)}$ ，即 $x^{(k)} = \overline{x}$ ；

（3）然后从 $x_{1}, x_{2}, x_{3}, x^{(k)}$ 中选出三个点，选择的原则是以目标函数值最小的点作为新的 $x_{2}$ 点，其左右两个邻点分别作为新的 $x_{1}$ 及 $x_{3}$ 点，将新得到的 $x_{1}, x_{2}, x_{3}$ 点及新的函数值 $f (x_{1}), f (x_{2}), f (x_{3})$ 代入公式，可求出极小点新的估计值 $x^{(k + 1)}$ ，继续重复该过程，可以得到一个点列 ${x^{(k)}}$ ，这个点列可收敛于原问题的极小点。

注意：三个初始点 $x_{1}, x_{2}, x_{3}$ 的函数值须满足“高-低-高”的形式，这样才能保证二次三项式 $φ (x)$ 的二次项系数 $a > 0$ ，且 $f (x)$ 及 $φ (x)$ 的极小点都在区间 $[x_{1}, x_{3}]$ 之内，而寻找初始的这三点，可以用加步探索法。

5.无约束问题-搜索方向

前面介绍了一维搜索的几种方法，本节介绍构造无约束问题搜索方向的方法：

一类是在计算过程中只用到目标函数值，不用计算导数，通常称为直接搜索法；
一类是要用到目标函数的导数计算，称为解析法。

后面要介绍的变量轮换法属于直接法，而最速下降法、牛顿法、共轭方向法等属于解析法。

变量轮换法

变量轮换法是把多变量函数的优化问题转化为一系列单变量函数的优化问题来求解。它的基本思路是：认为有利的搜索方向是各坐标轴的方向，因此它轮流按各坐标轴的方向搜索最优点。

从某一个给定点出发，按第 $i$ 个坐标轴 $x_{i}$ 的方向搜索时,在 $n$ 个变量中，只有单个变量 $x_{i}$ 在变化，其余 $n - 1$ 个变量都取给定点的值保持不变。依次从 $x_{1}$ 到 $x_{n}$ 做 $n$ 次单变量的一维搜索，完成了变量轮换法的依次选代.

变量轮换法的步骤：

（1）给定初始点 $x^{(1)} \in R^{n}$ ；

（2）从 $x^{(1)}$ 出发，先沿第1个坐标轴方向 $e_{1}$ 进行一维搜索，记求得的最优步长为 $λ_{1}$ ，则可得到新点 $x^{(2)}$ ，即 ${x^{(2)} = x^{(1)} + λ_{1} e_{1} f (x^{(2)}) = f (x^{(1)} + λ_{1} e_{1}) = min_{λ} f (x^{(1)} + λ e_{1})$ ；再以 $x^{(2)}$ 为起点，沿第2个坐标轴方向 $e_{2}$ 进行一维搜索，求得的最优步长为 $λ_{2}$ ，则可得到新点 $x^{(3)}$ ， ${x^{(3)} = x^{(2)} + λ_{2} e_{2} f (x^{(3)}) = f (x^{(2)} + λ_{2} e_{2}) = min_{λ} f (x^{(2)} + λ e_{2})$ ；依此类推直至 $n$ 个坐标轴方向全部搜索一遍，最后可得到点 $x^{(n + 1)}$ ， ${x^{(n + 1)} = x^{(n)} + λ_{n} e_{n} f (x^{(n + 1)}) = f (x^{(n)} + λ_{n} e_{n}) = min_{λ} f (x^{(n)} + λ e_{n})$ ，此时完成了变量轮换法的一次迭代；

（3）令 $x^{(1)} := x^{(n + 1)}$ ，返回第二步，即以 $x^{n + 1}$ 点作为起点，再沿着各坐标轴方向依次进行一维搜索，一直到所有最新点 $x^{(n + 1)}$ 满足给定的精度为止。

例：用变量轮换法求解 $min f (x) = 3 x_{1}^{2} + 2 x_{2}^{2} + x_{3}^{2}$ ，已知初始点 $x^{(1)} = (1, 2, 3)^{T}$ ，当 $∣∣ x^{(n + 1)} - x^{(1)} ∣∣ < 0.01$ 时停止迭代.

解：第一次迭代：（1）先从初始点 $x^{(1)}$ 出发，沿 $x_{1}$ 轴方向 $e_{1}$ 进行一维搜索： $x^{(1)} + λ e_{1} = 123 + λ 100 = 1 + λ 23$ ， $f (x^{(1)} + λ e_{1}) = 3 (1 + λ)^{2} + 2 \times 2^{2} + 3^{2} = 3 (1 + λ)^{2} + 17 = φ_{1} (λ)$ ，由 $φ^{'} (λ) = 6 λ + 6 = 0$ 求得步长 $λ_{1} = - 1$ ，故 $x^{(2)} = 023$ ；（2）然后从 $x^{(2)}$ 出发，沿 $x_{2}$ 轴方向 $e_{2}$ 进行一维搜索： $x^{(2)} + λ e_{2} = 023 + λ 010 = 0 2 + λ 3$ ， $f (x^{(2)} + λ e_{2}) = 2 (2 + λ)^{2} + 9 = φ_{2} (λ)$ ，求得步长 $λ_{2} = - 2$ ，故 $x^{(3)} = 003$ ；（3）再从 $x^{(3)}$ 出发，沿 $x_{3}$ 轴方向 $e_{3}$ 进行一维搜索， $x^{(3)} + λ e_{3} = 003 + λ 001 = 00 3 + λ$ ， $f (x^{(3)} + λ e_{3}) = (3 + λ)^{2}$ ，求得步长 $λ_{3} = - 3$ ，故 $x^{(4)} = 000$ ；因为 $∣∣ x^{(1)} - x^{(4)} ∣∣ > 0.01$ ，故令 $x^{(1)} := x^{(4)}$ ，再进行新一轮迭代。

第二次迭代：（1） $x^{(1)} + λ e_{1} = 000 + λ 100 = λ 00$ ，由 $f (x^{(1)} + λ e_{1}) = 3 λ^{2}$ ，求得步长 $λ_{1} = 0$ ，故 $x^{(2)} = 000$ ；（2） $x^{(2)} + λ e_{2} = 000 + λ 010 = 0 λ 0$ ，由 $f (x^{(2)} + λ e_{2}) = 2 λ^{2}$ ，求得步长 $λ_{2} = 0$ ，故 $x^{(3)} = 000$ ；（3）同理， $x^{(3)} = 000$ ；因为 $∣∣ x^{(1)} - x^{(4)} ∣∣ = 0 < 0.001$ ，故 $x^{(4)} = (0, 0, 0)^{T}$ 为极小点。

变量轮换法的缺点是收敛速度较慢，搜索效率较低。只有对那些具有特殊结构的函数使用起来尚好，但变量轮换法的基本思路非常简单：沿各坐标轴的方向进行搜索。

此方法把一维搜索放到了确定搜索方向的前面，并没有按照前面非线性规划基本思路里的顺序来进行。

最速下降法

最速下降法又称梯度法，它是许多非线性规划算法的一个基础。

最速下降法的原理：考虑问题 $min f (x), x \in R^{n}, f (x) \in R^{1}$ ，假设式中 $f (x)$ 有一阶连续偏导数，有极小点 $x^{*}$ ，若现已求得 $x^{*}$ 的第 $k$ 此近似值 $x^{(k)}$ ，欲求得度 $k + 1$ 次近似值 $x^{(k + 1)}$ ，需选定搜索方向 $p^{(k)}$ 。设 $x = x^{(k)} + λ p^{(k)}$ ，对 $f (x)$ 在 $x^{(k)}$ 点作一阶泰勒展开 $f (x) = f (x^{(k)} + λ p^{(k)}) = f (x^{(k)}) + λ \nabla f (x^{(k)})^{T} p^{(k)} + o (∣∣ λ p^{(k)} ∣∣)$ ，其中 $o (∣∣ λ p^{(k)} ∣∣) = o (λ)$ 是比 $λ$ 高阶的无穷小量，而 $∣∣ p^{(k)} ∣∣ = 1$ ，故 $f (x^{(k + 1)}) - f (x^{(k)}) \approx λ \nabla f (x^{(k)})^{T} p^{(k)}$ ，由于要找极小点，所以 $f (x^{(k + 1)})$ 比 $f (x^{(k)})$ 小，所以左边一定是负数，而右边的步长 $λ > 0$ ，所以 $\nabla f (x^{(k)})$ 与 $p^{(k)}$ 夹角的 $cos$ 值一定小于零，因为 $\nabla f (x^{(k)})^{T} p^{(k)} = ∣∣\nabla f (x^{(k)}) ∣∣ ∣∣ p^{(k)} ∣∣ cos θ$ ，其中 $θ$ 为向量 $\nabla f (x^{(k)})$ 与向量 $p^{(k)}$ 之间的夹角，显然只有当 $θ = 180°$ （即 $p^{(k)}$ 的方向与 $\nabla f (x^{(k)})$ 相反）时目标函数值下降最快，因为 $\nabla f (x^{(k)})^{T} p^{(k)} = ∣∣\nabla f (x^{(k)}) ∣∣ ∣∣ p^{(k)} ∣∣ cos θ = ∣∣\nabla f (x^{(k)}) ∣∣ \cdot 1 \cdot cos 180 = - ∣∣\nabla f (x^{(k)}) ∣∣ = - \nabla f (x^{(k)})^{T} \nabla f (x^{(k)})$ ，故 $p^{(k)} = - \nabla f (x^{(k)})$ 。

最速下降法的步骤：

（1）给定初始数据：起始点 $x^{(0)}$ ，给定终止误差 $ϵ > 0$ ，令 $k := 0$ ；

（2）求梯度向量模的值 $∣∣\nabla f (x^{(k)})^{T} ∣∣$ ：①若 $∣∣\nabla f (x^{(k)}) ∣∣ < ϵ$ ，停止计算，此时 $x^{(k)}$ 就是极小点的近似值；②若 $∣∣\nabla f (x^{(k)})^{T} ∣∣ > ϵ$ ，转下一步；

（3）构造负梯度方向： $p^{(k)} = - \nabla f (x^{(k)})$ ；

（4）进行一维搜索：无论用哪种方法求得 $λ_{k}$ 后，令 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)} = x^{(k)} - λ_{k} \nabla f (x^{(k)})$ ，令 $k := k + 1$ ，转第二步。

对于一些简单的函数，也可以通过直接求导获得最优步长因子；当搜索方向为最速下降方向（即 $- \nabla f (x^{(k)})$ ）时，以 $x^{(k)}$ 为起点的最优步长公式为 $λ_{k} = \frac{\nabla f ( x ^{(k)} ) ^{T} \nabla f ( x ^{(k)} )}{\nabla f ( x ^{(k)} ) ^{T} H ( x ^{(k)} ) \nabla f ( x ^{(k)} )}$ （其中 $H (x^{(k)})$ 是黑塞阵）。

最优步长的推导：设 $f (x)$ 有二阶连续偏导数，将它在 $x^{(k)}$ 点作二阶泰勒展开： $f (x^{(k)} - λ \nabla f (x^{(k)})) = f (x^{(k)}) + \nabla f (x^{(k)})^{T} (- λ \nabla f (x^{(k)})) + \frac{1}{2} (- λ \nabla f (x^{(k)}))^{T} H (x^{(k)}) (- λ \nabla f (x^{(k)})) + o (∣∣ λ \nabla f (x^{(k)}) ∣ ∣^{2})$ ，将上式中的主要部分记为 $H (λ)$ ，即 $H (λ) = f (x^{(k)}) - λ \nabla f (x^{(k)})^{T} \nabla f (x^{(k)}) + \frac{1}{2} λ^{2} \nabla f (x^{(k)})^{T} H (x^{(k)}) \nabla f (x^{(k)})$ ，函数 $H (λ)$ 的唯一极值点即为最优步长。

例：用最速下降法求下述函数的极小点 $f (x) = (x_{1} - 1)^{2} + (x_{2} - 1)^{2}$ ，初始点 $x^{(0)} = (0, 0)^{T}$ ， $ϵ = 0.01$ .

解：梯度向量模的值 $\nabla f (x) = [2 x_{1} - 2 2 x_{2} - 2]$ ，在 $x^{(0)} = [00]$ 有 $\nabla f (x^{(0)}) = [- 2 - 2]$ ，且 $∣∣\nabla f (x^{(0)}) ∣∣ = 8 > ϵ$ ，精度不满足要求，要进行搜索，先确定搜索方向 $p^{(0)} = - \nabla f (x^{(0)}) = - [- 2 - 2] = [22]$ ，再确定步长，这里使用前面的公式计算， $H (x^{(0)}) = \nabla (\nabla f (x)) = [2002]$ ，故 $λ_{0} = \frac{\nabla f ( x ^{(0)} ) ^{T} \nabla f ( x ^{(0)} )}{\nabla f ( x ^{(0)} ) ^{T} H ( x ^{(0)} ) \nabla f ( x ^{(0)} )} = \frac{[ - 2 - 2 ] [ - 2 - 2 ]}{[ - 2 - 2 ] [ 2 0 0 2 ] [ - 2 - 2 ]} = \frac{1}{2}$ ，因此下一个近四点为 $x^{(1)} = x^{(0)} + λ_{0} p^{(0)} = [00] + \frac{1}{2} [22] = [11]$ ，此时 $∣∣\nabla f (x^{(1)}) ∣∣ = ∣∣ [00] ∣∣ = 0 < ϵ = 0.01$ ，故 $f (x)$ 的极小点为 $x^{*} = x^{(1)} = [11]$ .

最速下降法对初始点的选择要求不高，每一轮选代工作量较少，它可以比较快地从初始点达到极小点附近。但在接近极小点时，最速下降法却会出现锯齿现象，选代产生的点列 ${x^{(k)}}$ 所循路径是之字形的，每次选代移动的步长很小，收敛速度很慢。因此常常将梯度法与其他方法结合起来使用（比如与牛顿法结合），前期用最速下降法，而当接近极小点时改用牛顿法。

牛顿法

牛顿法是一种函数通近法，它的基本思想是：在极小点附近用 $x^{(k)}$ 点的二阶泰勒多项式来近似目标函数 $f (x)$ ，并用选代点 $x^{(k)}$ 处指向近似二次函数的极小点方向作为搜索方向 $p^{(k)}$ 。

牛顿法的原理：设规划问题 $min f (x), x \in R^{n}$ ，其中 $f (x)$ 在点 $x^{(k)}$ 处具有连续偏导数，黑塞阵 $\nabla^{2} f (x^{(k)})$ 正定， $f (x) = f (x^{(k)}) + \nabla f (x^{(k)})^{T} (x - x^{(k)}) + \frac{1}{2} (x - x^{(k)})^{T} \nabla^{2} f (x^{(k)}) (x - x^{(k)}) + o (∣∣ x - x^{(k)} ∣ ∣^{2})$ ，记上式中的主要部分为 $Q (x) = f (x^{(k)}) + \nabla f (x^{(k)})^{T} (x - x^{(k)}) + \frac{1}{2} (x - x^{(k)})^{T} \nabla^{2} f (x^{(k)}) (x - x^{(k)})$ ，在 $x^{(k)}$ 附近可用 $Q (x)$ 来近似 $f (x)$ ，故可用 $Q (x)$ 的极小点来近似 $f (x)$ 的极小点，先求出 $Q (x)$ 的驻点： $\nabla Q (x) = \nabla f (x^{(k)}) + \nabla^{2} f (x^{(k)}) (x - x^{(k)})$ ，由 $\nabla Q (x) = 0$ 得 $Q (x)$ 的平稳点 $x^{(k + 1)} = x^{(k)} - [\nabla^{2} f (x^{(k)})]^{- 1} \nabla f (x^{(k)})$ ，故 $p^{(k)} = x^{(k + 1)} - x^{(k)} = - [\nabla^{2} f (x^{(k)})]^{- 1} \nabla f (x^{(k)})$ （由 $x^{(k)}$ 指向 $x^{(k + 1)}$ 的向量就是 $x^{(k + 1)} - x^{(k)}$ ）， $λ_{k} = 1$ （对比上式与基本迭代格式中的 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ 得出步长为1）。

牛顿法的步骤：

（1）选取初始数据：起始点 $x^{(0)}$ ，终止条件 $ϵ > 0$ ，令 $k := 0$ ；

（2）求梯度向量 $\nabla f (x^{(k)})$ ，并计算 $∣∣\nabla f (x^{(k)}) ∣∣$ ：若 $∣∣\nabla f (x^{(k)}) ∣∣ < ϵ$ ，停止计算，此时 $x^{(k)}$ 为极小点；否则转下一步；

（3）构造牛顿方向： $p^{(k)} = - [\nabla^{2} f (x^{(k)})]^{- 1} \nabla f (x^{(k)})$ ；

（4）算法迭代：计算 $x^{(k + 1)} = x^{(k)} + p^{(k)}$ ，以 $x^{(k + 1)}$ 作为下一轮迭代点，令 $k := k + 1$ ，转第二步。

例：用牛顿法求 $f (x) = x_{1}^{2} + 25 x_{2}^{2}$ 的极小点，其中初始点为 $x^{(0)} = (2, 2)^{T}$ ， $ϵ = 1 0^{- 6}$ .

解：求梯度和黑塞阵 $\nabla f (x) = [2 x_{1} 50 x_{2}]$ ， $\nabla^{2} f (x) = [20050]$ ，于是 $\nabla f (x^{(0)}) = [4100]$ ，且 $\nabla^{2} f (x^{(0)}) = [20050]$ 是正定矩阵，故 $[\nabla^{2} f (x^{(0)})]^{- 1} = [\frac{1}{2} 0 0 \frac{1}{50}]$ ，牛顿方向为 $p^{(0)} = - [\nabla^{2} f (x^{(0)})]^{- 1} \nabla f (x^{(0)}) = [- 2 - 2]$ ，于是 $x^{(1)} = x^{(0)} + p^{(0)} = [22] + [- 2 - 2] = [00]$ ，此时相应的梯度为 $\nabla f (x^{(1)}) = [00]$ ，且 $∣∣\nabla f (x^{(1)}) ∣∣ < ϵ$ ，故 $x^{(1)} = [00]$ 是所求的极小点。

牛顿法在极小点附近收敛性很好、速度快，而最速下降法在极小点附近收敛速度很差。牛顿法要求初始点离最优解不远，若初始点选得离最优解太远时，牛顿法并不能保证其收敛，甚至也不是下降方向，因此经常是将牛顿法与最速下降法结合起来使用，前期用最速下降法，当选代到一定程度后改用牛顿法，可得到较好的效果。

修正牛顿法

为了克服牛顿法的缺点，人们保留了从牛顿法中选取牛顿方向作为搜索方向，摒弃其步长恒取1的做法，而用一维搜索确定最优步长来构造算法，这种方法通常称做修正牛顿法。

修正牛顿法的步骤：

（1）选取初始数据：初始点 $x^{(0)}$ ，终止条件 $ϵ > 0$ ，令 $k := 0$ ；

（2）求梯度向量 $\nabla f (x^{(k)})$ ，若 $∣∣\nabla f (x^{(k)}) ∣∣ < ϵ$ ，停止计算，此时 $x^{(k)}$ 为极小点；否则转下一步；

（3）构造牛顿方向： $p^{(k)} = - [\nabla^{2} f (x^{(k)})]^{- 1} \nabla f (x^{(k)})$ ；

（4）进行一维搜索：求 $λ_{k}$ ，使 $f (x^{(k)} + λ_{k} p^{(k)}) = min_{λ \geq 0} f (x^{(k)} + λ p^{(k)})$ ，令 $x^{(x + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ，令 $k := k + 1$ ，转第二步。

例：用修正牛顿法求 $f (x) = x_{1} - x_{2} + 2 x_{1}^{2} + 2 x_{1} x_{2} + x_{2}^{2}$ 的极小点，初始点 $x^{(0)} = (0, 0)^{T}$ ， $ϵ = 1 0^{- 6}$ .

解：求梯度和黑塞阵 $\nabla f (x) = [1 + 4 x_{1} + 2 x_{2} - 1 + 2 x_{1} + 2 x_{2}]$ ， $\nabla^{2} f (x) = [4222]$ ，在初始点 $x^{(0)}$ 处有 $\nabla f (x^{(0)}) = [1 - 1]$ ， $\nabla^{2} f (x^{(0)}) = [4222]$ ，牛顿方向为 $p^{(0)} = - [\nabla^{2} f (x^{(0)})]^{- 1} \nabla f (x^{(0)}) = - [\frac{1}{2} - \frac{1}{2} - \frac{1}{2} 1] [1 - 1] = [- 1 \frac{3}{2}]$ ，然后沿牛顿方向作一维搜索： $x^{(1)} = x^{(0)} + λ p^{(0)} = [- λ \frac{3}{2} λ]$ ， $f (x^{(0)} + λ p^{(0)}) = \frac{5}{4} λ^{2} - \frac{5}{2} λ$ ，令 $f^{'} (x^{(0)} + λ p^{(0)}) = 0$ ，得最优步长 $λ_{0} = 1$ ，然后计算在新迭代点处的梯度 $\nabla f (x^{(1)})$ ：易知 $\nabla f (x^{(1)}) = [00]$ ， $∣∣\nabla f (x^{(1)}) ∣∣ = 0 < ϵ$ ，即 $x^{(1)}$ 为所求极小点。

修正牛顿法虽然比牛顿法有了改进，但也有不足之处：一是要计算黑塞阵及其逆矩阵，工作量较大；二是要求选代点 $x^{(k)}$ 处的黑塞阵正定，可是有些函数未必能满足，因而牛顿方向未必是下降方向，也有一些函数的黑塞阵不可逆，因此不能确定出后继点，这些都是修正牛顿法与牛顿法的局限性。

6. 约束极值问题-最优性条件

求解带有约束的极值问题常用的方法有：

将约束问题化为一个或一系列的无约束极值问题；
将非线性规划化为近似的线性规划；
将复杂的问题变为较简单问题等等。

考虑只含不等式约束条件下求极小值问题的数学模型： $min f (x)$ ， $s . t . g_{i} (x) \geq 0, i = 1, 2, \dots, m$ ，其中可行域 $H = {x ∣ x \in R^{n}, 且 g_{i} (x) \geq 0, i = 1, 2, \dots, m}$ ：

定义：设 $f : R^{n} \to R^{1}$ ，点 $\overline{x} \in R^{n}$ ，向量 $p \in R^{n}$ （ $p \neq = 0$ ），若存在一个数 $δ > 0$ ，使 $\forall λ \in (0, δ)$ ，都有 $f (\overline{x} + λ p) < f (\overline{x})$ ，则称向量 $p$ 是 $f (x)$ 在点 $\overline{x}$ 处的下降方向。

定理：设 $f : R^{n} \to R^{1}$ 在点 $\overline{x}$ 处可微，若存在向量 $p = x - \overline{x} \in R^{n}$ 使得 $\nabla f (\overline{x})^{T} p < 0$ ，则存在数 $δ > 0$ ，使得对每个 $λ \in (0, δ)$ 都有 $f (x + λ \overline{x}) < f (\overline{x})$ 。若 $f (x)$ 在点 $\overline{x}$ 处可微，当向量 $p$ 满足 $\nabla f (\overline{x})^{T} p < 0$ ，则 $p$ 就是 $f (x)$ 在点 $\overline{x}$ 处的下降方向。

定义：设 $\overline{x} \in H$ ，若有 $g_{i} (\overline{x}) = 0$ ，则称不等式约束 $g_{i} (x) \geq 0$ 为点 $\overline{x}$ 处起作用的约束，且将下标集 $I (x) = {i ∣ g_{i} (\overline{x}) = 0, 1 \leq i \leq m}$ 称为点 $\overline{x}$ 的起作用下标集。若有 $g_{i} (\overline{x}) > 0$ ，则称不等式约束 $g_{i} (x) \geq 0$ 为点 $\overline{x}$ 的不起作用约束。（显然等式约束 $h_{j} (x) = 0$ 都是起作用约束）

设 $p$ 是点 $\overline{x}$ 处的一个可行方向，则存在实数 $δ > 0$ ，使得对任意的 $λ \in [0, δ]$ ，都有 $\overline{x} + λ p \in H$ ，即 $g_{i} (\overline{x} + λ p) \geq 0, i = 1, 2, \dots, m$ ，将 $g_{i} (\overline{x} + λ p)$ 在 $\overline{x}$ 处作泰勒展开，得 $g_{i} (\overline{x} + λ p) = g_{i} (x) + \nabla g_{i} (\overline{x})^{T} λ p + o (∣∣ λ p ∣∣)$ ：

对于起作用的约束，因为 $g_{i} (\overline{x}) = 0$ ，故当 $λ > 0$ 足够小时， $\nabla g_{i} (x)^{T} p > 0 \Rightarrow g_{i} (\overline{x} + λ p) \geq 0, i \in I (\overline{x})$ ；

对于不起作用的约束，因为 $g_{i} (\overline{x}) > 0$ ，故当 $λ > 0$ 足够小时，由于函数 $g_{i} (\overline{x})$ （ $i \in / I (\overline{x})$ ）的连续性，仍有 $g_{i} (\overline{x} + λ p) \geq 0, i \in / I (\overline{x})$ 。

定义：对于非线性规划问题，如果可行点 $\overline{x}$ 处，各起作用约束的梯度向量线性无关，则称 $\overline{x}$ 是约束条件的一个正则点。

定义：将既是点 $\overline{x}$ 的下降方向又是点 $\overline{x}$ 处的可行方向的向量 $p$ 称为点 $\overline{x}$ 处的可行下降方向，即有 ${\nabla f (\overline{x})^{T} p < 0 \nabla g_{i} (\overline{x})^{T} p > 0, i \in I (\overline{x})$ 。

容易验证，点 $\overline{x}$ 的可行下降方向 $p$ 与该点处的目标函数负梯度向量之间夹角成锐角，与该点处所有起作用约束的梯度向量之间夹角也都成锐角。

定理：设 $x^{*} \in H$ ， $f (x)$ 在 $x^{*}$ 处可微，若 $x^{*}$ 是局部最优解，则 $x^{*}$ 点处必不存在可行下降方向。

库恩-塔克条件（Kuhn-Tucker条件）是确定某点为局部最优解的一阶必要条件，只要是最优点就必满足这个条件。但一般来说它不是充分条件，即满足这个条件的点并非最优点，但是对于凸规划，库恩-塔克条件是充要条件。

只含有不等式约束的库恩-塔克条件：设 $x^{*}$ 是极小点，那么 $x^{*}$ 可能在可行域 $H$ 的内部，也可能在可行域的边界上:

若 $x^{*}$ 在 $H$ 的内部，实际上是个无约束问题，则 $x^{*}$ 必满足条件： $\nabla f (x^{*}) = 0$ ;
若 $x^{*}$ 位于可行域的边界上，分为几种情况来讨论：
- 设 $x^{*}$ 位于一个约束条件形成的边界上：不妨设 $g_{1} (x) \geq 0$ 是 $x^{*}$ 点处起作用约束，即 $g_{1} (x^{*}) = 0$ ，若 $x^{*}$ 是局部最优解，则 $- \nabla f (x^{*})$ 与 $\nabla g_{1} (x^{*})$ 必共线且方向相反（反证法，如果不共线如下左图，此时 $x^{*}$ 不会是极值点，只有共线才会如右图），也就是说，必存在实数 $γ_{1} \geq 0$ ，使得 ${\nabla f (x^{*}) - γ_{1} \nabla g_{1} (x^{*}) = 0 γ_{1} \geq 0$ ；
- 设 $x^{*}$ 同时位于两个约束条件形成的边界上：不妨设 $g_{1} (x^{*}) = 0$ 、 $g_{2} (x^{*}) = 0$ ，此时 $\nabla f (x^{*})$ 必位于 $\nabla g_{1} (x^{*})$ 与 $\nabla g_{2} (x^{*})$ 所形成的夹角内（如下图），若 $x^{*}$ 是局部最优解，且 $\nabla g_{1} (x^{*})$ 与 $\nabla g_{2} (x^{*})$ 线性无关，则 $\nabla f (x^{*})$ 必可由 $\nabla g_{1} (x^{*})$ 与 $\nabla g_{2} (x^{*})$ 正线性表出，即存在 $γ_{1} \geq 0$ 、 $γ_{2} \geq 0$ ，使 ${\nabla f (x^{*}) - γ_{1} \nabla g_{1} (x^{*}) - γ_{2} \nabla g_{2} (x^{*}) = 0 γ_{1} \geq 0, γ_{2} \geq 0$ ；
- 依此类推，有 ${\nabla f (x^{*}) - \sum_{i \in I (x^{*})} γ_{i} \nabla g_{i} (x^{*}) = 0 γ_{i} \geq 0$ ，此处要求点 $x^{*}$ 处的作用约束梯度向量组线性无关，即 $x^{*}$ 同时也是一个正则点，上式也可以写成 $⎩ ⎨ ⎧ \nabla f (x^{*}) - \sum_{i \in I (x^{*})}^{m} γ_{i} \nabla g_{i} (x^{*}) = 0 γ_{i} g_{i} (x^{*}) = 0, i = 1, 2, \dots, m γ_{i} \geq 0, i = 1, 2, \dots, m$ 。

含等式和不等式约束的库恩-塔克条件：对于问题 $min f (x)$ ， $s . t . {g_{i} (x) \geq 0, i = 1, 2, \dots, m h_{j} (x) = 0, j = 1, 2, \dots, l$ ，其中 $h_{j} (x) = 0 \Leftrightarrow {h_{j} (x) \geq 0 - h_{j} (x) \geq 0$ ，从而转化为只含不等式约束的问题，其库恩-塔克条件为 $⎩ ⎨ ⎧ \nabla f (x^{*}) - \sum_{i = 1}^{m} γ_{i} \nabla g_{i} (x^{*}) - \sum_{j = 1}^{l} λ_{j} \nabla h_{j} (x^{*}) = 0 γ_{i} g_{i} (x^{*}) = 0, i = 1, 2, \dots, m γ_{i} \geq 0, i = 1, 2, \dots, m$ 。

例：求下列非线性规划问题的 $K - T$ 点（库恩-塔克点）： $min f (x) = 2 x_{1}^{2} + 2 x_{1} x_{2} + x_{2}^{2} - 10 x_{1} - 10 x_{2}$ ， $s . t . {x_{1}^{2} + x_{2}^{2} \leq 5 3 x_{1} + x_{2} \leq 6$ .

解：将约束改写为 $g_{i} (x) \geq 0$ 的形式 $s . t . {g_{1} (x) = - x_{1}^{2} - x_{2}^{2} + 5 \geq 0 g_{2} (x) = - 3 x_{1} - x_{2} + 6 \geq 0$ ，设所求的 $K - T$ 点为 $x^{*} = (x_{1}, x_{2})^{T}$ ，则 $\nabla f (x^{*}) = [4 x_{1} + 2 x_{2} - 10 2 x_{1} + 2 x_{2} - 10]$ ， $\nabla g_{1} (x^{*}) = [- 2 x_{1} - 2 x_{2}]$ ， $\nabla g_{2} (x^{*}) = [- 3 1]$ ，

写出库恩-塔克条件 $⎩ ⎨ ⎧ 4 x_{1} + 2 x_{2} - 10 + 2 γ_{1} x_{1} + 3 γ_{2} = 0 2 x_{1} + 2 x_{2} - 10 + 2 γ_{1} x_{2} + γ_{2} = 0 γ_{1} (5 - x_{1}^{2} - x_{2}^{2}) = 0 γ_{2} (6 - 3 x_{1} - x_{2}) = 0 γ_{1} \geq 0 γ_{2} \geq 0$ ：

①如果两个约束均是 $x^{*}$ 处不起作用约束，则由 ${g_{1} (x) = 5 - x_{1}^{*}^{2} - x_{2}^{*}^{2} > 0 g_{2} (x) = 6 - 3 x_{1}^{*} - x_{2}^{*} > 0 \Rightarrow {γ_{1} = 0 γ_{2} = 0$ ，代入库恩-塔克条件解出 ${x_{1} = 0 x_{2} = 5$ ，但该点不满足 $g_{1} (x^{*}) \geq 0$ ，故该点不是可行点；

②若 $g_{1} (x) \geq 0$ 是起作用约束， $g_{2} (x) \geq 0$ 是不起作用约束，则由 $γ_{2} (6 - 3 x_{1} - x_{2}) = 0$ 知 $γ_{2} = 0$ ，代入库恩-塔克条件解出 $x_{1} = 1, x_{2} = 2, γ_{1} = 1$ 或 $γ_{1} = 0$ ，可知 $x^{*} = (1, 2)^{T}$ 是可行点，且满足库恩-塔克条件，又是一个正则点，故它是一个 $K - T$ 点；又因为 $γ_{1} = 0$ 也成立，此时和第一张情形一样，该点也不是可行点；

③若 $g_{1} (x) \geq 0$ 是不起作用约束， $g_{2} (x) \geq 0$ 是起作用约束，则由 $γ_{1} (5 - 3 x_{1}^{2} - x_{2}^{2}) = 0$ 知 $γ_{1} = 0$ ，代入库恩-塔克条件解出 $γ_{2} = 0$ 或 $γ_{2} = - \frac{2}{5}$ ，当 $γ_{2} = - \frac{2}{5}$ 时不满足 $γ_{2} \geq 0$ 的条件，当 $γ_{2} = 0$ 时与第一种情形一样；

④若两个约束都是起作用的，此时 $γ_{1} > 0$ 、 $γ_{2} > 0$ ，于是库恩-塔克条件化简为 $⎩ ⎨ ⎧ 4 x_{1} + 2 x_{2} - 10 + 2 γ_{1} x_{1} + 3 γ_{2} = 0 2 x_{1} + 2 x_{2} - 10 + 2 γ_{1} x_{2} + γ_{2} = 0 5 - x_{1}^{2} - x_{2}^{2} = 0 6 - 3 x_{1} - x_{2} = 0$ ，但是得出的解不满足 $γ_{1} \geq 0, γ_{2} \geq 0$ ，故舍去；

综上，本题目的库恩-塔克点为 $x^{*} = (1, 2)^{T}$ 。

本题的目标函数 $f (x)$ 是凸函数，而 $g_{1} (x) \geq 0$ 和 $g_{2} (x) \geq 0$ 都是凹函数，故本题是凸规划，而对于凸规划而言，库恩-塔克条件也是充分的，因此 $x^{*} = (1, 2)^{T}$ 也是本题的全局极小点。

7. 约束极值问题-可行方向法

可行方向法是用一个线性规划来确定搜索方向的方法，我们将约束条件分为线性和非线性的两种情形来讨论。

约束条件为线性

考虑 $min f (x)$ ， $s . t . {A x \geq b E x = e$ ，其中 $f (x)$ 是可微函数， $A$ 为 $m \times n$ 矩阵， $E$ 为 $l \times n$ 矩阵， $x \in R^{n}$ ， $b \in R^{m}$ ， $e \in R^{l}$ ，即问题有 $m$ 个线性不等式约束，有 $l$ 个线性等式约束。

定理：设 $\overline{x}$ 是问题的一个可行解，且 $A_{1} \overline{x} = b_{1}$ ， $A_{2} \overline{x} > b_{2}$ ，其中 $A = [A_{1} A_{2}]$ ， $b = [b_{1} b_{2}]$ （即将 $\overline{x}$ 的起作用约束部分的系数矩阵(不一定是方阵)作为 $A_{1}$ 、右端项作为 $b_{1}$ ，不起作用约束的系数矩阵作为 $A_{2}$ 、右端项作为 $b_{2}$ ），则下列结论成立：

非零向量 $p \in R^{n}$ 是点 $\overline{x}$ 处的可行方向，当且仅当 $A_{1} p \geq 0$ 且 $Ep = 0$ ；
若向量 $p$ 在满足可行方向条件的前提下，同时又满足 $\nabla f (\overline{x})^{T} p < 0$ ，则 $p$ 是一个可行下降方向。

可行方向法计算步骤（约束条件为线性函数时）：

（1）给定初始可行点 $x^{(0)} \in H$ ，允许误差 $ϵ_{1} > 0$ 、 $ϵ_{2} > 0$ ，令 $k := 0$ ；

（2）在点 $x^{(k)}$ 处把 $A$ 与 $b$ 分解成 $A = [A_{1} A_{2}]$ 、 $b = [b_{1} b_{2}]$ ，使得 $A_{1} x^{(k)} = b_{1}$ 、 $A_{2} x^{(k)} > b_{2}$ ；

（3）判断 $x^{(k)}$ 是否为问题可行域的内点；

若 $x^{(k)}$ 是可行域的一个内点（此时问题没有等式约束，即 $E = 0$ 且 $A_{1} = 0$ ），而且 $∣∣\nabla f (x^{(k)}) ∣∣ < ϵ_{1}$ ，停止迭代，得到近似极小点 $x^{(k)}$ ；
若 $x^{(k)}$ 是可行域的一个内点，且 $∣∣\nabla f (x^{(k)}) ∣∣ \geq ϵ_{1}$ ，则取搜索方向 $p^{(k)} = - \nabla f (x^{(k)})$ ，然后转第五步，即用目标函数的负梯度方向作搜索方向来求步长，此时类似于无约束问题；
若 $x^{(k)}$ 不是可行域的一个内点（即 $x^{(k)}$ 在可行域的边界上），则要寻找可行下降方向，转第四步；

（4）求可行下降方向就是要求解问题 $min z = \nabla f (\overline{x})^{T} p$ ， $s . t . ⎩ ⎨ ⎧ A_{1} p \geq 0 Ep = 0 - 1 \leq d_{1}, d_{2}, \dots, d_{n} \leq 1$ ，设得到的最优解为 $(p^{(k)}, z^{(k)})$ ，若 $∣ z^{(k)} ∣ = ∣\nabla f (x^{(k)})^{T} p^{(k)} ∣ < ϵ_{2}$ ，则停止迭代，否则转第五步；

（5）先计算 $λ$ 的上限 $\overline{λ} = {min {\frac{( b _{2} - A _{2} x ^{(k)} ) _{i}}{( A _{2} p ^{(k)} ) _{i}} ∣ (A_{2} p^{(k)})_{i} < 0} \infty, 当 A_{2} p^{(k)} ≱ 0, 当 A_{2} p^{(k)} \geq 0$ ，再作一维搜索 $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . 0 \leq λ \leq \overline{λ}$ ，求得最优解 $λ_{k}$ ，令 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ；

（6）令 $k := k + 1$ ，返回第二步。

搜索方向和步长计算步骤的推导：

根据定理，要寻找问题可行点 $\overline{x}$ 的一个可行下降方向 $p = (d_{1}, d_{2}, \dots, d_{n})^{T}$ ，相当于求解如下的一个线性规划问题，问题一： $min z = \nabla f (\overline{x})^{T} p$ ， $s . t . ⎩ ⎨ ⎧ A_{1} p \geq 0 Ep = 0 - 1 \leq d_{1}, d_{2}, \dots, d_{n} \leq 1$ （其中把 $p$ 的各分量限制在 $[- 1, 1]$ 之间是为了讨论方便，我们只关心它的方向而非大小），显然 $p = 0$ 是其中一个可行解，故目标函数的最优值 $z^{*} \leq 0$ ，当 $z^{*} < 0$ 时，则 $p$ 为可行下降方向；当 $z^{*} = 0$ 时，则 $\overline{x}$ 为库恩-塔克点。

确定了搜索方向，然后就是步长的确定了。假定 $\overline{x} \in H$ 是第 $k$ 次迭代点的出发点 $x^{(k)}$ ，其可行下降方向为 $p^{(k)}$ ，则后继点 $x^{(k + 1)}$ 为 $x^{(k + 1)} = x^{(k)} + λ p^{(k)}$ ，为使 $x^{(k + 1)} \in H$ ，且 $f (x^{k + 1})$ 的值尽可能小，求解一维搜索问题，问题二： $min_{0 \leq λ \leq \overline{λ}} f (x^{(k)} + λ p^{(k)})$ ，其中 $\overline{λ} = max {λ ∣ x^{(k)} + λ p^{(k)} \in H}$ 。

考虑到线性约束 $A x \geq b, E x = e$ ，那么求解问题二时首先求解问题三： $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . {A (x^{(k)} + λ p^{(k)}) \geq b E (x^{(k)} + λ p^{(k)}) = e$ ，因为 $p^{(k)}$ 是可行方向，则 $E p^{(k)} = 0$ ，而 $x^{(k)}$ 是可行点，则 $E x^{(k)} = e$ ，说明问题三中的第2个约束必定满足（因为 $E (x^{(k)} + λ p^{(k)}) = E x^{(k)} + λ E p^{(k)} = e + 0 = e$ ），可不再考虑它。

在问题三的基础上，如果在点 $x^{(k)}$ 处将不等式约束分为起作用约束和不起作用约束，得问题四： $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . {A_{1} x^{(k)} + λ A_{1} p^{(k)} \geq b_{1} A_{2} x^{(k)} + λ A_{2} p^{(k)} \geq b_{2}$ ，其中 $A = (A_{1}, A_{2})^{T}$ ， $b = (b_{1}, b_{2})^{T}$ ，因为 $p^{(k)}$ 是可行方向，根据前面定理 $A_{1} p^{(k)} \geq 0$ ，再设 $λ \geq 0$ 及 $A_{1} x^{(k)} = b_{1}$ ，故问题四中的第1个条件自然满足，可不再考虑它。

根据问题三、四的讨论知，问题二可以被简化为问题五： $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . A_{2} x^{(k)} + λ A_{2} p^{(k)} \geq b_{2}$ ，要使步长尽可能大，就是要求 $λ$ 的上界， $λ$ 的上界由下面的公式给出： $\overline{λ} = {min {\frac{( b _{2} - A _{2} x ^{(k)} ) _{i}}{( A _{2} p ^{(k)} ) _{i}} ∣ (A_{2} p^{(k)})_{i} < 0} \infty, 当 A_{2} p^{(k)} ≱ 0, 当 A_{2} p^{(k)} \geq 0$ ，此时问题二再次被化简为问题六： $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . 0 \leq λ \leq \overline{λ}$ 。

综上，对于约束是线性函数的非线性规划问题，若已知一个迭代点 $x^{(k)}$ 后，可由求解问题一得到可行下降方向 $p^{(k)}$ ，再由问题六求解该方向上的步长 $λ_{k}$ 。

例：用可行方向法求解 $min f (x) = (x_{1} - 6)^{2} + (x_{2} - 2)^{2}$ ， $s . t . ⎩ ⎨ ⎧ x_{1} - 2 x_{2} \geq - 4 - 3 x_{1} - 2 x_{2} \geq - 12 x_{1}, x_{2} \geq 0$ ，取 $x^{(0)} = (2, 3)^{T}$ ， $ϵ_{1} = 0.001$ ， $ϵ_{2} = 0.001$ .

解：

第一次迭代：

将 $x^{(0)} = (2, 3)^{T}$ 代入约束条件 $⎩ ⎨ ⎧ g_{1} (x^{(0)}) = 2 - 2 \times 3 = - 4 g_{2} (x^{(0)}) = - 3 \times 2 - 2 \times 3 = - 12 g_{3} (x^{(0)}) = 2 > 0 g_{4} (x^{(0)}) = 3 > 0$ ，因此第1、2个约束为点 $x^{(0)}$ 的起作用约束，故 $A_{1} = [1 - 3 - 2 - 2]$ 、 $b_{1} = [- 4 - 12]$ 。

先确定搜索方向，令 $p = (d_{1}, d_{2})^{T}$ ，求解线性规划 $min z = \nabla f (x^{(0)})^{T} p$ ， $s . t . ⎩ ⎨ ⎧ A_{1} p \geq 0 Ep = 0 - 1 \leq d_{1}, d_{2} \leq 1$ ，因为 $E = 0$ ， $\nabla f (x^{(0)}) = (- 8, 2)^{T}$ ，故线性规划进一步简化为 $min z = - 8 d_{1} + 2 d_{2}$ ， $s . t . ⎩ ⎨ ⎧ d_{1} - 2 d_{2} \geq 0 - 3 d_{1} - 2 d_{2} \geq 0 - 1 \leq d_{1}, d_{2} \leq 1$ ，用单纯形法解得 $d_{1} = \frac{2}{3}$ 、 $d_{2} = - 1$ ，因此 $x^{(1)} = x^{(0)} + λ p^{(0)} = [2 + \frac{2}{3} λ 3 - λ]$ ；

再作一维搜索（ $A_{2} x^{(k)} + λ A_{2} p^{(k)} \geq b_{2}$ ）来确定 $λ$ 的上界 $\overline{λ} = {min {\frac{( b _{2} - A _{2} x ^{(k)} ) _{i}}{( A _{2} p ^{(k)} ) _{i}} ∣ (A_{2} p^{(k)})_{i} < 0} \infty, 当 A_{2} p^{(k)} ≱ 0, 当 A_{2} p^{(k)} \geq 0$ ，求出 $b = b_{2} - A_{2} x^{(0)} = [00] - [1001] [23] = [- 2 - 3]$ ， $p = A_{2} p^{(0)} = [1001] \cdot [\frac{2}{3} - 1] = [\frac{2}{3} - 1]$ ，故 $\overline{λ} = min {\frac{- 3}{- 1}} = 3$ ；

为确定步长 $λ$ ，还要求解下述规划 $min z = f (x^{(1)}) = \frac{13}{9} (λ - \frac{33}{15})^{2} + \frac{100}{13}$ ， $s . t . 0 \leq λ \leq \overline{λ}$ ，故最优解和最优值为 $λ_{1} = \frac{33}{13}$ 、 $f^{*} (x^{(1)}) = \frac{100}{13}$ ，故 $x^{(1)} = x^{(0)} + λ_{1} p^{(0)} = [\frac{48}{13} \frac{6}{13}]$ ，且 $\nabla f (x^{(1)}) = (- \frac{60}{13}, - \frac{40}{13})^{T}$ ，但是 $∣∣\nabla f (x^{(1)}) ∣∣ = 5.547 > 0.001 = ϵ_{1}$ ，还要进行下一次迭代；

第二次迭代：

对 $x^{(1)}$ 寻找可行下降方向： $⎩ ⎨ ⎧ g_{1} (x^{(1)}) = \frac{48}{13} - 2 \times \frac{6}{13} = \frac{36}{13} > - 4 g_{2} (x^{(1)}) = - 3 \times \frac{48}{13} - 2 \times \frac{6}{13} = - 12 g_{3} (x^{(1)}) = \frac{48}{13} > 0 g_{3} (x^{(1)}) = \frac{6}{13} > 0$ ，因此第2个约束是点 $x^{(1)}$ 的起作用约束，故 $A_{1} = (- 3, - 2)$ 、 $b_{1} = - 12$ ；

确定搜索方向：令 $p^{(1)} = (d_{1}, d_{2})^{T}$ ，求解线性规划 $min z = \nabla f (x^{(1)})^{T} p^{(1)} = - \frac{60}{13} d_{1} - \frac{40}{13} d_{2}$ ， $s . t . ⎩ ⎨ ⎧ - 3 d_{1} - 2 d_{2} \geq 0 - 1 \leq d_{1} \leq 1 - 1 \leq d_{2} \leq 1$ ，解得 $d_{1} = \frac{2}{3}$ 、 $d_{2} = - 1$ ，相应的目标函数值 $z^{*} = 0$ ，因为 $∣ z^{*} ∣ = ∣\nabla f (x^{(1)})^{T} p^{(1)} ∣ = 0 < 0.001 = ϵ_{2}$ ，此时已经没有可行下降方向了，即已经达到极值点（由于 $z^{*} = 0$ ，该点也是库恩塔克点），故 $x^{*} = (\frac{48}{13}, \frac{6}{13})$ 即为所求。

约束条件非线性

考虑非线性规划 $min f (x)$ ， $s . t . g_{i} (x) \geq 0, i = 1, 2, \dots, m$ ，其中 $x \in R^{n}$ ， $f (x), g_{i} (x)$ （ $i = 1, 2, \dots, m$ ）均为可微函数。

定理：设 $\overline{x}$ 是问题的一个可行解， $I = {i ∣ g_{i} (\overline{x}) = 0}$ 是点 $\overline{x}$ 处起作用约束下标集，若 $f (x), g_{i} (x)$ （ $i \in I$ ）均为可微函数， $g_{i} (x)$ （ $i \in / I$ ）在点 $\overline{x}$ 处连续，如果 ${\nabla f (\overline{x})^{T} p < 0 \nabla g_{i} (\overline{x})^{T} p > 0, i \in I (\overline{x})$ ，则 $p$ 是可行下降方向。

上述定理中的条件等价于用方程组求向量 $p$ 和 $η$ ： $⎩ ⎨ ⎧ \nabla f (\overline{x})^{T} p \leq η - \nabla g_{i} (\overline{x})^{T} p \leq η, i \in I (\overline{x}) η < 0$ ，满足这一条件的可行下降方向 $p$ 和数 $η$ 一般有很多个，我们希望求出能使目标函数值下降最多的方向 $p$ 。

则求可行下降方向 $p = (d_{1}, d_{2}, \dots, d_{n})^{T}$ 的问题可转化为求下列线性规划问题： $min η$ ， $s . t . ⎩ ⎨ ⎧ \nabla f (\overline{x})^{T} p \leq η - \nabla g_{i} (\overline{x})^{T} p \leq η, i \in I (\overline{x}) - 1 \leq d_{1}, d_{2}, \dots, d_{n} \leq 1$ 。

得到 $x^{(k)}$ 与可行下降方向 $p^{(k)}$ 后，沿方向 $p^{(k)}$ 进行一维搜索确定 $λ_{k}$ ： $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . 0 \leq λ \leq \overline{λ}$ ，其中 $\overline{λ} = sup {λ ∣ g_{i} (x^{(k)} + λ p^{(k)}) \geq 0, i = 1, 2, \dots, m}$ ，

可行方向法计算步骤（约束条件为非线性函数时）：

（1）给定初始可行点 $x^{(0)} \in H$ ，允许误差 $ϵ_{1} > 0$ 、 $ϵ_{2} > 0$ ，令 $k := 0$ ；

（2）确定 $x^{(k)}$ 点处的起作用下标集 $I (x^{(k)}) = {i ∣ g_{i} (x^{(k)}) = 0, 1 \leq i \leq m}$ ；

（3）判断 $x^{(k)}$ 是否是问题可行域的内点：

若 $I (x^{(k)}) = \emptyset$ （即不在边界上，是内点），且 $∣∣\nabla f (x^{(k)}) ∣∣ < ϵ_{1}$ ，停止迭代，得极小点 $x^{(k)}$ ；
若 $I (x^{(k)}) = \emptyset$ ，但 $∣∣\nabla f (x^{(k)}) ∣∣ \geq ϵ_{1}$ ，则取 $p^{(k)} = - \nabla f (x^{(k)})$ 为搜索方向，然后转第五步；
若 $I (x^{(k)}) \neq = \emptyset$ （在边界上，不是内点），转第四步；

（4）确定搜索方向，即求解线性规划问题 $min η$ ， $s . t . ⎩ ⎨ ⎧ \nabla f (\overline{x})^{T} p \leq η - \nabla g_{i} (\overline{x})^{T} p \leq η, i \in I (\overline{x}) - 1 \leq d_{1}, d_{2}, \dots, d_{n} \leq 1$ ，设得到的最优解为 $(p^{(k)}, η^{(k)})$ ，若 $∣ η^{(k)} ∣ < ϵ_{2}$ ，停止迭代，得到极小点 $x^{(k)}$ ，否则以 $p^{(k)}$ 为搜索方向转第五步；

（5）先计算 $λ$ 的上限 $\overline{λ} = sup {λ ∣ g_{i} (x^{(k)} + λ p^{(k)}) \geq 0, i = 1, 2, \dots, m}$ ，然后作一维搜索 $min f (x^{(k)} + λ p^{(k)})$ ， $s . t . 0 \leq λ \leq \overline{λ}$ ，求得最优解 $λ_{k}$ ，令 $x^{(k + 1)} = x^{(k)} + λ_{k} p^{(k)}$ ；

（6）令 $k := k + 1$ ，返回第二步。

一、最优化问题与预备知识

1. 预备知识

2. 凸集

3. 凸函数

4. 凸规划

5. 线搜索迭代算法

二、线性规划问题

1. 线性规划问题的数学模型

2. 图解法（两个决策变量）

3. 线性规划问题的标准化

4.线性规划问题的解

5. 线性规划问题基本理论

6.单纯形法

单纯形法概述

单纯形法的矩阵描述

单纯形表

线性规划问题解的数目

7. 大M法与两阶段法

大M法

两阶段法

8. 对偶问题

对偶问题概述

对偶理论

对偶单纯形法

9. 单纯形法的灵敏度分析

价值系数c发生改变

右端项b发生改变

约束系数列向量pk​发生改变

增加一个新变量xn+1​

10. 运输问题

运输问题的数学模型

西北角法

最小元素法

位势法

闭合回路法

三、整数规划问题

1. 整数规划问题的数学模型

2. 分枝定界法

3. 割平面法

4. 指派问题与匈牙利算法

最小化的指派问题

(补充)最大化的指派问题

四、非线性规划

1. 非线性规划的数学模型

2. 无约束问题-最优性条件

3. 解非线性规划的基本思路

4. 无约束问题-步长（一维搜索）

黄金分割法

牛顿法

加步探索法

抛物线法

5.无约束问题-搜索方向

变量轮换法

最速下降法

牛顿法

修正牛顿法

6. 约束极值问题-最优性条件

7. 约束极值问题-可行方向法

约束条件为线性

约束条件非线性

约束系数列向量 $p_{k}$ 发生改变

增加一个新变量 $x_{n + 1}$