Mathematical Analysis of Algorithms

lkw123

May 18, 2021

#algorithm #math #paper

Mathematical Analysis of Algorithms 由著名的计算机科学家 Donald Knuth 于 1971 年发表。

这篇文章主要引入两个具体的算法问题来展现算法效率分析的典型方法。

Rearranging data without using auxiliary memory space. 不使用额外的存储空间的排序算法（原地排序）。
Finding the element of rank t when n elements are ranked by some linear ordering relation. 在线性有序表中查找特定值。

Introduction

算法分析领域的核心目标是研究如何量化分析各个不同算法的好坏，主要的两类问题如下：

Analysis of a particular algorithm. 分析某些特定算法的基本特征。
- Frequency analysis. 分析算法的各部分的执行次数情况，实际上是分析时间复杂度。
- Storage analysis. 分析算法占用的内存资源情况，实际上是分析空间复杂度。
Analysis of a class of algorithms. 分析解决一类问题的所有算法，尝试找到最优的算法。本文指出这类问题的两点弊端：
- 对技术性调整敏感。某些微小改变可能对最优算法的选取产生巨大的影响，因此研究往往被局限在一个有限范围内；
- 难以控制模型的拟合性。第 2 类问题的分析往往过于复杂，而简化模型可能与现实相悖，导致算法分析出现失误。

正因此，尽管第 1 类问题没有第 2 类问题有趣，但在实际应用中也可以发挥出巨大作用。在接下来的核心篇幅中，Knuth 便借助两个实例来具体阐述算法分析的基本思路。

In Situ Permutation

问题提出

给定一个一维数组 $x_{1}, x_{2}, \dots, x_{n}$ ，以及一个函数 $p$ ，使得 $p (1), p (2), \dots, p (n)$ 是对 $1,2, \dots, n$ 的一个排列，同时 $x_{p (1)}, x_{p (2)}, \dots, x_{p (n)}$ 有序。附加要求如下：

算法的空间复杂度为 $O (1)$ ；
不能修改存储排列 $p (1), p (2), \dots, p (n)$ 的空间。

算法设计

由数学知识，我们认识到这样的事实：在任意一个排列 $p (1), p (2), \dots, p (n)$ ，我们总会存在若干个“环”，这个环形如 $p (i_{1}) = i_{2}, p (i_{2}) = i_{3}, \dots, p (i_{k}) = i_{1}$ 。

以如下排列 $p$ 为例：

\begin{matrix} 𝐢 & 𝟏 & 𝟐 & 𝟑 & 𝟒 & 𝟓 & 𝟔 & 𝟕 & 𝟖 & 𝟗 \\ p(i) & 8 & 2 & 7 & 1 & 6 & 9 & 3 & 4 & 5 \end{matrix}

我们可以发现这个排列中有四个“环”：

{\begin{matrix} p (1) = 8, p (8) = 4, p (4) = 1 \\ p (2) = 2 \\ p (3) = 7, p (7) = 3 \\ p (5) = 6, p (6) = 9, p (9) = 5 \end{matrix}

我们定义某一环中最小的值为这个环的头元素，那么每当我们发现了一个环的头元素 $k$ ，我们便将 $x_{p (k)}$ 的值填入 $x_{k}$ 处，将 $x_{p (p (k))}$ 的值填入 $x_{p (k)}$ 处……最终将 $x_{k}$ 填入环的尾元素对应的位置即可。

1
for j = 1 to n
2
   # 从 p(j) 开始遍历这个环
3
   k = p(j)
4
   # 如果 j 不是环的头元素，那么就会存在一个环上点 k < j
5
   while k > j: # --> a
6
      k = p(k)
7
   if k == j: # --> b
8
      # k 是环的头元素
9
      y = x[j], l = p(k)
10
      while l != j:
11
         x[k] = x[l], k = l, l = p(k)
12
      x[k] = y

算法分析

由基尔霍夫定律，我们了解到所有进入某节点的电流的总和等于所有离开这节点的电流的总和，在这里，我们可以有效的衡量某部分程序的执行情况。具体地，判断 k > j 的总次数等于 k = p(j) 以及 k = p(k) 的执行次数之和。

为了便于分析，在伪代码注释中标记出两个部分 a 和 b。而对于算法的正确性分析，算法的设计过程已清晰的展现，而要给出一个严谨的证明则十分麻烦，作者在此选择略去繁琐的证明部分。

极端情况

若记当前环的长度为 n，易知当 $(p (1), p (2), \dots, p (n)) = (2,3, . . ., n, 1)$ 时即对应 a 的最坏情况，此时 $a = (n - 1) + (n - 2) + \dots + 0$ 取到最大值 $\frac{1}{2} (n^{2} - n)$ ，值得注意的是，此时正好对应着 b 的最好情况。

而相类似的，当 $(p (1), p (2), \dots, p (n)) = (1,2,3, . . ., n)$ 时即对应 b 的最坏情况，此时正好对应着 a 的最好情况。

平均情况

考虑 n 个元素的全排列的 $n!$ 种可能情况是等可能的，即对应着平均情况。

重新回顾此前的例子排列 $p$ ，可以这个排列的环表述为 $(1,8,4), (2), (3,7), (5,6,9)$ ，然而若不加限制，对其中每个环的表述方式会存在多种，难以统一，因此给予以下限制：

每个环从其头元素开始；
每个环的头元素递减排列。

在这样的条件下，环的表述可以固定为 $(5,6,9), (3,7), (2), (1,8,4)$ 。

而此时我们发现括号的存在已无实际意义，因此可以直接去掉。那么，我们可以将每一个 $(p (1), p (2), \dots, p (n))$ 的排列映射为符合题意的 $(q (1), q (2), \dots, q (n))$ 。

这时，我们可以对 b 的意义进行描述： $p$ 中的环的个数，也即 $q$ 中的 “left-to-right minima”（可以被表示为第一类斯特林数），由数学知识，记 b 的平均值为 $H_{n}$ ，b 的方差为 $H_{n}^{(2)}$ ，则有：

H_{n} = 1 + \frac{1}{2} + \dots + \frac{1}{n} and H_{n}^{(2)} = 1 + \frac{1}{4} + \dots + \frac{1}{n^{2}}

接下来我们同样可以对 a 的值进行分析。当循环变量 j = q(i) 时，k 一直往后执行到 $q (i + r)$ ，满足 $q (i + r) < q (i)$ 亦或 $q (i)$ 为环的头元素，因此会从 $q (i)$ 到 $q (i + r)$ 执行运算，于是，令：

y_{i j} = {\begin{matrix} 1, i f q (i) < q (k) f o r i < k ⩽ j \\ 0, o t h e r w i s e \end{matrix}

那么

a = \sum_{1 ⩽ i < j ⩽ n} y_{i j}

具体地，在以上实例中， $(q (1), \dots, q (9)) = (5,6,9,3,7,2,1,8,4)$ ，此时代入公式可得 $(i, j) = (1,2), (1,3), (2,3), (4,5), (7,8), (7,9)$ 时 $y_{i j} = 1$ ，其余情形下 $y_{i j} = 0$ 。

记 $y_{i j}$ 的平均值为 $y_{i j}$ ，容易发现它便是所有 $n!$ 个排列中 $y_{i j} = 1$ 的排列个数，我们有：

\begin{matrix} a = \sum_{1 ⩽ i < j ⩽ n} y_{i j} & = \sum_{1 ⩽ i < j ⩽ n} \frac{1}{j - i + 1} \\ = \sum_{2 ⩽ r ⩽ n} \frac{n + 1 - r}{r} \end{matrix}

记调和级数为 $H_{n}$ ，对上式进行展开：

\overline{a} = (n + 1) (H_{n} - 1) - (n - 1) = (n + 1) H_{n} - 2 n

由数学知识易证 $H_{n} = \sum_{i = 1}^{n} \frac{1}{i} = O (\log n)$ ，因此 a 的平均执行次数为 $O (\log n)$ 。

接下来我们对 a 的方差进行求解，我们需要计算下面式子的平均值：

\begin{matrix} {(\sum_{1 ⩽ i < j ⩽ n} y_{i j})}^{2} = & \sum_{1 ⩽ i < j ⩽ n} y_{i j}^{2} + \sum_{\begin{matrix} 1 ⩽ i < j ⩽ n \\ 1 ⩽ k < l ⩽ n \\ (i, j) \neq (k, l) \end{matrix}} y_{i j} y_{k l} \\ = & \sum_{1 ⩽ i < j ⩽ n} y_{i j} + 2 \sum_{1 ⩽ i < j < k < l ⩽ n} (y_{i j} y_{k l} + y_{i k} y_{j l} + y_{i l} y_{j k}) \\ + 2 \sum_{1 ⩽ i < j < k ⩽ n} (y_{i j} y_{j k} + y_{i k} y_{j k} + y_{i j} y_{i k}) \\ = & a + 2 (A + B + C + D + E + F) \end{matrix}

接下来便是一系列繁杂的数学运算过程：

\begin{matrix} B = (\begin{matrix} n \\ 2 \end{matrix}) - 2 Z, & C = Y - Z - 2 (\begin{matrix} n \\ 2 \end{matrix}) + 3 X \\ D = E = Z - X, & F = (\begin{matrix} n \\ 2 \end{matrix}) - 2 X \end{matrix}

其中，

\begin{matrix} X & = \sum_{1 ⩽ i < j ⩽ n} \frac{1}{j - i + 1} \\ Y & = \sum_{1 ⩽ i < j ⩽ n} H_{j - i} \\ Z & = \sum_{1 ⩽ i < j ⩽ n} \frac{1}{j - i + 1} H_{j - i} \end{matrix}

将 $r = j - i + 1$ 代入可得：

\begin{matrix} X & = (n + 1) H_{n} - 2 n \\ Y & = \frac{1}{2} (n^{2} + n) H_{n} - \frac{3}{4} n^{2} - \frac{1}{4} n \\ Z & = \frac{1}{2} (n + 1) (H_{n}^{2} - H_{n}^{(2)}) - n H_{n} + n \end{matrix}

相对应地，

\begin{matrix} A & = \sum_{1 ⩽ i < j < k < l ⩽ n} \frac{1}{(j - i + 1) (l - k + 1)} \\ = \sum_{\begin{matrix} r ⩾ 2 \\ s ⩾ 2 \\ r + s ⩽ n \end{matrix}} \frac{1}{r s} (\begin{matrix} n - r - s + 2 \\ 2 \end{matrix}) \\ = \sum_{\begin{matrix} 2 ⩽ r ⩽ t - 2 \\ 4 ⩽ t ⩽ n \end{matrix}} \frac{1}{t} (\frac{1}{r} + \frac{1}{t - r}) (\begin{matrix} n - t + 2 \\ 2 \end{matrix}) \\ = 2 \sum_{\begin{matrix} 2 ⩽ r ⩽ t - 2 \\ 4 ⩽ t ⩽ n \end{matrix}} \frac{1}{r t} (\begin{matrix} n - t + 2 \\ 2 \end{matrix}) \\ = \sum_{\begin{matrix} 2 ⩽ r ⩽ t - 2 \\ 4 ⩽ t ⩽ n \end{matrix}} \frac{1}{r t} ((n + 2) (n + 1) - t (2 n + 3) + t^{2}) \\ = (n + 2) (n + 1) U - (2 n + 3) V + W \end{matrix}

令 $r = j - i + 1, s = l - k + 1, t = r + s$ ，代入可得：

\begin{matrix} U & = \frac{1}{2} {(H_{n} - 1)}^{2} - \frac{1}{2} H_{n}^{(2)} + \frac{1}{n} \\ V & = (n - 1) H_{n - 2} - 2 n + 4 \\ W & = \frac{1}{2} ((n^{2} + n - 2) (H_{n - 2} - 1) - \frac{1}{2} (n - 1) (n - 2) + 1 - 3 (n - 3)) \end{matrix}

最终带入整理可以得到：

σ^{2} = 2 n^{2} - {(n + 1)}^{2} H_{n}^{(2)} - (n + 1) H_{n} + 4 n

对 a 的方差的讨论证明了 $O (n^{2})$ 的最坏情况是非常罕见的。最后再进行一些近似，可以得到如下的结论：

\begin{matrix} a & = (\min 0, ave n \ln n + O (n), \max \frac{1}{2} (n^{2} - n), dev \sqrt{2 - π^{2} / 6} n + O (\log n)); \\ b & = (\min 1, ave \ln n + O (1), \max n, dev \sqrt{\ln n} + O (1)) \end{matrix}

可以得出结论：这个算法的平均时间复杂度为 $O (n \log n)$ ，在极少数情况下可能达到 $O (n 2)$ 。

进一步分析

对于外循环遍历到的一个 $j$ ，同时搜索 $p (j), p^{- 1} (j), p (p (j)), p^{- 1} (p^{- 1} (j)), \dots$ ，其中 $p^{- 1}$ 为 $p$ 的反函数，则可以对算法进行优化。

设最坏情况为 $f (n)$ ，此时整个排列只有一个长度为 n 的环，我们可以得到如下递推式：

\begin{matrix} f (1) & = 0 \\ f (n) & = \max_{1 ⩽ k < n} (\min (k, n - k) + f (k) + f (n - k)) \end{matrix}

记 $ν (k)$ 为 $k$ 的二进制表示中 1 的个数。对于这个看起来很难下手的问题，Knuth 给出了答案：

f (n) = \sum_{0 ⩽ k < n} ν (k)

若 $a_{1} > a_{2} > \dots > a_{r}$ ，则有

f (2^{a_{1}} + 2^{a_{2}} + . . . + 2^{a_{r}}) = \frac{1}{2} (a_{1} 2^{a_{1}} + (a_{2} + 2) 2^{a_{2}} + . . . + (a_{r} + 2 r - 2) 2^{a_{r}})

经过以上分析，我们了解到这种解法在最坏的情况下的时间复杂度为 $O (n \log n)$ ，实现了进一步的优化。

Selecting the $t_{t h}$ largest

问题提出

给定一个一维数组 $a_{1}, a_{2}, \dots, a_{n}$ ，在比较次数尽可能少的前提下找到数组中第 t 大的值。

算法设计

对于这种问题，一个时间复杂度为 $O (n \log n)$ 的排序算法便可以解决，因此，我们需要考虑的是有没有时间复杂度低于 $O (n \log n)$ 的算法。

回忆我们已了解的算法以及刚学过的分治策略，根据快速排序的启发，我们可以采取如下思路：

对于数组 $a_{i}, \dots, a_{j}$ ，首先调用 Partition() 方法对 $a_{i}$ 的位置进行移动，记移动后的位置为 k，使它左边元素都比其小、右边元素都比其大。此时我们根据 k 和 t 的大小关系，就可以分别讨论接下来的搜索是在 k 的左侧还是右侧进行，抑或是此时 k 位置的元素正好是第 k 大的元素。

1
FindtthNumber(a, i, j, t):
2
   key = a[i]
3
   # Partition() 的实现参考快速排序的相关原理
4
   # Partition() 返回的是分割后的数组下标
5
   # 减去数组开头的位置得到 a[k] 是 a[i]-a[j] 里第几大的数
6
   k = Partition(key, a, i, j) - i + 1
7
   if k == t:
8
      return a[k]
9
   else if k < t:
10
      return FindtthNumber(a, k + 1, j, t - k)
11
   else:
12
      return FindtthNumber(a, i, k - 1, t)

算法分析

对子问题的限定仅与两个变量有关：数组的长度 n 以及所要找的数的位次 t，因此我们可以记子问题为 $C_{n, t}$ ，假设 t 的选取完全随机，那么

\begin{matrix} C_{1,1} & = 0 \\ C_{n, t} & = n - 1 + \frac{1}{n} (A_{n, t} + B_{n, t}) \end{matrix}

其中 $A_{n, t}$ 对应伪代码中 k < t 的情形：

A_{n, t} = C_{n - 1, t - 1} + C_{n - 2, t - 2} + \dots + C_{n - t + 1,1}

同时 $B_{n, t}$ 对应伪代码中 k > t 的情形：

B_{n, t} = C_{t, t} + C_{t + 1, t} + \dots + C_{n - 1, t}

经过观察，我们发现

\begin{matrix} A_{n + 1, t + 1} & = A_{n, t} + C_{n, t} \\ B_{n + 1, t} & = B_{n, t} + C_{n, t} \end{matrix}

使用差消迭代法，进行如下操作

\begin{matrix} (n + 1) C_{n + 1, t + 1} - n C_{n, t + 1} - n C_{n, t} + (n - 1) C_{n - 1, t} \\ = & (n + 1) n - n (n - 1) - n (n - 1) + (n - 1) (n - 2) \\ + A_{n + 1, t + 1} - A_{n, t + 1} - A_{n, t} + A_{n - 1, t} \\ + B_{n + 1, t + 1} - B_{n, t + 1} - B_{n, t} + B_{n - 1, t} \\ = & 2 + C_{n, t} - C_{n - 1, t} + C_{n, t + 1} - C_{n - 1, t} \end{matrix}

进而推出

\begin{matrix} C_{n + 1, t + 1} - C_{n, t + 1} - C_{n, t} + C_{n - 1, t} & = \frac{2}{n + 1} \\ (C_{n + 1, t + 1} - C_{n, t}) - (C_{n, t + 1} - C_{n - 1, t}) & = \frac{2}{n + 1} \end{matrix}

由此，

\begin{matrix} C_{n + 1, t + 1} - C_{n, t} & = \frac{2}{n + 1} + \frac{2}{n} + \dots + \frac{2}{t + 2} + C_{t + 1, t + 1} - C_{t, t} \\ = 2 (H_{n + 1} - H_{t + 1}) + 2 - 2 / (t + 1) \end{matrix}

不断进行迭代可得

C_{n, t} = 2 ((n + 1) H_{n} - (n + 3 - t) H_{n + 1 - t} - (t + 2) H_{t} + n + 3)

由于调和级数 $H_{n} = O (\log n)$ ，我们可以得出结论：无论 n 和 t 取何值，算法的平均时间复杂度为 $C_{n, t} = O (n)$ 。

Summary

对以上的两个算法实例进行解释分析只是作者用来解释算法分析的本质的一个途径，作者希望表明自己的以下观点：

算法分析对计算机科学领域十分重要，能够加深我们对计算机科学的理解；
算法分析与离散数学密切相关，许多技巧不在大学中讲授，但它们却是计算机科学家们的必修课；
算法分析正在形成科学方法，同时我们可以用一些比较通用的方法解决一系列问题；
算法分析领域还有很多问题等待着我们去解决。

参考资料：

Introduction

In Situ Permutation

问题提出

算法设计

算法分析

极端情况

平均情况

进一步分析

Selecting the tth largest

问题提出

算法设计

算法分析

Summary

Selecting the $t_{t h}$ largest