Files

T

Mortdecai b6d42d3237 Add 10 translations: ES, TH, FR, EO, PL, DE, PT, AR, TL, ZH

Complete translations of the full paper into:
- Spanish (README.es.md)
- Thai (README.th.md)
- French (README.fr.md)
- Esperanto (README.eo.md)
- Polish (README.pl.md)
- German (README.de.md)
- Portuguese/Brazilian (README.pt.md)
- Arabic/MSA (README.ar.md)
- Tagalog/Filipino (README.tl.md)
- Simplified Chinese (README.zh.md)

All translations preserve mathematical notation, LaTeX formulas,
citation numbers, and markdown formatting. Reference citations kept
in English with translated annotations.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-03-29 00:36:57 -04:00

50 KiB

Raw Permalink Blame History

未加权平均完成时间不是任务调度的公正指标

一项数学证明：未加权平均任务完成时间是一个有偏统计量，它激励挑选简单工作的行为，且它所显示的任何调度优势都是指标本身的伪影——而非真实吞吐量或服务质量的反映。

1. 引言

许多组织通过未加权平均完成时间来衡量任务执行绩效：即从任务提交到任务解决之间的平均小时（或天）数，每个任务不论规模或优先级一律等权计算。

本文证明，该指标不仅仅是不精确的，而且是结构性有偏的。它可以通过重新排列工作顺序来改善，而无需做任何额外工作（定理 1），而一个适当加权的替代指标则完全不受调度操纵的影响（定理 2）。当与优先级系统结合使用时，该指标会积极地与组织自身的优先级分类相矛盾（定理 9）。

论证分四个部分展开：

第一部分（第 2–4 节）建立数学基础：未加权平均可被最短处理时间优先（SPT, Shortest Processing Time）调度策略所操纵，工作量加权平均与调度顺序无关，由此产生的服务质量后果可证明是负面的。
第二部分（第 5–6 节）将模型扩展到具有优先级分类的任务，证明该指标会与优先级系统产生对抗性，并提出加权替代方案，附带一个 IT 服务台的实例。
第三部分（第 7–9 节）考察组织动态：当指标被报告给客户时会发生什么（信息不对称），当团队成员理解其缺陷时会发生什么（心理伤害），以及一位知情的管理者能做什么（带博弈论稳定性分析的约束优化）。
第四部分（第 10–12 节）提出诚实的反驳意见，将本工作置于现有文献中定位，并作出结论。

核心结果建立在 Smith（1956）的奠基性调度理论 [1] 之上，通过博弈论 [9, 10]、组织度量理论 [18, 19] 和心理学 [11–17] 加以扩展，从而追溯出一条完整的链条：从关于某一特定指标的数学证明到组织层面的后果。

第一部分：数学基础

2. 定义

设有 n 个任务，其处理时间为 $p_1, p_2, \ldots, p_n$。

调度方案 \sigma 是 \{1, 2, \ldots, n\} 的一个排列，将任务分配到单一执行者的执行顺序上。

在调度方案 \sigma 下，任务 \sigma(k) 的完成时间为：

C_{\sigma(k)} = \sum_{j=1}^{k} p_{\sigma(j)}

未加权平均完成时间为：

\bar{C}(\sigma) = \frac{1}{n} \sum_{k=1}^{n} C_{\sigma(k)}

工作量加权平均完成时间为：

\bar{C}_w(\sigma) = \frac{\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)}}{\sum_{k=1}^{n} p_{\sigma(k)}}

3. 核心结果

3.1 未加权平均可被操纵

定理 1（Smith, 1956 [1]）。使 \bar{C}(\sigma) 最小化的调度方案是最短处理时间优先（SPT）：按 p_{\sigma(1)} \le p_{\sigma(2)} \le \cdots \le p_{\sigma(n)} 排序任务。

证明（交换论证 [1, 2]）。

考虑任意调度方案 $\sigma$，其中两个相邻任务 i, j 满足 $p_i > p_j$，且任务 i 被安排在任务 j 的紧前方。设 t 为任务 i 的开始时间。

	任务 `i` 完成	任务 `j` 完成	合计
交换前（`i` 在 `j` 前）	`t + p_i`	`t + p_i + p_j`	`2t + 2p_i + p_j`
交换后（`j` 在 `i` 前）	`t + p_j`	`t + p_j + p_i`	`2t + p_i + 2p_j`

完成时间之和的变化为：

(2p_i + p_j) - (p_i + 2p_j) = p_i - p_j > 0

每次将较长任务与其后方较短任务交换，都会严格减少完成时间总和。任何非 SPT 调度方案都包含这样的相邻对。反复交换收敛于 SPT。因此 SPT 唯一地最小化 $\bar{C}(\sigma)$。\blacksquare

3.2 工作量加权平均与调度方案无关

定理 2。 工作量加权平均完成时间 \bar{C}_w(\sigma) 对于所有调度方案 \sigma 均相同。

证明。

展开分子：

\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_{k=1}^{n} p_{\sigma(k)} \sum_{j=1}^{k} p_{\sigma(j)}

令 $a = \sigma(k)$，b = \sigma(j) 重新标号。该双重求和计算所有满足 b 排在 a 之前或与 a 同位的有序对 $(a, b)$：

= \sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b

对于 a \ne b 的任何一对，\{b \preceq_\sigma a\} 或 \{a \prec_\sigma b\} 恰好成立其一。对角项（$a = b$）无论顺序如何，贡献 $p_a^2$。因此：

\sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b = \sum_{a} p_a^2 + \sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b

连同互补求和，两个非对角求和覆盖所有无序对：

\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b + \sum_{\substack{a \ne b \\ a \prec_\sigma b}} p_a \, p_b = \sum_{a \ne b} p_a \, p_b

右侧与调度方案无关。由 p_a p_b 的对称性，两个非对角求和相等：

\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b = \frac{1}{2} \sum_{a \ne b} p_a \, p_b

因此：

\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_a p_a^2 + \frac{1}{2} \sum_{a \ne b} p_a \, p_b = \frac{1}{2}\left(\sum_a p_a\right)^2 + \frac{1}{2}\sum_a p_a^2

该表达式不包含对 \sigma 的引用。由于分母 \sum p_a 同样与调度方案无关：

\bar{C}_w(\sigma) = \frac{\frac{1}{2}\left(\sum p_a\right)^2 + \frac{1}{2}\sum p_a^2}{\sum p_a}

在所有调度方案下均为常数。\blacksquare

这是 Coffman、Shanthikumar 和 Yao [20] 所发现的调度守恒律的一个实例。该不变性对应于度量一个工作单元等待了多长时间，而非一个任务等待了多长时间——未加权统计量计算的是完成次数而非工作量，这正是它可被操纵的原因。（另见 Little [3, 4] 的排队论背景，需注意 Little 定律仅直接适用于稳态系统，而非本文分析的批处理情形。）

3.3 说明性示例

两个任务：$A$，p_A = 1 小时；$B$，p_B = 10 小时。

调度方案	`C_A`	`C_B`	未加权平均	工作量加权平均
SPT（A 在先）	1	11	6.0	111/11 ≈ 10.09
逆序（B 在先）	11	10	10.5	111/11 ≈ 10.09

SPT 在未加权指标上看起来好了 4.5 小时，但在工作量加权指标上改善为零。这种表面优势之所以存在，仅仅是因为未加权统计量让 1 小时的任务与 10 小时的任务拥有相同的"投票权"。

4. 对服务质量的影响

4.1 大型任务的饥饿

定理 3（指标偏差）。 任何最小化未加权平均完成时间的调度策略，必然会最大化最大任务的完成时间。

证明。 SPT 将最大的任务放在最后。其完成时间等于总处理时间 $\sum p_i$，这是任何单个任务可能的最大完成时间。在任何不将最大任务放在最后的调度方案中，该任务严格更早完成。 \blacksquare

这产生了一种饥饿激励：理性地优化未加权统计量的行为者会无限期地推迟大型任务，转而处理小型任务。Austin [18] 在组织绩效管理的背景下识别了这一普遍模式——不完整的度量会产生激励，使人们优化被度量的维度，而牺牲未被度量的维度。定理 3 提供了任务调度场景下的具体机制。

4.2 最大任务的最大完成时间

定理 4（SPT 唯一地最大化最大任务的完成时间）。 在所有调度方案中，SPT 是唯一使最大任务获得最大可能完成时间（$\sum p_i$）的策略。

证明。 SPT 按 p_i 升序排列任务，将最大任务 p_{\max} 置于最后位置。任何调度方案中最后一个任务的完成时间为 $\sum_{i=1}^{n} p_i$，这是任何单个任务所能获得的最大值。在任何不将 p_{\max} 放在最后的调度方案中，它严格在 \sum p_i 之前完成。\blacksquare

推论 4.1。 优化未加权平均完成时间的团队将系统性地为需求最复杂的客户提供最差的体验。这不是副作用——这是指标改善的机制。

关于减速比的说明。 SPT 实际上压缩了减速比（$S_i = C_i / p_i$），因为处于较后位置的大型任务具有较大的分母，可以吸收累积的总和。例如，对于任务 $[1, 5, 10]$： SPT 给出减速比 $[1, 1.2, 1.6]$（低方差），而最长处理时间优先（LPT）给出 $[1, 3, 16]$（高方差）。SPT 对大型任务客户的伤害在减速比中并不可见——它在绝对完成时间中可见。这一区分很重要：调度公平性文献 [21, 22, 23] 主要通过基于减速比的度量来讨论 SPT/SRPT 的不公平性，这可能掩盖下文所证明的绝对延迟负担。

4.3 延迟集中

定理 5（SPT 将延迟集中在最大任务上）。 在 SPT 下，最大任务承受的绝对延迟多于任何其他调度方案。

证明。 定义绝对延迟为 $\Delta_i = C_i - p_i$（等待时间，与自身大小无关）。在 SPT 下，最大任务处于位置 $n$：

\Delta_{\max\text{-task}}^{\text{SPT}} = C_n - p_n = \sum_{i=1}^{n-1} p_i

这是所有其他任务处理时间之和——任何单个任务可能的最大延迟。在任何最大任务不在最后的调度方案中，其延迟严格更小。同时， SPT 给最小任务零延迟（$\Delta_1^{\text{SPT}} = 0$）。全部排队负担从小型任务转移到了大型任务。\blacksquare

SPT 通过将延迟集中到在减速比意义上最能吸收它的任务上，来最小化总延迟（有利于总体效率）。但在绝对意义上——等待的小时数——最大的任务承受了全部重量。

4.4 吞吐量不变性

定理 6（吞吐量不变性）。 在任何时间范围 T 内完成的总工作量在所有调度策略下均相同。

证明。 执行者以固定速率处理工作。在任何时间范围 T \ge \sum p_i 内，完成的总工作量恰好为 $\sum p_i$，与顺序无关。对于有持续到达任务的稳态情形，长期吞吐量由服务速率 \mu 决定，完全不依赖于调度：

\lim_{T \to \infty} \frac{W(T)}{T} = \mu \quad \text{对所有调度方案 } \sigma

\blacksquare

推论 6.1。 一个从任何调度策略切换到 SPT 的团队，将在未加权平均完成时间上观察到改善，而实际吞吐量零变化。指标改善了。产出没有改变。

4.5 复合效应

结合定理 4、5 和 6：

度量	优化未加权平均的效果
吞吐量（工作量/时间）	无变化（定理 6）
小型任务的延迟	最小化——趋近于零（SPT）
大型任务的延迟	最大化——承受全部排队负担（定理 5）
最大任务的完成时间	最大可能值：$\sum p_i$（定理 4）

对感知质量的净效果是负面的，因为：

损失厌恶是不对称的 [8]。一个 100 小时任务被降低优先级的客户会经历一个巨大的、显著的负面体验。一个 1 小时任务被加速的客户只会经历一个微小的、往往不被注意的正面体验。
高工作量任务与高价值客户相关。 大型任务不成比例地更可能来自主要客户、复杂合同或关键业务需求。
饥饿效应会累积。 在连续系统中（定理 3），大型任务可能被无限期推迟，因为新的小型任务持续到达。

定理 7（核心结果）。 对于处理非均匀大小任务的团队，采用未加权平均完成时间作为绩效指标：

(a) 提供零生产力增益（定理 6），同时 (b) 将最大可能完成时间分配给最大的任务（定理 4），并且 (c) 将所有排队延迟集中到最大的任务上，同时消除最小任务的延迟（定理 5）。

这不是一个权衡。该指标创造了一个纯粹的服务质量转移：从高工作量客户转向低工作量客户，而没有获得任何净工作量。 \blacksquare

第二部分：优先级系统

5. 在优先级分类下的失效

前述章节证明了当任务大小不同时，未加权平均完成时间是有偏的。我们现在将证明，引入优先级系统——几乎所有实际团队都使用优先级系统——会导致该指标不仅仅是有偏的，而是积极地与组织的既定目标对抗。

5.1 扩展模型：带优先级的任务

设每个任务 i 具有处理时间 p_i 和优先级类别 $q_i \in {1, 2, 3, 4}$，其中 1 为最高优先级（关键）， 4 为最低（装饰性/增强型）。分配优先级权重：

w(q) = \begin{cases} 8 & q = 1 \text{（关键）} \\ 4 & q = 2 \text{（高）} \\ 2 & q = 3 \text{（中）} \\ 1 & q = 4 \text{（低）} \end{cases}

具体权重仅为说明性的；结论对任何严格递减的权重函数成立。关键性质是：优先级根据业务影响而非任务大小来分配。

5.2 指标与优先级系统相矛盾

定理 8（优先级-大小逆转）。 当优先级与任务大小无关时，最小化未加权平均完成时间的调度方案（SPT）将在期望意义上，在更大的高优先级任务之前完成低优先级任务。

证明。 SPT 按 p_i 升序排列任务，不考虑 $q_i$。考虑两个任务：

任务 A：p_A = 40 小时，$q_A = 1$（关键——例如服务器宕机）
任务 B：p_B = 0.5 小时，$q_B = 4$（低——例如界面装饰修复）

SPT 将 B 排在 A 之前。这一对的未加权平均：

\bar{C}^{\text{SPT}} = \frac{0.5 + 40.5}{2} = 20.5 \qquad \bar{C}^{\text{priority}} = \frac{40 + 40.5}{2} = 40.25

该指标宣称 SPT 好了将近一倍——尽管它是在服务器宕机期间完成了一个装饰性修复。

一般而言，当 q_i 与 p_i 统计独立时，SPT 的排序与优先级的相关性为零。实际上，关键任务（宕机、安全事件、数据丢失）往往比低优先级任务需要更多工作，因此该指标与优先级系统可能呈负相关。\blacksquare

5.3 信息销毁

未加权平均将三维任务 (p_i, q_i, C_i) 化约为一维信号（$C_i$），然后均匀平均。这完全丢弃了优先级信息，并隐式地反转了大小。

定理 9（信息销毁）。 设 I(\sigma) 为调度方案的隐式优先级排序（位置）与实际优先级分配 q_i 之间的互信息。对于 SPT：

I(\sigma_{\text{SPT}}) = 0 \quad \text{当 } p_i \perp q_i

证明。 SPT 仅根据 p_i 分配位置。当 p_i 和 q_i 独立时，知道任务在 SPT 调度中的位置对其优先级提供零信息。 \blacksquare

推论 9.1。 优化未加权平均完成时间的团队所运行的调度系统，关于其自身优先级分类携带零信息。他们工单系统中的优先级字段，就执行顺序而言，纯属装饰。

这是 Austin [18] 所称的不完整度量的根本问题的一个实例：当度量系统仅捕获相关维度的子集时，对度量的优化会系统性地劣化未被度量的维度。

5.4 优先级加权延迟成本

定义调度方案的优先级加权延迟成本：

D(\sigma) = \sum_{i=1}^{n} w(q_i) \cdot C_i

定理 10（SPT 与优先级加权延迟成本）。 使 D(\sigma) 最小化的最优调度方案是 WSJF（加权最短作业优先, Weighted Shortest Job First）：按 w(q_i)/p_i 降序排列 [1, 5]。SPT 的排序——按 1/p_i 降序—— 完全忽略优先级，当优先级与任务大小相关时，会产生比尊重优先级的替代方案更高的 $D$。

证明。 通过交换论证，交换相邻任务 i, j 使 D 变化：

\Delta D = w(q_j) \cdot p_i - w(q_i) \cdot p_j

当 w(q_j)/p_j > w(q_i)/p_i 但 j 排在 i 之后时，交换改善 $D$。因此最优顺序是 w(q_i)/p_i 递减——即 WSJF 规则。 SPT 仅在 $w(q_i) = \text{const}$（所有任务优先级相同）时等价于 WSJF。

示例。 关键（w = 8, $p = 3$）和低（w = 1, $p = 2$）：

SPT（低优先级在先）：D = 1 \cdot 2 + 8 \cdot 5 = 42
WSJF（关键在先）：D = 8 \cdot 3 + 1 \cdot 5 = 29

SPT 产生了多 45% 的优先级加权延迟。在实际中，关键任务往往更大（宕机、安全事件），使得这种偏离具有系统性。 \blacksquare

6. 建议的解决方案

6.1 优先级加权指标

用优先级加权完成得分（PWCS, Priority-Weighted Completion Score） 替代未加权平均完成时间：

\text{PWCS}(\sigma) = \frac{\sum_{i=1}^{n} w(q_i) \cdot \frac{C_i}{p_i}}{\sum_{i=1}^{n} w(q_i)}

这是优先级加权平均减速比。它度量每个任务相对于其大小等待了多长时间，并按该任务的重要程度加权。越低越好。

性质：

尊重优先级。 关键任务的延迟成本是低优先级任务的 8 倍。
大小公平。 使用减速比 $C_i / p_i$，因此大型任务不会因为本身较大而被惩罚。
不可被 SPT 操纵。 按处理时间重新排序不会系统性地改善该得分。
在任务均匀时退化为未加权平均。 是严格的推广。

6.2 最优策略：WSJF

定理 11。 使优先级加权完成时间 \text{PWCT}(\sigma) = \sum w(q_i) \cdot C_i / \sum w(q_i) 最小化的调度方案，按 w(q_i)/p_i 递减的顺序处理任务——即 加权最短作业优先（WSJF, Weighted Shortest Job First） 规则 [1, 5]。

证明。 通过交换论证（同定理 10），交换相邻任务 i, j 在 w(q_j)/p_j > w(q_i)/p_i 但 j 排在 i 之后时改善 PWCT（Priority-Weighted Completion Time，优先级加权完成时间）。因此最优顺序为 w(q_i)/p_i 递减。\blacksquare

在同一优先级类别内，这退化为 SPT（最短优先）。跨类别时，一个关键的 4 小时任务（$w/p = 2.0$）优于一个低优先级的 1 小时任务（$w/p = 1.0$）。

实际注意事项。 纯粹的 WSJF 可能将微小的低优先级任务排在大型关键任务之前（一个 15 分钟的低优先级任务有 $w/p = 1/0.25 = 4.0$，超过一个 6 小时关键任务的 $w/p = 8/6 = 1.33$）。在实际中，通过强制执行严格的优先级类别排序并仅在每个类别内部应用 WSJF 来缓解此问题。

6.3 应用示例：IT 服务台

考虑一个具有以下工单队列的 IT 团队：

工单	优先级	类型	预估工时
T1	P1（关键）	邮件服务器宕机	6
T2	P2（高）	远程团队 VPN 故障	4
T3	P3（中）	新员工笔记本配置	2
T4	P4（低）	更新桌面壁纸策略	0.5
T5	P3（中）	安装软件许可证	1
T6	P1（关键）	数据库备份失败	3
T7	P2（高）	打印机集群离线	2
T8	P4（低）	归档旧共享驱动器文件夹	0.25

SPT 顺序（优化未加权平均）：T8, T4, T5, T3, T7, T6, T2, T1

位置	工单	优先级	工时	完成时间	减速比
1	T8（归档文件夹）	P4 低	0.25	0.25	1.0
2	T4（壁纸）	P4 低	0.5	0.75	1.5
3	T5（软件）	P3 中	1	1.75	1.75
4	T3（笔记本）	P3 中	2	3.75	1.875
5	T7（打印机）	P2 高	2	5.75	2.875
6	T6（备份）	P1 关键	3	8.75	2.917
7	T2（VPN）	P2 高	4	12.75	3.188
8	T1（邮件）	P1 关键	6	18.75	3.125

实用 WSJF（优先级类别优先，类别内 SPT）：

位置	工单	优先级	工时	完成时间
1	T6（备份）	P1 关键	3	3
2	T1（邮件）	P1 关键	6	9
3	T7（打印机）	P2 高	2	11
4	T2（VPN）	P2 高	4	15
5	T5（软件）	P3 中	1	16
6	T3（笔记本）	P3 中	2	18
7	T8（归档）	P4 低	0.25	18.25
8	T4（壁纸）	P4 低	0.5	18.75

对比：

指标	SPT	实用 WSJF	优胜者
未加权平均完成时间	6.56 小时	13.63 小时	SPT
P1 平均解决时间	13.75 小时	6 小时	WSJF
P2 平均解决时间	9.25 小时	13 小时	SPT
修复邮件服务器的时间	18.75 小时	9 小时	WSJF
修复数据库备份的时间	8.75 小时	3 小时	WSJF
更新壁纸的时间	0.75 小时	18.75 小时	SPT

聚合优先级加权完成时间几乎相同（PWCT：10.2 vs 10.17），因为聚合隐藏了分布性损害。真正的差异在于按优先级类别分解的结果：邮件服务器在 SPT 下宕机 18.75 小时，而在 WSJF 下为 9 小时。数据库备份失败 8.75 小时 vs 3 小时。

未加权指标自信地报告 SPT 效率超过两倍（6.56 vs 13.63），奖励了在邮件服务器着火时更新桌面壁纸的团队。

6.4 推荐指标套件

即使是优先级加权的聚合指标也可能无法区分好的和坏的调度方案，因为聚合隐藏了分布性损害。没有单一指标足够。一个完整的度量系统应当跟踪：

指标	度量内容	公式
按优先级类别的平均完成时间	各类别响应速度	按 `q` 过滤的 `\bar{C}`
P1 平均解决时间	关键事件响应	`q = 1` 的 `\bar{C}`
吞吐量	原始工作能力	完成工时 / 日历时间
老化违规	饥饿预防	按优先级超出 SLA 的任务
最大完成时间（P1/P2）	最坏情况关键响应	`q \le 2` 的 `\max(C_i)`

关键洞察：按优先级类别的指标可以暴露出聚合指标所隐藏的调度失败。

第三部分：组织动态

7. 当指标成为产品

第 2–6 节假设客户满意度是实际体验到的服务质量的函数。但存在一种场景，在该场景下此假设不成立，整个论证会崩溃。

7.1 自指指标

假设服务提供方将未加权平均直接报告给客户——在仪表板上、在 SLA 报告中、在营销页面上——而客户的满意度主要来自 那个数字：

U_{\text{client}} = f\!\left(\bar{C}(\sigma)\right), \quad f' < 0

在此模型下，SPT 确实最大化了客户满意度（定理 1）。吞吐量不变（定理 6）。业务结果改善：同样的工作完成了，客户更满意。

本文中的每一个定理在数学上仍然正确。但结论反转了。 指标不再是一个可以被操纵的代理变量——它就是服务质量，因为客户已同意按该聚合数字来评价质量。

7.2 经济学分析

这创造了一个一致的、稳定的均衡：

参与者	行为	结果
服务提供方	优化未加权平均（SPT）	指标改善，无额外工作
客户	查看仪表板，看到低平均值	报告满意
管理层	看到满意的客户 + 好的指标	奖励团队

服务提供方以零边际成本提取满意度，通过优化一个客户已接受的质量代理数字来实现。

7.3 脆弱性

此均衡仅在客户从不检视自身实际体验时才是稳定的。以下情况会打破它：

客户检查自己的工单。 一位邮件服务器宕机 18.75 小时的 CTO 不会因"平均解决时间：6.56 小时"而感到宽慰。最可能检查的客户恰恰是获得最差服务的客户（定理 4）。
竞争对手提供按工单的 SLA。 "P1 在 4 小时内解决" 对任何有关键需求的客户而言，优于"平均解决时间低于 7 小时"。
团队将指标内化。 如果团队相信该指标反映了真实绩效，他们就失去了识别关键工作被忽视的能力。指标成为一种认知危害。

7.4 一般模式

这种模式——代理变量替代质量，代理变量被优化，质量偏离，系统在被现实检验之前保持稳定——在各领域反复出现。 Muller [19] 将其广泛记录为"指标固化"；Campbell [24] 形式化了将指标用作目标时的腐蚀效应。

领域	代理指标	底层质量	偏离
IT 支持	平均解决时间	关键系统正常运行时间	服务器宕机 19 小时，平均值显示 6.5
教育	考试分数	实际学习	应试教育
医疗	患者吞吐量	患者结果	更快出院，更高再入院率
金融	季度盈利	长期价值	削减成本推高 EPS，侵蚀能力
软件	速率（故事点）	产品质量	点数通胀，功能半成品

7.5 信息不对称

将系统建模为服务提供方（P）和客户（C）之间的博弈。P 观察到各个 \{C_i\} 并选择 $\sigma$；C 仅观察到 $\bar{C}(\sigma)$。这是一个道德风险问题 [10]：P 的最优策略是最小化可观察信号，不顾不可观察分布如何。

该均衡是一个混同均衡 [9]：P 报告的指标无论底层优先级加权绩效如何，看起来都是相同的。它在 C 获得各个 C_i 值的访问权之前保持稳定——通过客户门户、竞争对手的透明度或一次足够痛苦的事件。

7.6 令人不安的结论

对"优化未加权平均是否损害业务？"的诚实回答是：不一定，只要客户从不查看数字背后的实际情况。对"这是否可持续？"的诚实回答是：它的可持续性与任何卖方比买方知道更多的系统完全一样——在较长时期内稳定，然后在不对称性被刺破时迅速崩溃。

8. 知情的心理代价

第 7 节将服务提供方建模为一个统一的行为者。但团队由个人组成。当一位团队成员理解了这个证明——当他们知道该指标是人造的，仪表板是一场表演，邮件服务器仍然宕机而他们在关闭壁纸工单——一种新的成本出现了，而均衡模型忽略了这一成本。

8.1 隐含变量：团队认知

参与者	观察到各个 `C_i`	观察到 `\bar{C}`	理解该证明
管理层	可能	是	不一定
团队成员	是	是	是（在此场景下）
客户	否	是	否

团队成员拥有完整信息。他们看到工单队列。他们知道邮件服务器从早上 7 点就宕机了。他们知道自己在关闭一个壁纸工单，因为这会改善那个数字。他们知道为什么。

8.2 完全信息下的认知失调

认知失调 [11] 产生于个体持有矛盾认知时。在不理解原因的情况下，矛盾可以被合理化："管理层比我们懂。"理解了该证明则消除了模糊性。团队成员现在同时持有：

认知 A： "我是一名有能力的专业人员。我的工作是解决重要问题。"
认知 B： "我正在邮件服务器宕机时关闭一个壁纸工单，因为该指标在数学上有偏（定理 1），重新排序产生零吞吐量（定理 6），唯一的受益者是仪表板（第 7 节）。我能证明这一点。"

认知失调现在是承重的。可用的解决方式——放弃职业身份认同、否认该证明、倡导变革或离开——每一种都施加了此前不存在的成本。

8.3 自我决定理论：三种需求被违反

Deci 和 Ryan 的自我决定理论（SDT, Self-Determination Theory） [12, 13] 识别了预测内在动机的三种需求：

自主性。 该指标以团队成员知道在数学上次优的方式约束其选择。一个理解该过程可证明是适得其反的工作者，不可能在遵循该过程时感到自主。

胜任感。 该指标奖励表面上的效能（低 $\bar{C}$），同时对实际的效能无感（定理 6）。真正的胜任表现——首先修复邮件服务器——被指标惩罚。

归属感。 团队成员知道客户的邮件服务器宕机了。他们可以帮忙。他们却在更新壁纸——不是因为这帮助了任何人，而是因为这帮助了一个数字。工作与人类影响之间的连接已被切断，而团队成员能看到断裂的两端。

8.4 道德伤害

道德伤害 [16, 17] 是由"实施、未能阻止、目睹或知晓违反深层道德信念的行为"[17] 所造成的持久伤害。该概念此后已被扩展到商业环境 [25]。与倦怠的关键区别在于：倦怠是因为做太多而精疲力竭。道德伤害是因为做错事而受到损害。

一位知道邮件服务器宕机、知道应该修复它、却关闭了一个壁纸工单、且这样做是因为指标要求如此的团队成员，正在经历道德伤害的结构性条件。

8.5 习得性无助与指标宿命论

Seligman 的习得性无助理论 [14, 15] 描述了暴露于不可控的负面结果如何导致被动。其序列为：

指标有缺陷（证明已理解）。
倡导变革。
被拒绝（"数字很好看，别兴风作浪"）。
以递减的信念重复。
终态："指标就是这样的。我就关工单吧。"

这不是懒惰。这是对一个惩罚正确行为、奖励错误行为的系统的理性反应——当个人无力改变该系统时。

8.6 逆向选择螺旋

将第 7 节的均衡与人员流动动态相结合：

组织采用未加权平均。指标看起来很好（SPT）。
有认知的、有能力的团队成员承受心理代价（8.2–8.5）。
这些成员离开。被不理解指标缺陷或不在意的成员替代。
指标继续看起来很好——在 SPT 下它总是如此，无论团队能力如何（推论 6.1）。
实际服务质量下降，但指标无法检测到（推论 9.1）。
回到步骤 1。

指标逆向选择了人才：淘汰那些会改善系统的人，留下那些不会质疑系统的人。系统在更低的能力水平上稳定下来，这对其自身的度量装置是不可见的。

8.7 完整成本模型

第 7 节（可见的）	第 8 节（隐藏的）
客户满意（好数字）	团队不满（坏现实）
吞吐量不变	自主努力被撤回
指标改善	有能力的成员离开
商业经济稳定	机构能力退化

这些在不同的时间尺度上运作：均衡在季度层面可见；能力退化在数年后才可见。完整模型是：指标有效，且它是破坏性的，而破坏对指标本身不可见。 指标是腐蚀钢筋上的新漆。

9. 管理者内化：可操作的解决方案

第 2–6 节说应当拒绝该指标。第 7 节说该指标有效（对业务而言）。第 8 节说它摧毁团队。在实践中，大多数管理者无法单方面改变指标。最佳解决方案是全公司范围的指标改革。 可操作的解决方案是一位知情的管理者现在就能做的事情。

9.1 策略

理解该证明的管理者可以内化指标的局限性，而不将其传播给团队：

主要按优先级调度。 团队首先处理关键任务。
策略性地穿插小型任务。 当一个小的低优先级任务可以在不实质性延迟高优先级工作的情况下完成时，就去做它。不是因为指标要求，而是因为它也需要完成，且几乎不花什么代价。
绝不将指标作为动机来源透露。 "趁我们等 P1 供应商回电话的时候，把这个快速的处理掉"——而不是"我们需要降低我们的平均值"。团队的内在动机保持完整（第 8 节）。管理者吸收了指标管理的负担。

9.2 形式化

管理者的问题是一个约束优化问题：

\min_{\sigma} \sum_{i=1}^{n} w(q_i) \cdot C_i \quad \text{subject to} \quad \bar{C}(\sigma) \le \bar{C}_{\text{target}}

定理 12（优先级调度的有界指标成本）。 一位在每个优先级类别内部使用 SPT、在类别之间使用优先级排序的管理者，将产生接近 SPT 最优值的指标——差距仅来自跨类别逆序。

证明概要。 在每个优先级类别内，SPT 是免费的（所有任务具有相同优先级）。与全局 SPT 的唯一偏差是跨类别排序。每个跨类别逆序最多在未加权总和中增加 p_{\text{large}} - p_{\text{small}} 的成本，而这些逆序的数量受类别数量限制。在实际中，差距通常在 SPT 最优值的 10–20% 以内。\blacksquare

9.3 管理者作为信息屏障

层级	看到指标	看到优先级	看到证明
组织	是	名义上	否
管理者	是	是	是
团队	否（被屏蔽）	是	无关
客户	是（仪表板）	通过 SLA	否

管理者是唯一同时持有这三部分信息的参与者。这不是操纵—— 他们在以正确的顺序做正确的工作，而指标恰好可以接受，因为类别内的 SPT 是免费的。

9.4 竞争性失效

当指标在团队间成为竞争性的时，此策略失效。

情形 1：合作型 —— 团队的度量目标为达标而非排名。每位管理者独立使用内化策略。指标是装饰性的但无害的。这是一个具有稳定合作均衡的协调博弈。

情形 2：竞争型 —— 团队按 \bar{C} 排名。这是一个 囚徒困境：

	团队 B：优先级优先	团队 B：SPT
团队 A：优先级优先	（好工作, 好工作）	（A 看起来差, B 看起来好）
团队 A：SPT	（A 看起来好, B 看起来差）	（都看起来好, 都做了错误的工作）

纳什均衡为（SPT, SPT）。内化策略是一个在竞争下 不稳定的合作均衡。

9.5 适用范围

条件	可行性
指标用于健康检查 / 达标检查	可行
指标可见但不排名	可行
指标跨团队排名	脆弱——需要所有管理者合作
指标与薪酬 / 资源挂钩	不可行——囚徒困境占主导
可在组织层面进行指标改革	不需要——直接修正指标

最佳解决方案是全公司范围的。可操作的解决方案是一位理解本证明的管理者，屏蔽团队不受该指标影响，按优先级调度，并仅在优先级类别内部使用 SPT 以保持数字在合理范围内。

第四部分：评估

10. 魔鬼代言人

学术诚信要求承认论证的局限性所在。

10.1 简单性具有真实价值

论点。 未加权平均不需要优先级权重、不需要任务大小估计、不需要校准。

评估：正确。 但未加权指标并非避免了假设——它只是将假设隐藏了，隐式地将所有权重设为 1、所有大小设为 1。一个已知不精确的任务大小估计，仍然比隐式假设所有大小相同更有信息量。

10.2 最小化等待人数

论点。 SPT 最小化了总的人-小时等待时间。如果每个任务代表一个客户，这是最优的。

评估：数学上正确。 如果你运营一个车管所，且每个人的时间同等宝贵，SPT 是正确的策略。当任务与客户不是一一对应、等待成本不均匀、或该指标用于评估团队而非服务实际队列时，它就失效了。

10.3 SPT 作为分诊启发式

论点。 当任务大小聚集紧密时，SPT 近似于先到先服务（FIFO），而未加权平均近似于加权平均。

评估：正确。 变异系数 CV = \sigma_p / \bar{p} 决定了失真严重程度：

`CV`	任务大小分布	失真程度
< 0.3	紧密（呼叫中心）	可忽略
0.3 – 1.0	中等（混合 IT）	中等
> 1.0	宽泛（典型 IT 队列）	严重

典型的 IT 服务台跨度从 15 分钟到 40 小时以上（$CV > 2$）。失真不是边缘情况——它是默认状态。

10.4 操纵需要恶意

论点。 定理表明指标可以被操纵，而非将会被操纵。

评估：这是最有力的反驳论点。 如果指标纯粹是信息性的，从不影响行为，则操纵激励不存在。然而，任何报告给管理层、与 OKR 挂钩或在回顾会议中讨论的指标都会影响行为。这是古德哈特定律 [6, 7]——它适用于善意的团队，与适用于玩世不恭的团队一样可靠。偏离是有机发生的：完成三个简单工单 "感觉高效"，而指标验证了这种感觉。

10.5 未加权平均可辩护的条件

该指标仅在以下四个条件同时成立时才可辩护：

任务大小近似均匀（$CV < 0.3$）
无优先级区分（所有任务同等重要）
每个任务恰好代表一个客户
该指标不被用于评估、奖励或引导行为

这些条件在该指标最常被使用的系统中很少满足。

11. 相关工作

本文位于若干此前未被关联的文献的交汇处。

11.1 调度理论与公平性

Smith [1] 于 1956 年建立了 SPT 最优性结果和 WSJF 规则。 Conway、Maxwell 和 Miller [2] 提供了全面的教科书论述。基于大小的调度策略的公平性在计算机系统调度领域已有讨论： Bansal 和 Harchol-Balter [22] 研究了 SRPT 的不公平性； Wierman 和 Harchol-Balter [23] 通过与处理器共享的比较形式化了公平性分类；Angel、Bampis 和 Pascual [21] 度量了 SPT 调度在公平最优性准则下的质量。

这些先前工作分析的是 CPU 和服务器调度中的公平性。本文将相同的数学结果应用于组织任务管理，其中"调度器"是人类团队， "作业"是具有业务影响优先级的客户请求，而"目标函数"是管理指标。机制是相同的；后果不同，因为组织调度具有优先级系统、客户关系和心理成本，而 CPU 调度没有。

11.2 度量失灵

Austin [18] 证明了不完整度量——仅度量相关维度的子集—— 会产生激励，使人优化被度量的维度而牺牲未被度量的维度，且当度量与奖励挂钩时，这一效应不仅仅是可能的，而是 不可避免的。他的信息不对称框架与第 7 节密切对应。本文为任务调度情形提供了具体的数学机制（定理 1–2），并通过心理学（第 8 节）扩展了论证，以追溯组织危害的完整链条。

Muller [19] 记录了教育、医疗、警务和金融领域的"指标固化" 现象，为第 7.4 节所理论化的模式提供了广泛的实证证据。 Campbell [24] 形式化了将指标用作目标时的腐蚀效应，补充了 Goodhart 的原始观察 [6] 和 Strathern 的推广 [7]。

Bevan 和 Hood [26] 实证记录了英国公共卫生系统中的博弈行为 ——包括我们第 5.2 节所描述的"达到目标却偏离要点"的确切模式。

11.3 指标失灵的心理代价

将道德伤害（Shay [16]，Litz 等 [17]）应用于商业环境有近期先例：2024 年 Journal of Business Ethics 的一项研究 [25] 明确将该概念扩展到营利性工作场所，发现了与第 8.4 节所描述的类似的结构性条件。Moore [27] 分析了道德脱离—— 在组织压力下使不道德行为成为可能的认知重构。本文讨论的是互补现象：对拒绝脱离的个体造成的伤害。

11.4 本文的新颖之处

各个组成部分——SPT 最优性、古德哈特定律、度量失灵、道德伤害——都有先例。本文的贡献在于：

守恒律（定理 2）的规范性使用——作为工作量加权完成时间不可能被操纵的建设性论证，而非仅作为一个理论调度结果。
优先级分类使指标在代数意义上具有对抗性的具体证明 （定理 8–9）——不仅仅是经验上的不好，而是结构上的矛盾，在调度方案与优先级系统之间的互信息为零。
从数学证明经信息不对称经心理伤害到逆向选择螺旋的完整链条——追溯单一指标从 Smith（1956）到组织空心化的过程。
管理者内化策略（第 9 节），附带其在团队间竞争下的稳定性与失效条件的正式博弈论分析。
将调度理论应用于组织管理批判——证明一个常用的团队指标具有特定的、可量化的病理特征，而非仅凭轶事或一般原则立论。

12. 结论

未加权平均完成时间是一个有偏统计量，它：

可被调度策略操纵（定理 1），不同于工作量加权完成时间的调度不变性（定理 2）。
激励大型任务的饥饿（定理 3）。
降低客户满意度，且零补偿性生产力增益（定理 7）。
积极与优先级系统矛盾，关于业务影响分类携带零信息（定理 9）。
在其调度建议中完全忽略优先级，当优先级与大小不是完全负相关时，产生次优的优先级加权延迟（定理 10）。

一个可以通过重新排列工作顺序来改善——而无需做任何额外工作——的指标，度量的是调度策略，而非系统的能力。当与优先级系统结合时，它推荐的调度方案会对最高优先级的工作造成最大的损害。

当该指标被报告给客户时，它创造了一种信息不对称（第 7 节），其商业均衡是有利可图的但脆弱的。当团队成员理解其缺陷时，它侵犯他们的内在动机，并选择性地导致最有能力的人离开（第 8 节）。一位知情的管理者可以通过约束优化部分地缓解这些效应（第 9 节），但这种合作策略在团队间竞争下是不稳定的。

未加权平均仅在狭窄条件下可辩护（第 10.5 节）：均匀的任务大小、无优先级、一对一的客户-任务映射以及无行为影响。这些条件很少满足。

未加权平均完成时间不是一个公正或准确的任务执行绩效度量。将其作为团队指标采用，将理性地产生复杂工作的饥饿、既定优先级的违反、不公平的客户结果，以及在不存在生产力的地方制造生产力的幻觉。

最佳解决方案是组织层面的指标改革。可操作的解决方案是一位理解本证明的管理者。

参考文献

Scheduling Theory

[1] Smith, W. E. (1956). Various optimizers for single-stage production. Naval Research Logistics Quarterly, 3(1–2), 59–66. doi:10.1002/nav.3800030106

SPT 最优性结果（定理 1）、加权完成时间规则 w_i/p_i 降序（WSJF，定理 11）以及全文所用的相邻作业成对交换（交换论证）证明技术的来源。

[2] Conway, R. W., Maxwell, W. L., & Miller, L. W. (1967). Theory of Scheduling. Addison-Wesley.

单机调度理论的标准教科书论述，扩展了 Smith 的结果。

[3] Little, J. D. C. (1961). A proof for the queuing formula: L = λW. Operations Research, 9(3), 383–387. doi:10.1287/opre.9.3.383

Little 定律的首次严格证明。在第 3.2 节中因排队论背景而引用。

[4] Little, J. D. C. (2011). Little's Law as viewed on its 50th anniversary. Operations Research, 59(3), 536–549. doi:10.1287/opre.1110.0941

回顾性文章，讨论适用范围、局限性和常见误用。

[5] Reinertsen, D. G. (2009). The Principles of Product Development Flow: Second Generation Lean Product Development. Celeritas Publishing. ISBN: 978-0-9844512-0-8.

在敏捷/精益背景下推广了 WSJF 和"延迟成本/工期"的概念。数学基础源自 Smith（1956）[1]。

Measurement and Incentives

[6] Goodhart, C. A. E. (1984). Problems of monetary management: The U.K. experience. In Monetary Theory and Practice (pp. 91–121). Macmillan.

古德哈特定律的来源："任何被观察到的统计规律性，一旦被用于控制目的而施加压力，就会趋于崩溃。"

[7] Strathern, M. (1997). 'Improving ratings': Audit in the British university system. European Review, 5(3), 305–321. doi:10.1002/(SICI)1234-981X(199707)5:3<305::AID-EURO184>3.0.CO;2-4

古德哈特定律的推广："当一个度量成为目标时，它就不再是一个好的度量。"

Behavioral Economics

[8] Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk. Econometrica, 47(2), 263–292. doi:10.2307/1914185

建立了损失厌恶理论。在第 4.5 节中引用。

Game Theory and Contract Theory

[9] Akerlof, G. A. (1970). The market for "lemons": Quality uncertainty and the market mechanism. The Quarterly Journal of Economics, 84(3), 488–500. doi:10.2307/1879431

信息不对称与逆向选择。第 7.5 节中的混同均衡在结构上与之类似。

[10] Hölmstrom, B. (1979). Moral hazard and observability. The Bell Journal of Economics, 10(1), 74–91. doi:10.2307/3003320

道德风险的形式化处理。第 7.5 节中的指标报告场景是一个道德风险问题。

Psychology

[11] Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press. ISBN: 978-0-8047-0131-0.

基础理论。在第 8.2 节中引用。

[12] Deci, E. L., & Ryan, R. M. (1985). Intrinsic Motivation and Self-Determination in Human Behavior. Plenum Press. ISBN: 978-0-306-42022-1.

自我决定理论的原始论述。在第 8.3 节中引用。

[13] Ryan, R. M., & Deci, E. L. (2000). Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being. American Psychologist, 55(1), 68–78. doi:10.1037/0003-066X.55.1.68

自我决定理论综述，将需求满足与内在动机和幸福感联系起来。

[14] Seligman, M. E. P., & Maier, S. F. (1967). Failure to escape traumatic shock. Journal of Experimental Psychology, 74(1), 1–9. doi:10.1037/h0024514

习得性无助的原始实验证明。在第 8.5 节中引用。

[15] Seligman, M. E. P. (1975). Helplessness: On Depression, Development, and Death. W. H. Freeman. ISBN: 978-0-7167-0752-3.

扩展论述，将习得性无助与人类抑郁和制度行为联系起来。

[16] Shay, J. (1994). Achilles in Vietnam: Combat Trauma and the Undoing of Character. Atheneum / Simon & Schuster. ISBN: 978-0-689-12182-3.

引入了道德伤害的概念。在第 8.4 节中引用。

[17] Litz, B. T., Stein, N., Delaney, E., Lebowitz, L., Nash, W. P., Silva, C., & Maguen, S. (2009). Moral injury and moral repair in war veterans: A preliminary model and intervention strategy. Clinical Psychology Review, 29(8), 695–706. doi:10.1016/j.cpr.2009.07.003

将道德伤害形式化为一个临床构念。第 8.4 节引用了其定义。

Organizational Measurement

[18] Austin, R. D. (1996). Measuring and Managing Performance in Organizations. Dorset House. ISBN: 978-0-932633-36-1.

证明了不完整度量不可避免地产生激励，使人优化被度量的维度而牺牲未被度量的维度。信息不对称框架与第 7 节密切对应。本文论证最重要的先驱作品。

[19] Muller, J. Z. (2018). The Tyranny of Metrics. Princeton University Press. ISBN: 978-0-691-17495-2.

对教育、医疗、警务和金融领域"指标固化"的全面论述。为第 7.4 节所理论化的模式提供了广泛的实证证据。

Scheduling Fairness

[20] Coffman, E. G., Shanthikumar, J. G., & Yao, D. D. (1992). Multiclass queueing systems: Polymatroid structure and optimal scheduling control. Operations Research, 40(S2), S293–S299.

调度中的守恒律。工作量加权完成时间的调度不变性（定理 2）是这些守恒律的一个实例。

[21] Angel, E., Bampis, E., & Pascual, F. (2008). How good are SPT schedules for fair optimality criteria? Annals of Operations Research, 159(1), 53–64. doi:10.1007/s10479-007-0267-0

直接度量 SPT 调度在公平性准则下的质量。在调度理论中，是第 4 节公平性分析最接近的先驱。

[22] Bansal, N., & Harchol-Balter, M. (2001). Analysis of SRPT scheduling: Investigating unfairness. ACM SIGMETRICS Performance Evaluation Review, 29(1), 279–290. doi:10.1145/384268.378792

调查了 SRPT 在计算机调度中不公平地惩罚大型作业的观点。认为不公平性小于人们的认知，但承认核心张力。

[23] Wierman, A., & Harchol-Balter, M. (2003). Classifying scheduling policies with respect to unfairness in an M/GI/1. ACM SIGMETRICS Performance Evaluation Review, 31(1), 238–249.

通过与处理器共享的比较，形式化了调度策略的公平性定义。

Additional References

[24] Campbell, D. T. (1979). Assessing the impact of planned social change. Evaluation and Program Planning, 2(1), 67–90. doi:10.1016/0149-7189(79)90048-X

Campbell 定律："任何定量社会指标越是被用于社会决策，就越会受到腐蚀压力，也越容易扭曲和腐蚀它所要监测的社会过程。"与古德哈特定律 [6] 互补。

[25] Ferreira, C. M., et al. (2024). It's business: A qualitative study of moral injury in business settings. Journal of Business Ethics. doi:10.1007/s10551-024-05615-0

将道德伤害扩展到营利性工作场所。验证了第 8.4 节将 Shay/Litz 的概念应用于军事和医疗之外环境的做法。

[26] Bevan, G., & Hood, C. (2006). What's measured is what matters: Targets and gaming in the English public health care system. Public Administration, 84(3), 517–538. doi:10.1111/j.1467-9299.2006.00600.x

实证记录了博弈行为，包括"达到目标却偏离要点"。为第 5.2 节的优先级-指标矛盾提供了现实世界的证据。

[27] Moore, C. (2012). Why employees do bad things: Moral disengagement and unethical organizational behavior. Personnel Psychology, 65(1), 1–48. doi:10.1111/j.1744-6570.2011.01237.x

分析了道德脱离——使不道德行为在组织压力下成为可能的认知重构。第 8 节讨论的是互补现象：对拒绝脱离的个体造成的伤害。

本证明通过对话方式发展并于 2026-03-28 正式化。

50 KiB Raw Permalink Blame History Unescape Escape