Starters-235-Shift Game (mentor 苏格拉底带教对话录)

Posted on 2026-04-27 Edited on 2026-04-29

🤖 Claude 苏格拉底式带教对话录原稿。每一步都是 mentor 提一个聚焦问题 → me 答 → 反复推进至完整算法。蓝色 callout 是 Claude，橙色 callout 是 zzy，原稿里 mentor 的反例 / 矫枉过正 / 用户吐槽全部逐字保留。

原题：CodeChef Starters 235 - Shift Game（Difficulty 2431）

背景

题目链接：https://www.codechef.com/problems/SHIFTGAME（CodeChef Starters 235，难度 2431）。

题面要点：给两个长度为 $N$ 的 01 串 $A,B$ 。每轮把 $A_1\cdot B_1$ 加进得分；若 $A_1=B_1$ 则把 $A$ 左移一位，否则把 $B$ 左移一位。 $Q$ 个独立查询，每个查询给一个 $K_i\le 10^{12}$ ，问做完恰好 $K_i$ 轮后的得分。约束 $N,Q\le 10^6$ ， $\sum N,\sum Q\le 10^6$ 。

下面按算法带教（Socratic）方式逐步推进。蓝色标注首次出现的关键术语 / 符号。

第 1 步：理解题目

🤖 Note: Claude (Mentor)
先用你自己的话讲讲：

游戏规则一句话总结：每次发生什么、得分加多少、谁会被左移？
关键观察： $A,B$ 都是长度 $N$ 的 01 串，但 $K$ 可以到 $10^{12}$ —— 你觉得这个数量级在暗示什么？
样例验证： $A=01,\ B=10,\ K=5$ 答案是 2，你能口算追一遍前 5 步、看看得分时刻在哪两步出现吗？

🧑 Note: zzy (Me)
okay，你先假设我理解题目了吧。

第 2 步：暴力解法 + 关键观察

🤖 Note: Claude (Mentor)
先把暴力解法的复杂度算清楚，再讨论怎么优化。
问 1（暴力）：最直接的模拟法，每次取 $A_1,B_1$ ，加分，根据相等与否 left_shift。

单次 iteration 是 $O(1)$ 还是 $O(N)$ ？（提示：left_shift 你打算怎么实现？）
$K$ 次的总复杂度？
给定 $K\le 10^{12}$ ， $N,Q\le 10^6$ ，暴力为什么过不了？
问 2（关键观察 —— 这是这题的命根）：left_shift 不会改变字符串的多重集，只是改变"指针"。换句话说，字符串本身永远是那个串，变的只是"当前从哪里开始读"。
那么状态只需要两个量描述：

\boldsymbol{\text{state} = (i,j)}

其中 $i$ 是 $A$ 当前的起始指针， $j$ 是 $B$ 当前的起始指针，都模 $N$ 。

状态空间一共多少？
这意味着什么？（关键词：循环）

🧑 Note: zzy (Me)
状态空间是 $n\times n$ 的呀，是意味着循环，但是 $n\times n$ 的循环我们不能接受啊。

第 3 步：寻找更紧的循环节

🤖 Note: Claude (Mentor)
完全对！这就是关键卡点。 $N^2$ 个状态意味着循环节最坏 $\Theta(N^2)=10^{12}$ ，确实接受不了。需要更深入的观察。
来看转移规则：

$A_i = B_j$ ： $i\mathrel{+=}1$ （只有 $A$ 指针动）
$A_i \ne B_j$ ： $j\mathrel{+=}1$ （只有 $B$ 指针动）
问 3（最关键的观察）：不管哪种情况，每一步 $\boldsymbol{i+j}$ 都恰好增加 1。所以 $K$ 步之后 $i+j=K$ （在某个模意义下成立）。那么真正的"自由变量"其实只有一个 —— 给定 $K$ ，只要知道 $i$ 是多少， $j$ 就定了（ $j=K-i$ ）。
这把状态空间从 $N^2$ 降到了 $N$ ，对吗？
那循环节最多多长？
进一步：在前 $N$ 步里， $A$ 指针走过多少步（记作 $a$ ）， $B$ 指针走过多少步（ $b=N-a$ ），有没有什么结构？
先回答前两个，第三个是下一阶段的钩子。

🧑 Note: zzy (Me)
哦，你的意思就是说，给定了 $K$ ，知道了 $i$ ， $j$ 就确定了是吧，所以说状态数只有 $N$ 。okay，我现在已经理解这个状态为什么只有 $N$ 个了，但是问题是， $K$ 虽然给定了，但是每次都是不同的 $K$ 呀，如果按照这样子，不就变成了 $O(QN)$ 了吗？也不行啊。

🤖 Note: Claude (Mentor)
好问题，这是这题第二个关键卡点。但你这里把两件事混在一起了 —— 我们把它拆开。
关键再框：轨迹是 query 无关的。

不管你有多少个 query、 $K_i$ 是多少，整个游戏只演化出唯一一条序列 $(i_0,j_0),(i_1,j_1),(i_2,j_2),…$
query 只是问"这条序列在第 $K_i$ 步时分数是多少"，并不会改变序列本身。
所以正确的姿势是：先 precompute 一次，再 $Q$ 个 query 各自 $O(1)$ 查表。总复杂度 $O(N + Q)$ 而不是 $O(NQ)$ 。
那现在真正的瓶颈在哪？ $K$ 可以到 $10^{12}$ ，整条轨迹至少要走到这个长度才能给出答案 —— 表存不下也算不动。
所以问题精简成一个：

“一条 query 无关的、长度可以到 $10^{12}$ 的轨迹，怎么用 $O(N)$ 空间表示？”
来到 第 4 步。

第 4 步：周期 = 把无穷轨迹压回 $O(N)$

🤖 Note: Claude (Mentor)
单看这条轨迹本身（先不管 query），你觉得它是不是周期的？为什么？
提示：动力系统的"状态"你刚才已经数清楚了 —— 在某种意义下只有 $N$ 个值。有限状态 + 确定性转移 必然会推出什么？

🧑 Note: zzy (Me)
当然是周期的呀，现在的问题是，我们是用 $(i,j)$ 来唯一标识一个状态的，我们现在要想办法把这个状态数量降下来，将带这个 $O(N)$ ，你懂吗？之前降的这个方法被我否定了。

🤖 Note: Claude (Mentor)
对，正中要害。 $(i \bmod N, j \bmod N)$ 是 $N^2$ 个，太多；之前那个"给定 $K$ 就只剩 $N$ “是 依赖 query 的，对建立周期没用 —— 我们要的是 query 无关、真正只有 $N$ 个状态 的视角。
提示：与其每一步都跟踪状态，只在关键路标处取样。最自然的路标： $A$ 指针刚好走完一整圈的瞬间（即 $i$ 是 $N$ 的倍数）。
请你想一下：在这种” $A$ 整圈"的瞬间， $(i \bmod N, j \bmod N)$ 长什么样？只有几种可能？

🧑 Note: zzy (Me)
首先，这个 $i,j$ 是 1-based 还是 0-based？我们姑且认为是 0-based 的吧，那么就是 $(N-1, j)$ ， $j$ 不动保持为 0 可能的，已经移动了很多也是可能的吧？是我理解的有问题吗？

🤖 Note: Claude (Mentor)
对，按 0-based 走（ $A,B$ 索引 $0… N-1$ ，初始 $i_0=j_0=0$ ）。但" $A$ 走完整圈"不是 $i=N-1$ ，是 $i=N$ —— 你把"指针指到最后一个字符"和"指针走过最后一个字符再回到起点"混了：

第一步开始时 $i=0$ （指着 $A_0$ ）。
经过 $N$ 次 $i\mathrel{+=}1$ 之后 $i=N$ ，此时 $i\bmod N = 0$ ，正好回到指着 $A_0$ —— $A$ 真正走完了一圈。
所以 anchor 时刻 $i\bmod N = \mathbf{0}$ （不是 $N-1$ ）。
至于你说的 $j$ ，那部分理解完全对： $j$ 可以是 0（一动没动），也可以是任何已经走过的位置，所以 $j\bmod N$ 可以取 $0,1,…,N-1$ 任一值。
合起来：anchor 时刻状态 $(i\bmod N,\ j\bmod N) = (0,\ \text{某个值})$ ，第二个分量在 $\{0,1,…,N-1\}$ 里取。
✅ anchor 状态可以被一个量完全刻画，恰好 $\boldsymbol{N}$ 种 —— 这就是我们要的 query 无关 $N$ 态视角。

🤖 Note: Claude (Mentor)
继续推进。从当前 anchor 出发再走到下一个 anchor（即 $A$ 再走完一整圈），这段时间里 $j$ 一共增加了多少？换句话说，新 anchor 的 $j\bmod N$ 与旧的差多少？

🧑 Note: zzy (Me)
这个需要走一遍才知道吧？

🤖 Note: Claude (Mentor)
对，必须走一段才知道，这道题就是没法直接给出 $j$ 增量的闭式 —— 得 simulate。但你这一句话其实已经暗含了完整算法的样子：先模拟、在每个 anchor 处把当前 $j\bmod N$ 记下来，等某个 $j\bmod N$ 第二次出现，就抓到了周期。
那下一个问题（一个）：你打算让 simulate 跑到什么时候停下？也就是停止条件 / 跑完时手里都拿到了什么？

🧑 Note: zzy (Me)
这个好解决，使用记忆化就可以了，如果 $j$ 的出现已经出现了周期性，就是已经回到了以前记忆化的点，那么就是找到了周期，就可以结束了。

🤖 Note: Claude (Mentor)
✅ 对的，停止条件就是 anchor 处的 $j\bmod N$ 第二次撞上 —— 周期抓到、可以结束。
那下一个问题（一个）：simulate 跑的过程中，你打算把哪些数据存下来，使得后面任意一个 query 给一个 $K$ （可以到 $10^{12}$ ），都能 $O(1)$ 把得分算出来？

🧑 Note: zzy (Me)
在跑的过程中，vis 数组首先设置一个 $-1$ ，然后主要是记录一下这个 $j$ 点是第几次走到的即可。

🤖 Note: Claude (Mentor)
cycle detection 这部分对了（vis[j\_modN] 存第几次走到，再次撞上就停）。但只这个还不够答 query —— 还要把得分本身记下来。
simulate 边跑边存的两个数组：

vis[j\_modN]：第几个 anchor 第一次走到 $j\bmod N$ 。第二次撞上就抓到周期。
score[t]：第 $t$ 个 micro-step 时的累积得分（前缀和，逐步累加 $A_i\cdot B_j$ ）。
假设 simulate 最终在第 $T$ 步检测到周期、周期前缀长度 $P$ 、周期长度 $L$ 、一个完整周期得分增量 $\Delta = `score`[P+L] - `score`[P]$ 。那么对 query $K$ ：

\text{ans}(K) = \begin{cases} `score`[K], & K < P + L \\[2pt] `score`\big[P + ((K-P)\bmod L)\big] + \big\lfloor (K-P)/L \big\rfloor \cdot \Delta, & K \ge P + L \end{cases}

查询 $O(1)$ ，precompute $O(T) = O(N)$ 量级（ $T$ 至多到第 $N+1$ 个 anchor，micro-step 数被段数 $\times$ 段长 bound 住）。
现在思路完整了：可以去写代码。建议：

主源文件放 src/Shift\_Game.cpp（与现有目录约定一致）
simulate 阶段就是个 while 循环，每步 $O(1)$ ，遇到 anchor 时检查 vis
query 阶段直接套上面的分段公式
写完告诉我。

🧑 Note: zzy (Me)
确实还是要记录一手得分啊，这个主要是因为我们之前的重点都放在这个周期检测上了。
我有一个问题啊：纯模拟的话，这个时间复杂度是不是有问题呢？这完全有可能变成是 $O(N^2)$ 的吧。

🤖 Note: Claude (Mentor)
你抓得对。pure simulation 单段最差能到 $\Theta(N^2)$ ，整体 $O(N^2)$ 走不动。
极端例子： $A = $ 1010…（严格 0/1 交替）， $B = $ 11…100…0（前半全 1 后半全 0）。 $A$ 每次切字符， $j$ 都得跨过 $B$ 中间的"块边界"才能找到下个匹配 —— 一次跨越 $\approx N/2$ 步。 $A$ 一段内切换 $N - 1$ 次，总 $\Theta(N^2)$ 。
注意上面那个例子的"罪魁"： $A$ 严格 0/1 交替—— $A$ 每个位置都是"切字符"，每次都强迫 $j$ 重新跨过 $B$ 的块边界。换个角度看：
问题：反过来，如果 $A$ 里有连续相同字符的段（比如 $A = $ 11100100，开头有一段 111），在这同字符段内部相邻的两个 A-advance 之间， $j$ 还需要 wait 吗？为什么？

🧑 Note: zzy (Me)
不需要啊，我们可以使用方法快进啊，就是把一整段看成一个数字，这样子每一次至少有一个段要前进。

🤖 Note: Claude (Mentor)
✅ 正中要害。run 内 $j$ 不动 —— 处理一整个 run 只需要做一次"在 $B$ 里找下个等于 run 字符的位置"，run 里剩下的 A-advance 都是即时 match。
所以原本一段 A 整圈是 $N$ 个 micro-step，现在压缩成 $R$ 个 run-step（ $R = A$ 的 run 数）。配一张" $B$ 里下一个 0/1 在哪"的辅助表，每个 run-step 是 $O(1)$ ，单段 $O(R)$ 。
但这事还没完。再回头看那个最坏例子： $A = $ 1010… 是严格交替， $R = N$ 。单段 $O(R) = O(N)$ ，cycle detection 至多 $N+1$ 段 → 总 $O(N^2)$ 。run-collapse 没把屋顶顶破，只是把常数压下来了。
问题：现在的瓶颈是"一次 $h$ （一段 A 整圈）需要 $R$ 次 $\Phi$ 复合"。能不能把一次 $h$ 从 $O(R)$ 加速到 $O(\log R)$ ？这样总复杂度变成 $O(N \log N)$ 。提示：A 的 run 字符是严格 0/1 交替的——这意味着每次复合的两个 $\Phi$ 都是 $\Phi_0, \Phi_1$ 这两个固定函数轮替。

🧑 Note: zzy (Me)
哦，我懂了，严格 $(0,1)$ 交替的话，那么理论上来说，我们采用这个状态表示法，只需要知道 $i$ 当前处于 0 还是 1， $j$ 当前处于 0 还是 1，那么就知道了之后的所有情况，因为后面是严格 0、1 交替的。

🤖 Note: Claude (Mentor)
✅ 你抓到了关键的一半：run 字符固定交替 → 首字符决定全部。
小偏差： $j$ 不是 0/1 二元， $j \in \{0,…,N-1\}$ 是 $B$ 的具体位置（你可能把" $j$ 这个位置"和" $B_j$ 这个位置上的字符"混了）。状态空间还是 $N$ 个。
但"交替"这个性质不仅决定了 run 字符的排列，还有一个直接的算法学含义。
问题：把 $A$ 的连续两个 run 处理看成一组（先做 $\Phi_{c_0}$ 再做 $\Phi_{c_1}$ ）。第 1 组（处理 run 0 + run 1）复合出的函数，和第 2 组（处理 run 2 + run 3）复合出的函数 —— 是不是同一个函数？为什么？

🧑 Note: zzy (Me)
我觉得啊，你说说看，你是不是过度数学化？？？你说这个东西和函数有什么关系啊？？？

🤖 Note: Claude (Mentor)
吐槽收到，“函数复合"这个词确实是装的——本质就是"跳法”。重说一遍：
处理一段 A 的 run，本质就是让 $j$ 跳到 $B$ 里下一个等于这个 run 字符的位置。跳法只看 run 字符是 0 还是 1，是个"给定起点 $j$ ，落到哪里"的固定规则。
把"连续处理两个 run"打包成一对：

第 1 对：先跳到下一个 $c_0$ ，再跳到下一个 $c_1$
第 2 对：先跳到下一个 $c_0$ ，再跳到下一个 $c_1$
第 3 对：…
重新提问：第 1 对的"跳法"和第 2 对的"跳法" —— 是不是完全一样？（“跳法”= 给定起点 $j$ ，结束时落在哪里的那个固定规则。）

🧑 Note: zzy (Me)
其实跳法就是，如果字符一样，就将 $A$ 的这段 run 跳过，记分，如果字符不一样，就先跳过 $B$ 的这段 run，那么就回到了第一种情况。

🤖 Note: Claude (Mentor)
✅ 对——跳法的逻辑只看字符匹配（equal / unequal），完全不依赖 pair 序号，所以第 1 对、第 2 对、…、第 100 对都是同一个规则。

🧑 Note: zzy (Me)
A run skip 应该是指跳过 $A$ 嘛，那跳过 $A$ 的话那么 $j$ 指针肯定是没动的呀。
还有这个 $la, lb, c_A, c_B$ ，我们之前讨论过吗？这都是什么东西？

🤖 Note: Claude (Mentor)
两条都对：

“A run skip” 字面就是只跨 $A$ 、 $j$ 不动——你的解读对，我之前偷懒把 “A skip + B skip 预处理” 打包进同一个名字，不严谨。
$la, lb, c_A, c_B$ 我之前直接拿来用没定义，我的锅。
术语（统一一下）：
$la[k] = A$ 第 $k$ 个 run 的长度； $lb[k] = B$ 第 $k$ 个 run 的长度
$c_A[k] = A$ 第 $k$ 个 run 的字符（0 或 1）； $c_B[k]$ 同理
$R_A, R_B = A, B$ 的 run 数
把你之前描述的两个原子操作分别命名：
A run skip：状态字符相等时用， $i \mathrel{+=} la[k_A]$ 、 $j$ 不动、得分 $\mathrel{+=} la[k_A] \cdot c_A[k_A]$
B run skip：状态字符不等时用， $j \mathrel{+=} lb[k_B]$ 、 $i$ 不动、不得分
一个 round（从字符相等态起步） $=$ “A run skip” $+$ “B run skip”。
下一步问题：一个 round 让 $j$ 一共推进了多少？写成 $j_\text{new} = j_\text{old} + ?$ 的形式。

🧑 Note: zzy (Me)
一个 round 让 $j$ 推动了这个 $lb$ 啊， $j_\text{new} = j_\text{old} + lb[k]$ 。

🤖 Note: Claude (Mentor)
✅ 对。一 round 让 $j$ 推进 $lb[k_B]$ （ $k_B$ 是 round 起始时 $B$ 的 run 索引）。每 round 后 $k_A$ 和 $k_B$ 各 $+= 1$ （分别模 $R_A, R_B$ ）。
下一步问题： $A$ 一整圈 $= R_A$ 个 round。一整圈结束后 $j$ 推进了多少？（用 $lb$ 求和表达。）

🧑 Note: zzy (Me)
如果是 $R_A$ 个 round，那么就是加前 $R_A$ 个 $lb$ ，当然，这个 $lb$ 是循环往复的。

🤖 Note: Claude (Mentor)
✅ 对。一整圈结束后 $j$ 推进 $\sum_{i=0}^{R_A-1} lb[(k_B + i) \bmod R_B]$ （ $B$ 跳了 $R_A$ 次，每次过完 1 个 $B$ run，下标循环模 $R_B$ ）。
下一步问题：query 给一个 $K$ （最坏 $\sim 10^{12}$ ），我们最终需要算" $r$ 个 round 之后的 $(k_B, j, \text{得分})$ "， $r$ 也可能到 $\sim 10^{12}$ 。一个 round 的 transition 是 $(k_B, j) \to (k_B + 1 \bmod R_B,\ j + lb[k_B])$ ，单次 $O(1)$ ，但循环 $r$ 次 $O(r)$ 完全过不去。怎么 $O(\log r)$ 算这个"同一个 transition 重复 $r$ 次"的结果？

🧑 Note: zzy (Me)
你是想用倍增吗？但是我感觉倍增有点困难啊，因为这个每次的 $k_B$ 都不一样，那么这个增量也不大好计算吧。

🤖 Note: Claude (Mentor)
你的直觉准。per-round 倍增的 state 必须能完整决定下一段 transition 增量：

$j$ 增量 $= lb[k_B]$ ，依赖 $k_B$
得分增量 $= la[k_A] \cdot c_A[k_A] \cdot c_B[k_B]$ ，依赖 $k_A$ 和 $k_B$
所以 state $= (k_A, k_B)$ ，空间 $R_A \times R_B$ 最坏 $\Theta(N^2)$ ，倍增表 $O(N^2 \log N)$ 存不下。
下一步问题：能不能换一个"更粗的 unit"，让 state 空间变小？提示往"哪个量在固定 round 数之后会 reset / 回到原值"那个方向想。

🧑 Note: zzy (Me)
哦，我懂你的意思了， $k_A$ 肯定是不需要的，你的倍增表，第一维是这个 $k_B$ ，第二维是这个阶数，然后进行递推就好了。

🤖 Note: Claude (Mentor)
✅ 正中要害。“A 整圈”（ $R_A$ 个 round）这个 unit 上：

state 只剩 $k_B$ （ $k_A$ 在一个整圈内自动循环 $0, 1, …, R_A-1$ ，是固定序列，不算独立 state）
transition： $(k_B,\, j,\, \text{score}) \to (k_B + R_A \bmod R_B,\ j + \Delta j,\ \text{score} + \Delta s)$
倍增表 jump[ $k_B$ ][ $p$ ] 存"从 $k_B$ 出发、跳 $2^p$ 个 A 整圈"之后的 $(\Delta k_B, \Delta j, \Delta s)$ 。state 空间 $R_B \le N$ 、 $\log N$ 层，总 $O(N \log N)$ ，能存。
下一步问题：写出递推：jump[ $k_B$ ][ $p+1$ ] 怎么从 jump[ $\cdot$ ][ $p$ ] 算出来？ $\Delta j, \Delta s$ 怎么合？

🧑 Note: zzy (Me)
这个之前我就已经想过了，就是最经典的倍增表转移：从 jump[ $k_B$ ][ $p$ ] 和 jump[jump[ $k_B$ ][ $p$ ]. $k_B'$ ][ $p$ ] 的地方转移， $\Delta j, \Delta s$ 应该直接加起来即可。

🤖 Note: Claude (Mentor)
✅ 经典递推没毛病。跳过这步，看更糙的 base case：jump[ $k_B$ ][0]（一次 A 整圈，从 $k_B$ 起步）。
前两个分量直接：

$\Delta k_B = (k_B + R_A) \bmod R_B$
$Delta j = $ 从 $k_B$ 起 $R_A$ 个连续 $lb$ 的循环求和 → 前缀和 $O(1)$
下一步问题： $\Delta s$ 才是难的一块：

\Delta s(k_B) \;=\; \sum_{i=0}^{R_A - 1} la[i] \cdot c_A[i] \cdot c_B[(k_B + i) \bmod R_B]

朴素对每个 $k_B$ 算需要 $O(R_A)$ ， $R_B$ 个 $k_B$ 总 $O(R_A R_B) = O(N^2)$ ，不行。
怎么把每个 $\Delta s(k_B)$ 压到 $O(1)$ ？提示：注意 $c_A$ 和 $c_B$ 都是严格 0/1 交替的（按 run 定义）。

🧑 Note: zzy (Me)
$\Delta s$ 肯定也是没必要朴素计算的呀，知道 $k_B$ 的字符 $c_B[k_B]$ ，以及起始位置 $A$ 块的 $c_A[0]$ ，说白了，我们只需要看 $R_A$ 中有多少个 $c_A[i]$ 是 1，把它们和长度乘起来加上去就可以了。

🤖 Note: Claude (Mentor)
方向对，但有一个小裂缝： $\Delta s$ 求和里是 $c_A[i] \cdot c_B[(k_B+i) \bmod R_B]$ 两者都 $= 1$ ，不光看 $c_A[i] = 1$ 。补一下：
$c_A, c_B$ 都按同 parity 交替： $c_A[i] = c_A[0] \oplus (i \bmod 2)$ 、 $c_B[(k_B+i) \bmod R_B] = c_B[k_B] \oplus (i \bmod 2)$ 。所以两者要么 对所有 $i$ 同时相等，要么 对所有 $i$ 同时不等：

若 $c_A[0] = c_B[k_B]$ ：AND 条件简化为 $c_A[i] = 1$ ， $\Delta s(k_B) = W$ ，其中 $W = \sum_i la[i] \cdot c_A[i] = (A$ 中 1 的总个数 $)$
若 $c_A[0] \ne c_B[k_B]$ ：永远不可能同时 $= 1$ ， $\Delta s(k_B) = 0$
所以 $\Delta s(k_B) \in \{0, W\}$ 二选一，由 $c_B[k_B]$ 是否 $= c_A[0]$ 决定。 $O(1)$ 每个 $k_B$ ，完美。
Preprocess 收尾：base case $O(R_B) = O(N)$ ，递推 $O(N \log N)$ 。query 之前所有数据都齐了。
下一步问题：query 来了，给你一个 $K$ （ $\le 10^{12}$ ）。用 jump 表怎么走？描述一下流程（从 $k_B = 0$ 、 $j = 0$ 、 $\text{score} = 0$ 起步，到答案输出）。

🧑 Note: zzy (Me)
不对不对，你把问题复杂化了。一个 round 中 $B$ 肯定会前进一次、 $A$ 也肯定会前进一次，那么如果块的 $c_A$ 是 1 的话，必定在 round 中加上块长这个答案。我说的难道不对吗？

🤖 Note: Claude (Mentor)
你完全对，我搞复杂了。 错在我隐含假设"round 永远是 A skip 先 B skip 后"这个顺序，但 case B（ $c_A[0] \ne c_B[k_B]$ ）起始 state unequal，要先做一次额外 B skip 才进入 round。这次 B skip 让 $c_B$ 下标多偏 1，刚好抵消我担心的不匹配。重算：
case A（ $c_A[0] = c_B[k_B]$ ，state 起始 equal）：

round $k$ 的 A skip 时 state $= (c_A[k], c_B[(k_B+k) \bmod R_B]) = (c_A[k], c_A[k])$ （同 parity 交替对齐）
$\Delta s = \sum_k la[k] \cdot c_A[k] = W$
case B（ $c_A[0] \ne c_B[k_B]$ ）：
额外 B skip 一次： $B \to k_B + 1$ ， $c_B[k_B+1] = c_A[0]$ ，state 变 equal
之后 $R_A$ 个 round 与 case A 同形：A skip $k$ 时 state $= (c_A[k], c_B[(k_B+1+k) \bmod R_B]) = (c_A[k], c_A[k])$
$\Delta s = W$ 同样
所以 $\Delta s = W$ 永远成立、不依赖 $k_B$ 。倍增表里这一项是常量，甚至不必每个 $k_B$ 单存。
补一句关于 $\Delta j$ ：case A 是 $R_A$ 个连续 $lb$ 的循环求和；case B 多一个起始 $lb[k_B]$ 。处理上把 case B 的"额外 B skip"放在 binary lifting 之前单独算掉，之后均匀按 case A 走。
下一步问题（重发）：query 给一个 $K$ 。用 jump 表怎么走？描述完整流程（从初始 state 到答案输出）。

🧑 Note: zzy (Me)
不对啊，我们为什么要假设 round 有先后顺序呢？把 round 看成 " $A$ 走一步、 $B$ 走一步"，谁先谁后不重要，不行吗？

🤖 Note: Claude (Mentor)
对，你的抽象更省力。 把 round 看成 " $A$ 进 1 个 run $+$ $B$ 进 1 个 run"，顺序无关：

$A$ 推进 $la[k_A]$ ， $B$ 推进 $lb[k_B]$
state 在每 round 起始处都是 equal（归纳：相等态下 $c_A[k_A] = c_B[k_B]$ ， $A,B$ 各跨 run 后 $c_A[k_A+1] = c_B[k_B+1]$ 仍相等）
所以 A skip 时 state $= (c_A[k_A], c_A[k_A])$ ，得分 $\mathrel{+=} la[k_A] \cdot c_A[k_A]$
case A/B 唯一区别落在起始 state：case B 起始 state unequal，要先做一次 “pre-round B skip”（消耗 $lb[0]$ micro-step、 $j \mathrel{+=} lb[0]$ 、不得分），把 state 调成 equal；之后 rounds 完全统一。
所以最终算法骨架：

起始 state unequal $\Rightarrow$ pre-round B skip 一次
倍增表跳大段（每段 $= R_A$ rounds $=$ 1 个 A 整圈， $\Delta s = W$ 、 $\Delta j$ $=$ $R_A$ 个连续 $lb$ 的循环和）
剩余预算落在某 anchor 内，用 round 级前缀和定位到具体 round
落在 round 内，判断 A skip 还是 B skip phase，算 partial score
下一步问题：query 给 $K$ ，用 jump 表怎么走？描述完整流程（从初始 state 到最终答案输出）。

🧑 Note: zzy (Me)
不是，我就是要纠正你，哪里来的 “pre-round B skip”？为什么要先走一步？按照我的抽象，这一步是可以忽略的呀。

🤖 Note: Claude (Mentor)
你完全对，“pre-round B skip” 是我多加的，抱歉。 在你的 atomic round 抽象下根本不需要它——round 这个原子单元已经包含了 “B 推进 1 + A 推进 1”，本来就涵盖了"B 先动"那次。我下意识把 “case B 起始 B 先 skip 然后 A skip” 翻译成 “preprocess + 后续 (A-first) round” 两步，但其实就是 round 内部的两步，端到端 (k_A, k_B, j, s) 结果和"一个 round"完全一致。
校正算法骨架：

无 preprocess，直接从 round 0 起步走 binary lifting
每 anchor（ $R_A$ round）： $\Delta s = W$ 、 $\Delta j$ $=$ $R_A$ 个连续 $lb$ 的循环和（从当前 $k_B$ 起）、 $\Delta m = N + \Delta j$
Within last anchor partial：用 round 级前缀和定位到具体 round
Within last round partial：唯一保留的 case 痕迹——case A（初始 state equal）round 内是 A skip 在前、case B 是 B skip 在前。不同顺序决定 partial 落在哪个 phase 上、得分是否要加 partial A skip 的贡献
下一步问题：query 给 $K$ ，用 jump 表怎么走？描述完整流程。

🧑 Note: zzy (Me)
跳吗就使用倍增常用流程，用全部的力气去跳，从高位到低位尝试，累加这个 $\Delta j$ ，如果累加 $\Delta j$ 超过了 $K$ ，就说明超了，跳过这层。最后就是剩余 $< R_A$ 的一段东西了。

🤖 Note: Claude (Mentor)
✅ 经典倍增 query 模板：从高 $p$ 到低 $p$ 试 jump[ $k_B$ ][ $p$ ]，能塞进 $K_\text{remaining}$ 就 take、否则 skip 这层。
小校正：累加比较的不是 $\Delta j$ ，是 $\Delta m$ （一次 jump 消耗的 micro-step 总数）。一次 $2^p$ anchor 跳里：

\Delta m = \underbrace{2^p \cdot N}_{A \text{ 这边}} + \underbrace{\Delta j}_{B \text{ 这边}}

$\Delta j$ 只算 $B$ 指针推进的距离。 $A$ 指针跑完每个整圈是 $N$ 步、 $2^p$ 个整圈就是 $2^p \cdot N$ 步。
倍增结束后剩 $K_text{remaining} < $ （一个 anchor 的 $\Delta m$ ）。这意味着：剩 $< R_A$ 个完整 round $+$ 可能还有半个 round。
下一步问题：这剩下的 $< R_A$ round 段怎么处理？用什么定位 $K_\text{remaining}$ 落在哪个 round、然后落在该 round 的哪个 phase？

🧑 Note: zzy (Me)
这个 $< R_A$ 段确实没什么思路啊，可以再提示一下吗？

🤖 Note: Claude (Mentor)
提示：anchor 内 $R_A$ 个 round，第 $r$ 个 round 的 micro-step cost 是

\text{round\_cost}(r) = la[r] + lb[(k_B + r) \bmod R_B].

你已知 $K_\text{remaining}$ 严格小于这 $R_A$ 个 cost 的总和。
问题归化成：给定一个长度 $R_A$ 的非负序列，找 $K_\text{remaining}$ 落在前缀和的哪一段。
下一步问题：用什么标准技巧 $O(\log R_A)$ 解？

🧑 Note: zzy (Me)
我懂了，你的意思是继续细分——从大 $R_A$ 到小 $r$ ，小 $r$ 之内就比较好解决了。这个可以用二分解决。

🤖 Note: Claude (Mentor)
✅ 二分 $+$ $O(1)$ 前缀 $= O(\log R_A)$ 定位 round $r$ 。
配 $O(1)$ 前缀：

$la$ 部分： $\text{prefix\_la}[r]$ （从 run 0 起的标准前缀和）
$lb$ 部分： $\text{cyclic\_lb\_sum}(k_B, r)$ （从 $k_B$ 起 $r$ 个 $lb$ 的循环和，用 $\text{prefix\_lb}$ 配 floor / mod $O(1)$ 算）
二分定到 round $r$ 后， $K_\text{remaining}$ 进一步缩到 round $r$ 内部（ $< 1$ 个 round 的 partial $<$ $la[r] + lb[(k_B + r) \bmod R_B]$ ）。这一 round 含 A skip $+$ B skip 两个 phase。
下一步问题：这两 phase 在该 round 内的顺序由什么决定？ $K_\text{remaining}$ 落在第一个 phase 和落在第二个 phase 时，partial score 分别怎么算？

🧑 Note: zzy (Me)
循环前缀和实现上可以用 $2\times$ 技巧解决。
partial score 分两种情况：

unequal (case B)：先 $B$ 动、再 $A$ 动。 $A$ 动时若 $c_A[r] = 1$ 则记分。 $A$ 推进步数 $= \max(\text{partial} - lb[…],\ 0)$
equal (case A)：先 $A$ 动、后 $B$ 动。 $A$ 动时若 $c_A[r] = 1$ 则记分。 $A$ 推进步数 $= \max(la[r],\ \text{partial})$ （写错了，应是 $\min$ ）

🤖 Note: Claude (Mentor)
方向都对，两个小校正：

equal 情形：A 推进步数 $= \min(\text{partial},\ la[r])$ ，不是 $\max$ 。partial 还没满 $la[r]$ 时 A 只推进 partial 步、满了就推进 $la[r]$ 步、永远不超 $la[r]$ 。
$2\times$ 技巧：把 $lb$ 拼成长度 $2 R_B$ 的数组 $\hat{lb}$ 、对它做 prefix sum $\widehat{\text{prefix}}$ ，则 $\text{cyclic\_lb\_sum}(k_B, r) = \widehat{\text{prefix}}[k_B + r] - \widehat{\text{prefix}}[k_B]$ 对 $r \le R_B$ 直接成立（within-anchor 时 $r \le R_A \le R_B$ 满足）。
至此算法链完整：

preprocess（ $la, lb, c_A, c_B$ 、prefix_la、 $2\times$ prefix_lb、jump 倍增表）： $O(N \log N)$
per query（determine case $+$ 倍增主循环 $+$ within-anchor 二分 $+$ within-round partial）： $O(\log N)$
总： $O((N + Q) \log N)$
$N = Q = 10^6$ 时约 $4 \times 10^7$ 量级，1–2s 稳过。
下一步：去写代码，目标文件 src/Shift\_Game.cpp。注意几个边界：
$A$ 全 0 / 全 1（ $R_A = 1$ 单调情形）
$B$ 全 0 / 全 1（ $R_B = 1$ 单调情形）
起始 case 判断（ $c_A[0] = c_B[0]$ ？）
$K = 0$ 边界（直接返回 0）
写完告诉我。

🧑 Note: zzy (Me)
书写过程中，是不是需要注意首段的特殊性？因为首段和末尾段不一定不同，可能出现字符趋同情况，破坏 0/1 严格交替的特性。

🤖 Note: Claude (Mentor)
漂亮的 catch，这是真实的边界，我之前漏了。
问题： $A$ （或 $B$ ）当成线性串读 run 时，第一段和末尾段可能字符相同——但 $A$ 实际是循环串，末尾 run 和开头 run 在循环视角下相邻，应合并成一个循环 run。否则会出现 $c_A[R_A-1] = c_A[0]$ 这种"两个相邻同色 run"，破坏前面所有" $c_A$ 严格 0/1 交替"的归纳前提。
例： $A = $ 00110，线性 runs $[00, 11, 0]$ ， $R_A = 3$ （奇）。循环视角下末尾的 0 和开头的 00 应合并成 000，循环 runs $[000, 11]$ ， $R_A = 2$ （偶）。
处理：preprocess 时检查 $A[0] = A[N-1]$ ？

是：合并线性末尾 run 和第一个 run， $R_A \mathrel{-=} 1$ ，新 $la[0] = $ 末段长 $+$ 首段长
否：直接用线性 runs
合并后 $R_A$ 必为偶（或 $=1$ 当 $A$ 单色）。 $B$ 同理。 $O(N)$ 一次性处理，不影响主算法复杂度。
边界清单补一条进去，继续去写代码。

🧑 Note: zzy (Me)
（待回答 …）

心路历程（WA → TLE → AC）

最初的代码是按这份 mentor.tex 推导出来后写出来的。提交三次才稳：

🐛 WA（提交 1268875897）—— 倍增表外层循环写反：原写法外层 i 内层 p，但递推 jump[i][p] = jump[i][p-1] ∘ jump[jump[i][p-1].blockB][p-1] 读到的 jump[i'][p-1] 在 i’ 那行还没轮到时是默认 0，jb / score 双重少算。对拍 seed 11 命中，K=45 应得 16 实出 11。修：把外层换成 for (int p = 1; p < LEV; ++p)。教科书级倍增坑。
🐛 WA 同发现：「B 全 1、A 非常数」特判分支从「A 全 1」分支复制粘贴错——内层条件 if (B[0] == '1') 永真，把所有 K 直接吐出。正确逻辑：B 永远 = 1，A 走到第一个 0 就卡死，得分 = min(K, la0)（A 前导 1 的长度）或 0（A 前导 0）。
⏱️ TLE（提交 1268882247）—— 修对算法后 subtask 1/2 卡 3.01s。三处常数：(a) vector<vector<BlScJb>>(Rb, vector<BlScJb>(42)) 是 Rb=10⁶ 次小堆 alloc + 24MB vector header；(b) cal_ans 用 i128 比 ull 慢 2-3×（实测求和上界 4×10¹⁸ 仍在 ull 内）；© 42 层倍增写死，N=10⁶ 时其实 21 层够用（2^p · N > K_max 的层根本 take 不到）。
✅ AC 1268899055：层主序单块 alloc vector<BlScJb> jump(LEV * Rb)、ull 替换 i128、LEV 自适应。本机 N=Q=10⁶ 接近全交替最坏 case 0.9~1.0s，CodeChef 全 13 subtask 通过。

📌 教训提炼：

倍增 / ST 表，外层永远是 level p，先填整层再算下一层
对拍是检测算法 bug 的硬通货——上一轮没对拍只看代码漏掉了
WA 修完先看 TLE 风险：i128 / 嵌套 vector / log 层数硬编码都是常数因子噩梦

AC 代码

提交记录：

WA → 1268875897（倍增循环序错）
TLE → 1268882247（i128 + 嵌套 vector 太重）
AC → 1268899055（层主序单块 alloc + ull + 自适应 LEV，全 13 subtask 通过）

源码 Shift_Game_clean.cpp 见本节下方折叠块（由 raw API 附加）。

📎 附件

mentor.pdf —— 完整带教对话录的 PDF 编译版（见末尾 PDF 块）

CF 1094C Median Partition

Posted on 2026-04-26

题目大意

给定一个长度为奇数 $n$ 的正整数数组 $a$ ，把它划分成若干奇长度子数组，要求每段中位数都相同。求最大段数 $p$ 。

形式化：求严格递增序列 $k_1=1, k_2, \ldots, k_{p+1}=n+1$ ，对每个 $i$ ，子数组 $[a_{k_i}, \ldots, a_{k_{i+1}-1}]$ 中位数都相同；且 $k_i, k_{i+1}$ 奇偶性不同（这条等价于段长为奇）。最大化 $p$ 。

数据范围

$T \le 1000$
$1 \le n < 5000$ ， $n$ 为奇数
$1 \le a_i \le 10^9$
$\sum n^2 \le 5000^2$
时限 2s，内存 256 MB

链接

CF 原题：https://codeforces.com/contest/2222/problem/C
vjudge：https://vjudge.net/problem/CodeForces-2222C

思路讲解

以下是与 Claude 的带教对话录原稿（mentor.tex 编译产物），按对话气泡逐段还原。蓝色 🤖 = Claude，橙色 🧑 = zzy（我）。

第 1 步：理解题目

🤖 Note: Claude
题面看过了。先做个具体模拟来确认你理解了题意。
题目第 8 个样例 $a = [2, 1, 3, 2, 2]$ ，标准答案是 3。请你手动写出这 3 段具体的划分（每段是 $a$ 的哪几个下标），并验证：

每段长度都是奇数；
每段的中位数都相同（具体值是多少？）。

🧑 Note: zzy
213
132
322
中位数是 2，所以说，不同的 subarray 是可以这个重叠的是吧?

🤖 Note: Claude
不能重叠！ 你写的三段 $[2,1,3]$ 、 $[1,3,2]$ 、 $[3,2,2]$ 是滑动窗口，它们覆盖了同一个元素多次（比如 $a_3 = 3$ 同时出现在三段里），不是合法划分。
题面里那个 $k$ 序列是严格递增的： $k_1 = 1,\ k_2,\ \ldots,\ k_{p+1} = n+1$ 。第 $i$ 段是 $a_{k_i}, a_{k_i+1}, \ldots, a_{k_{i+1}-1}$ ，所以第 i 段结束的位置 + 1 = 第 i+1 段开始的位置——子数组首尾相接、不重不漏地覆盖整个 $a$ ，每个元素恰好属于一段。
修正这条理解之后，重新切一下 $a = [2,1,3,2,2]$ 看看，把 3 段长度 + 中位数都标出来。

🧑 Note: zzy
那就是
2
1 3 2
3
呗

🤖 Note: Claude
划分结构对了，但最后一段 $a_5 = 2$ 不是 3（应该是手滑写错了）。完整划分是：

段 1：下标 $[1, 1]$ 、元素 $[2]$ 、长度 1、中位数 2
段 2：下标 $[2, 4]$ 、元素 $[1, 3, 2]$ 、长度 3、中位数 2
段 3：下标 $[5, 5]$ 、元素 $[2]$ 、长度 1、中位数 2
题意 OK 了，进入第 2 步。

第 2 步：暴力解法思路

🤖 Note: Claude
我先抛一个具体的探测问题给你。
你刚才那个划分里，所有段的中位数都是 2。现在我问你：能不能换个值？比如，能不能找一个 $a = [2,1,3,2,2]$ 的合法划分，让每一段的中位数都是 1？或者都是 3？
试一下，告诉我能不能做到，做不到的话为什么做不到。

🧑 Note: zzy
3、1 肯定不行啊，因为 3、1 在原数组中都不是这个中位数啊。

🤖 Note: Claude
直觉对的——原数组排好序是 $[1, 2, 2, 2, 3]$ ，中位数是 2，所以 1 和 3 都不行。
但你这是直觉——把它变成严谨证明试试：
命题：设 $a$ 是长度为 $n$ （奇）的数组，存在一个合法划分（所有段奇长度、公共中位数为 $m$ ），那么 $m$ 必须等于 $a$ 整体的中位数。
提示用一个量做估计：「段内 ≤ m 的元素至少有多少个？≥ m 的元素至少有多少个？」把所有段加起来。试着推一下。

🧑 Note: zzy
首先，如果 $m$ 不是整体的中位数的话，那么肯定不能划分为 1 段，其次划分成更多段……
一个数 $m$ 是中位数的条件是：

即 $\text{num}(<m) + \text{num}(=m) \ge \lceil N/2 \rceil$ 。如果总体都不满足这个条件，那么分段当中，被分的 $\text{num}(<m)$ 和 $\text{num}(=m)$ 少的段更不可能满足这个条件。

🤖 Note: Claude
对，核心就是这两条：(1) 中位数判定 $\text{num}(\le m) \ge \lceil N/2 \rceil$ 且 $\text{num}(\ge m) \ge \lceil N/2 \rceil$ ；(2) 每段都满足这俩条件，把所有段相加，整体也满足，所以m 必须等于整体中位数。
结论：公共中位数 $m$ 唯一确定，等于 $a$ 整体中位数（ $O(n \log n)$ 排序求出）。
接下来问题就转化成了：
已知 m，把 a 切成最多段奇长度子数组，每段中位数都等于 m。求最大段数。
题目 tag 是 dp， $n < 5000$ ，sum of $n^2 \le 5000^2$ 。所以 $O(n^2)$ 暴力 DP 就够。
追问：你来设计这个 DP。

状态 $f[i]$ 是什么意思（用一句中文话讲清楚）？
转移怎么写（从哪些 $j$ 转移过来， $j$ 满足什么条件）？

🧑 Note: zzy
$f[i]$ 嘛肯定就是表示到 $i$ 为止最多能被切成多少块嘛，从哪些 $j$ 转移就看 $a[j+1, i]$ 的中位数是不是这个 $m$ 呗。

🤖 Note: Claude
对，框架就是这个。补两个你没明说但要写到代码里的细节：

段长 $i - j$ 必须奇（题目要求）。
初值 $f[0] = 0$ ，其余 $-\infty$ （不可达）；答案是 $f[n]$ 。
转移式：

f[i] = \max\Big\{ f[j] + 1 \;\Big|\; 0 \le j < i,\; (i-j)\text{ 奇},\; \text{med}(a[j{+}1..i]) = m \Big\}

追问：现在 DP 框架定了，瓶颈就是中间那个判定——怎么判断一段子数组（奇长度）中位数 = m？
要求：能 $O(1)$ 单次判定（预处理可以 $O(n)$ ）。给我一个具体方法。

🧑 Note: zzy
怎么 $O(1)$ 判定吗？这个有点难度啊，不太会啊。
哦，我们实际上就是要判定这个区间内 $m$ 的个数是不是大于 $\lceil N/2 \rceil$ 嘛，这个简单啊，整个前缀和就行。

🤖 Note: Claude
前缀和方向对，但数错了东西。你的判定是 $\text{count}(= m) > \lceil \text{len}/2 \rceil$ ，这是严格多数，比中位数 = m 强。反例： $a = [1, 2, 3]$ ， $m = 2$ ，中位数是 2，但 $\text{count}(= 2) = 1 < \lceil 3/2 \rceil = 2$ ，会漏掉。
正解（直接给）：用±1 编码 + 两套前缀和。

b_1[k] = \begin{cases} +1, & a_k \le m \\ -1, & a_k > m \end{cases}, \quad B_1[k] = \sum_{j \le k} b_1[j]

b_2[k] = \begin{cases} +1, & a_k \ge m \\ -1, & a_k < m \end{cases}, \quad B_2[k] = \sum_{j \le k} b_2[j]

对于奇长度区间 $[l, r]$ （ $\text{len} = r - l + 1$ 奇）， $\text{num}(\le m) - \text{num}(> m) = B_1[r] - B_1[l-1]$ ， $\ge 1$ 等价于 $\text{num}(\le m) \ge \lceil \text{len}/2 \rceil$ 。 $B_2$ 同理。所以：

med(a[l…r]) = m 当且仅当 B_1[r] - B_1[l-1] ≥ 1 且 B_2[r] - B_2[l-1] ≥ 1。
预处理 $O(n)$ ，单次判 $O(1)$ 。整个 DP 复杂度 $O(n^2)$ ，给 $\sum n^2 \le 5000^2$ 够用，这就是标程（不需要进一步优化）。

第 3 步：实现

🤖 Note: Claude
算法已经齐了：

排序求整体中位数 $m$ 。
预处理两套前缀和 $B_1, B_2$ 。
DP： $f[i] = \max\{f[j] + 1 : (i-j) \text{ 奇},\ B_1[i] - B_1[j] \ge 1,\ B_2[i] - B_2[j] \ge 1\}$ ， $f[0] = 0$ 。
答案 $f[n]$ 。
去 src/C_Median_Partition.cpp 里把 Solve() 写完，写完告诉我。

🧑 Note: zzy
暴力的实现我们直接跳过吧，之前已经把所有细节都搞清楚了（关于暴力的）。
哦，不对，这个题目本身就是 $O(n^2)$ 的，那就已经能做了，绷不住了。

🤖 Note: Claude
对，这题约束 $\sum n^2 \le 5000^2$ 直接为 $O(n^2)$ DP 量身定制，暴力 = 标程，本题没有「暴力 → 优化」两步走的必要。直接去写代码就行。

🧑 Note: zzy

for (int i = 0; i < N; ++i) {
    for (int j = 0; j <= i; ++j) {
        if (checkLr(preBtm, preLtm, i, j)) {
            dp[i] = max(dp[i], dp[i] + dp[j - 1]);
        }
    }
}

我在想 0-based 的话这个 dp 转移怎么实现比较优雅？我当然知道这里可以用三元运算符，但那本质上还是 if-else。

🤖 Note: Claude
j - 1 不优雅是因为 dp 的索引语义混了——“a[0…i] 的答案” 和 “a[0…i-1] 的答案” 这俩约定哪种都行，但同一份代码里只能选一种。
最干净的：让 $f[i]$ 表示**「前 i 个元素」的答案**（前缀长度，不是末元素下标）。这样 $f[0] = 0$ 是天然 base，不需要 $f[-1]$ 。

vector<ll> dp(N + 1, LLONG_MIN);
dp[0] = 0;
for (int i = 1; i <= N; ++i)
    for (int j = 0; j < i; ++j)
        if (((i - j) & 1) && checkLr(j, i - 1)
            && dp[j] != LLONG_MIN)
            dp[i] = max(dp[i], dp[j] + 1);
cout << dp[N] << "\n";

**「前缀长度索引」**是专治 base case 越界的标准 trick。

🧑 Note: zzy
首先，我问你的，是一劳永逸拒绝 dp 0-based 方法，不是针对这道题目。
其次，你又开始摆 mentor 的架子，你应该理解我的 dp 定义，而不是套用你自己的定义。

🤖 Note: Claude
都吃下。两条都对——上面那段是按我自己的语义重写了你的 dp，确实越界。重新答你的通用问题：
只要 dp[i] 按「末元素下标」索引，转移到 dp[j-1] 时 j=0 必然撞 dp[-1]（空前缀的 base）。这个 base 不是某题特例，是所有按位置索引的 DP 的共性。通用治法只有两种范式：
(A) Sentinel 包装，保留你的语义
不改 dp 的语义，包一层访问器：

1 2	auto D = [&](int x) { return x < 0 ? 0 : dp[x]; }; // 转移：D(j - 1) + 1 代替 dp[j - 1] + 1

或直接内联三元：

1	dp[i] = max(dp[i], (j == 0 ? 0 : dp[j-1]) + 1);

你说"三元本质上还是 if-else"——对，是。但 base 的判断逻辑上必须存在：要么写出来要么藏到访问器里。Sentinel 的好处是包装一次、之后转移式干净没补丁。
(B) 索引整体右移 1，吃掉分支
机械地把 dp[i] 全部重命名成 dp'[i+1]：分配大小 N+1，dp'[0] 就是空前缀的 base，不需要负下标。这不是改你的语义，是纯下标偏移：

vector<ll> dp(N + 1, ...);
dp[0] = 0;             // 原 dp[-1]
// 原 dp[i] 写成 dp[i+1]
// 转移用 dp[j] 代替 dp[j-1]

很多人看到这写法叫"按前缀长度索引"——其实只是机械的 +1 偏移，不是换语义。它的好处是热循环没分支。
两种等价，挑顺手的。(A) 贴近你的思维模型，(B) 编译出的代码可能稍快一丁点（其实差不多）。

AC 代码

AC 提交： 372581604

展开完整 C++ 源码

// teamname: Gospel_rock
/**
 * Problem: C. Median Partition
 * Contest: Spectral::Cup 2026 Round 1 (Codeforces Round 1094, Div. 1 + Div. 2)
 * Judge: Codeforces
 * URL: https://codeforces.com/contest/2222/problem/C
 * Created: 2026-04-26 10:34:46
 * Author: Gospel_rock
 * My blog: https://znzryb.com/
 * 
 * Powered by AutoCp https://github.com/Pushpavel/AutoCp
 */

#include <bits/stdc++.h>
#define all(vec) vec.begin(),vec.end()
#define lson(o) (o<<1)
#define rson(o) (o<<1|1)
#define SZ(a) ((long long) a.size())
#define fsp(x) fixed<<setprecision(x)

using namespace std;

#if 0 && defined(LOCAL)
// @formatter:off
namespace DBG {
	template<typename T> void debug(T x);
	void debug(bool x);
	void debug(string x);
	template<typename T> void debug(vector<T> v);
	template<typename T, size_t N> void debug(array<T, N> v);
	template<typename T> void debug(set<T> s);
	template<typename T, typename U> void debug(pair<T, U> p);
	template<typename T, typename U> void debug(map<T, U> m);
	template<typename T>
	void debug(T x) { cerr << x; } void debug(bool x) { cerr << (x ? "T" : "F"); } void debug(string x) { cerr << '"' << x << '"'; }
	template<typename T> void debug(vector<T> v) { constexpr bool nested = requires(T t) { t.begin(); t.end(); }; int n = v.size(); cerr << "["; for (int i = 0; i < n; i++) { if constexpr (nested) { if (i) cerr << ","; cerr << "\n  "; } else { if (i) cerr << ", "; } debug(v[i]); } if constexpr (nested) { if (n) cerr << "\n"; } cerr << "]"; }
	template<typename T, size_t N> void debug(array<T, N> v) { constexpr bool nested = requires(T t) { t.begin(); t.end(); }; cerr << "["; for (size_t i = 0; i < N; i++) { if constexpr (nested) { if (i) cerr << ","; cerr << "\n  "; } else { if (i) cerr << ", "; } debug(v[i]); } if constexpr (nested) { if (N) cerr << "\n"; } cerr << "]"; }
	template<typename T> void debug(set<T> s) { cerr << "{"; int f = 0; for (auto x: s) { if (f++) cerr << ", "; debug(x); } cerr << "}"; }
	template<typename T, typename U> void debug(pair<T, U> p) { cerr << "("; debug(p.first); cerr << ", "; debug(p.second); cerr << ")"; }
	template<typename T, typename U> void debug(map<T, U> m) { cerr << "{"; int f = 0; for (auto &[k, v]: m) { if (f++) cerr << ", "; debug(k); cerr << ": "; debug(v); } cerr << "}"; }
	void _dbg() { cerr << endl; }
	template<typename T, typename... A> void _dbg(T x, A... a) { debug(x); if (sizeof...(a)) cerr << ", "; _dbg(a...); }
}
// @formatter:on
#define dbg(x...) cerr << "[" << setw(7) << #x << "] = ", DBG::_dbg(x)
#define cend cerr<<"\n---------------------------------------------------\n"
#define cEnd cerr<<"\n***************************************************\n"
#define myAssert(x) assert(x)
#else
#define dbg(x...) 11
#define cend 45
#define cEnd 14
#define myAssert(x) 14
#endif

using ll = long long;
using ull = unsigned long long;
using DB = double;
using i128 = __int128;
using CD = complex<double>;

static constexpr ll MAXN = (ll) 1e6 + 10, INF = (1ll << 61) - 1;
static constexpr ll mod = 998244353; // (ll)1e9+7;
static constexpr double eps = 1e-8;
const double PI = acos(-1.0);

ll lT, testcase;

/*
 *
 */
ll get_median(vector<ll> A) {
	sort(all(A));
	return A[SZ(A) / 2];
}

void preSumCompute(const vector<ll> &A, vector<ll> &preBtm, vector<ll> &preLtm, ll M) {
	preBtm.resize(SZ(A) + 1);
	preLtm.resize(SZ(A) + 1);
	for (int i = 0; i < SZ(A); ++i) {
		int valBt = (A[i] >= M);
		int valLt = (A[i] <= M);
		preBtm[i + 1] = preBtm[i] + valBt;
		preLtm[i + 1] = preLtm[i] + valLt;
	}
}

bool checkLr(const vector<ll> &preBtm, const vector<ll> &preLtm, ll l, ll r) {
	ll len = r - l + 1;
	ll valBt = preBtm[r + 1] - preBtm[l];
	ll valLt = preLtm[r + 1] - preLtm[l];
	ll len2 = (len + 1) / 2;
	return valBt >= len2 && valLt >= len2 && (len & 1);
}

void Solve() {
	ll N;
	cin >> N;
	vector<ll> A(N);
	myAssert(get_median({1,3,2})==2);
	for (int i = 0; i < N; ++i) {
		cin >> A[i];
	}
	ll med = get_median(A);
	vector<ll> preBtm, preLtm;
	preSumCompute(A, preBtm, preLtm, med);
	dbg(preBtm);
	dbg(preLtm);
	vector<ll> dp(N + 1, -INF);
	dp[0] = 0;
	for (int r = 0; r < N; ++r) {
		for (int l = 0; l <= r; ++l) {
			if (checkLr(preBtm, preLtm, l, r)) {
				dp[r + 1] = max(dp[r + 1], 1 + dp[l]);
			}
		}
	}
	dbg(med);
	dbg(dp);
	cout << dp.back() << "\n";
}

signed main() {
	ios::sync_with_stdio(false);
	cin.tie(nullptr);
	cout.tie(nullptr);
#ifdef LOCAL
	cout.setf(ios::unitbuf); // 无缓冲流，方便我们调试
#endif

	cin >> lT;
	for (testcase = 1; testcase <= lT; ++testcase)
		Solve();
	return 0;
}

/*
AC
https://codeforces.com/contest/2222/submission/372581604

*/

心路历程

从 mentor.tex 对话录里提炼出的 3 次主要卡壳：

**第一次摔：**理解错题意，以为子数组可以重叠（其实是滑动窗口的概念）。题面里 k 序列严格递增、首尾相接才是合法划分——每个元素恰好属于一段。
**第二次摔：**写区间中位数判定时想用「区间内 m 的个数 > ⌈len/2⌉」当条件，被反例 $[1,2,3], m=2$ 打回——这是「严格多数」、比「中位数 = m」强。换成 ±1 编码 + 两套前缀和才对。
**第三次摔：**dp 默认 0 初始化， $\text{dp}[r+1] = \max(\ldots, 1 + \text{dp}[l])$ 把不可达的 dp[l] = 0 当成合法 base，段数被高估。改成 dp(N+1, -INF); dp[0] = 0 后 AC。

关键教训写进了板子 §debug 章节：DP 不可达状态必须用 -INF 显式标识——base 之外一律 -INF（求 max）/ INF（求 min），0 只能用于「计数 / 无贡献」语义。

附件

与 Claude 的全过程对话录 LaTeX 编译产物（mentor.pdf）。

mentor.pdf — 带教对话录

Starters-235-Shift Game（这个移动看起来没什么规律，但是实际上看了视频以后，你会发现按段来切分，实际上 A 动的时候 B 不动，B 动的时候 A 不动）

Posted on 2026-04-23 Edited on 2026-04-29

题目大意

题面

Alice 手上有两个长度为 $N$ 的二进制字符串 $A$ 和 $B$ （仅由字符 0 和 1 组成）。

Alice 玩如下游戏。初始时她的分数为 $0$ 。每次迭代：

她把两个字符串的首字符乘积加到分数上，即分数增加 $A_1 \cdot B_1$ 。
如果 $A_1 = B_1$ ，就把 $A$ 替换为 $\mathrm{left\_shift}(A)$ 。
否则把 $B$ 替换为 $\mathrm{left\_shift}(B)$ 。

对于二进制字符串 $S = S_1 S_2 \ldots S_L$ ， $\mathrm{left\_shift}(S)$ 定义为删去首字符并追加到末尾：

\mathrm{left\_shift}(S) = S_2 S_3 \ldots S_L S_1

现在有 $Q$ 次独立询问。第 $i$ 次询问给出整数 $K_i$ ，需要求出恰好执行 $K_i$ 次迭代后 Alice 的分数。各次询问彼此独立，每次都视为从初始字符串 $A$ 、 $B$ 重新开始。

输入格式

第一行一个整数 $T$ ，表示测试用例组数。
每组测试用例共四行：
- 第一行两个整数 $N$ 、 $Q$ ，分别表示字符串长度与询问次数。
- 第二行是二进制字符串 $A$ 。
- 第三行是二进制字符串 $B$ 。
- 第四行 $Q$ 个空格分隔的整数 $K_1, K_2, \ldots, K_Q$ 。

输出格式

对每组测试用例输出一行，包含 $Q$ 个空格分隔的整数，第 $i$ 个整数是执行 $K_i$ 次迭代后 Alice 的分数。

数据范围

$1 \leq T \leq 10^4$
$1 \leq N, Q \leq 10^6$
$1 \leq K_i \leq 10^{12}$
所有测试用例的 $N$ 之和、 $Q$ 之和各自不超过 $10^6$
时间限制 $3$ 秒；内存限制 $1.5$ GB

样例

样例 1

输入：

输出：

1 2	0 0 1 1 2 1 2 3 4

样例解释

样例 1 的第一组测试用例，前 $5$ 次迭代的详细过程：

$A = \texttt{01},\ B = \texttt{10}$ 。分数增加 $0 \cdot 1 = 0$ 。此时 $A_1 \neq B_1$ ，令 $B \leftarrow \mathrm{left\_shift}(B) = \texttt{01}$ 。
$A = \texttt{01},\ B = \texttt{01}$ 。分数增加 $0 \cdot 0 = 0$ 。此时 $A_1 = B_1$ ，令 $A \leftarrow \mathrm{left\_shift}(A) = \texttt{10}$ 。
$A = \texttt{10},\ B = \texttt{01}$ 。分数增加 $1 \cdot 0 = 0$ 。此时 $A_1 \neq B_1$ ，令 $B \leftarrow \mathrm{left\_shift}(B) = \texttt{10}$ 。
$A = \texttt{10},\ B = \texttt{10}$ 。分数增加 $1 \cdot 1 = 1$ 。此时 $A_1 = B_1$ ，令 $A \leftarrow \mathrm{left\_shift}(A) = \texttt{01}$ 。
$A = \texttt{01},\ B = \texttt{10}$ 。分数增加 $0 \cdot 1 = 0$ 。此时 $A_1 \neq B_1$ ，令 $B \leftarrow \mathrm{left\_shift}(B) = \texttt{01}$ 。

前 $1, 3, 5, 7, 9$ 次迭代后的累计分数依次为 $0, 0, 1, 1, 2$ 。

思路讲解

一句话

$K$ 最大到 $10^{12}$ ，逐步模拟必炸；这题的结构是「run-length 周期 + 首块 + 整圈 + 零头」三段式，外面再套个二分。

状态机：matched / mismatched

得分 $A_1 \cdot B_1$ 只有在 $A_1 = B_1 = 1$ 时是 1，其他都是 0。而且「谁前进」完全绑定在 $A_1 \stackrel{?}{=} B_1$ 上，所以过程天然分两态：

matched（ $A_1 = B_1$ ）：左移 $A$ ，得分 $= A_1$
mismatched（ $A_1 \ne B_1$ ）：左移 $B$ ，得分 $= 0$

matched 段持续到 $A$ 跨过一个 $A$ -run（ $A_1$ 翻转），mismatched 段持续到 $B$ 跨过一个 $B$ -run（ $B_1$ 翻转），两态在 run 边界交替。

🎬 Note: 动画：两态循环切换（对应下方 BasicLoop.mp4）——沿时间轴展示 matched ↔ mismatched 的交替节拍，以及每步谁在动、谁在得分。

Video

Phase：一个 matched + 一个 mismatched

把相邻的 matched + mismatched 合成一个 phase。每个 phase 吃掉 $A$ 的 1 个 run + $B$ 的 1 个 run，步数 $= \mathrm{len}(A\text{-run}) + \mathrm{len}(B\text{-run})$ 。

关键不变量：

每过一个 phase， $A_1, B_1$ 各翻 1 次，相对关系还原——所以所有 phase 的内部子结构都和第 1 个一样，只需判一次 $c_A \stackrel{?}{=} c_B$ （ $c_A, c_B$ 就是 $A_1, B_1$ 的初始值）。后面零头分类直接吃这条不变量。

跳过首块 + 周期性

$A$ 从首块内部起步，所以首块是残缺的（长度 $L_0^A$ ，与 $A_1$ 同字符的极长前缀）。跳过首块后从 $L_0^A \bmod N$ 开始把 $A$ 当循环串扫一圈，得到完整 run 长度序列 $r^A_0, r^A_1, \ldots, r^A_{k_A-1}$ ，段长总和 $= N$ ，之后按段数 $k_A$ 为周期重复。 $B$ 侧同构。

注意段数 $k_A$ 和段数 $k_B$ 一般不相等，两套预处理彼此独立——同一个 $P$ （已过 phase 数）在 $A$ 侧和 $B$ 侧走的圈数、零头段号可以完全不一样。

🎬 Note: 动画：首块拎出 + 整圈跳跃（对应下方 SkipJump.mp4）——可视化「首块 $L_0^A$ 单独算一份 + 后面按段数周期扫圈」的分解。

Video

三段式 $O(1)$ 函数

走完 $P$ 个 phase $=$ phase 1 吃首块 $+$ 剩下 $P - 1$ 个 phase 按周期跑完。两侧各自拆 $P - 1 = q \cdot k + r$ ：

f_A(P) \;=\; L_0^A + q_A \cdot N + \mathrm{pref\_a}[r_A]

f_B(P) \;=\; L_0^B + q_B \cdot N + \mathrm{pref\_b}[r_B]

g_A(P) \;=\; L_0^A \cdot c_A + q_A \cdot W_A + \mathrm{pref\_score\_A}[r_A]

🎬 Note: 动画：预处理数组构造（对应下方 Preprocess.mp4）——动态展示两侧 run 长度序列、pref_a / pref_b 前缀和、整圈得分 W_A 是怎么一步步填出来的，三段式 O(1) 公式里的参数全部在这步落地。

Video

$W_A = \sum_i r^A_i \cdot \mathrm{rate}_i$ 是一整圈的得分（ $\mathrm{rate}_i$ 就是第 $i$ 段 $A_1$ 的值：偶 $i$ 是 $1 - c_A$ 、奇 $i$ 是 $c_A$ ）。 $P = 0$ 要直接 return 0，别套公式——不然首块项会白加，而且 $P - 1 = -1$ 做下取整和取模在 C++ 里行为还依赖符号约定，徒增隐患。

二分 + 零头（这个二分应该是单纯我们不大能推出来这个最大能走）

$f_A(P) + f_B(P)$ 关于 $P$ 单调递增，直接二分找最大 $P^*$ 使 $f_A(P^*) + f_B(P^*) \le K$ 。单查询 $O(\log K)$ 。

零头 $R = K - (f_A(P^*) + f_B(P^*))$ 落在第 $P^* + 1$ 个 phase 里——用那个不变量，查一次 $c_A \stackrel{?}{=} c_B$ 定案：

$c_A$ vs $c_B$	phase 内部结构	$R$ 步贡献
$c_A = c_B$	先 matched 后 mismatched	$\min(R,\ \mathrm{len}_A) \cdot \mathrm{rate}_A$
$c_A \ne c_B$	先 mismatched 后 matched	$\max(R - \mathrm{len}_B,\ 0) \cdot \mathrm{rate}_A$

口诀： $c_A = c_B$ 时 $A$ 在前， $R$ 先花在 matched 段； $c_A \ne c_B$ 时 $B$ 在前，要先熬过 $\mathrm{len}_B$ 步 mismatched 才落到 matched。代码里 A[0] == B[0] 就是在判这个。

uniform 特判

$A$ 或 $B$ 全同字符时翻转结构退化（ $k_A = 0$ 之类），奇偶 rate 公式直接出事。把「都 uniform / 只 $A$ uniform / 只 $B$ uniform」三类单独闭式处理绕开。通解写完一定要回头扫一遍退化分支，不然很容易暴毙。

复杂度

预处理 $O(N)$ ，单次询问 $O(\log K)$ ，总 $O(N + Q \log K) \approx 10^6 + 10^6 \cdot 40 \approx 4 \times 10^7$ ，稳过 3 s。

📎 动画与源码

solution.tex.txt

solution.pdf — xelatex 编译产物（12 页 A4）

AC代码

🎬 Note: 动画：代码走读（对应下方 CodeWalkthrough.mp4）——按执行顺序高亮核心函数（预处理、f_A/f_B/g_A、二分主框架、零头分类），配合上面思路节的三段式公式一起看。

Video

源代码

心路历程（WA，TLE，MLE……）

Starters-234-Sum and XOR

Posted on 2026-04-22 Edited on 2026-04-24

题目大意

思路讲解

AI 生成的 latex 题解代码

No content to show

AC代码

源代码

心路历程（WA，TLE，MLE……）

2026 杭电春季联赛 4——1007-喂马（ODT 配合）

Posted on 2026-04-19

题目大意

给定多组数据。每组有 n 匹马按编号 1..n 排列，m 个饲料槽编号 1..m。

初始时第 i 匹马分配到槽 a_i，其中 a_i=0 表示未分配。每个槽的投喂总量 b_i 初始都是 0。

需要按顺序执行 q 次操作，每次输入 opt, l, r, x：

opt=1：把区间 [l,r] 内所有马的分配槽改为 x。
opt=2：对区间 [l,r] 内每匹马，如果它当前已分配槽（a_i≠0），就给它所在槽增加 x 的投喂量（累加到对应 b_{a_i}）。

所有操作结束后，输出 m 个数，表示每个槽最终投喂总量 b_1..b_m。

Sample Input
1
6 4 5
1 0 3 2 4 1
2 1 4 3
1 2 5 1
2 1 6 2
1 3 4 4
2 2 5 4

Sample Output
23 3 3 8

样例过程对应含义：

初始分配：[1,0,3,2,4,1]，所有 b_i=0。
操作 2 1 4 3：马 1..4 中已分配的有 1,3,4 号马，分别给槽 1,3,2 各加 3。
操作 1 2 5 1：马 2..5 全部分配到槽 1。
操作 2 1 6 2：马 1..6 都已分配，按当前分配给对应槽加 2。
操作 1 3 4 4：马 3..4 改分配到槽 4。
操作 2 2 5 4：马 2..5 都已分配，按当前分配给对应槽加 4。

最终各槽投喂总量为：23 3 3 8。

思路讲解

2025 河南省赛——Problem C. Toxel 与宝可梦图鉴（珂朵莉树+值域线段树维护全局信息）（因为这道题目，可以设计珂朵莉树无这个查询操作，只有 assign 操作，因此严格 O(nlogn)）（区间等差数列赋值，全局查询最小众数）

AI 生成的 latex 题解代码

\documentclass{article}

\usepackage{graphicx}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{xeCJK}
\usepackage{indentfirst}
\setlength{\parindent}{2em}
\usepackage{multicol}
\usepackage{tocloft}
\usepackage{xcolor}
\usepackage[cachedir=_minted-main]{minted}
\usepackage{pifont}
\newcommand{\opone}{\ding{172}}
\newcommand{\optwo}{\ding{173}}
\usepackage[a4paper, left=2cm, right=2cm, top=2.5cm, bottom=2.5cm]{geometry}
\usepackage{tikz}
\usetikzlibrary{arrows.meta, decorations.pathreplacing}

\definecolor{colorA}{RGB}{220,80,60}
\definecolor{colorB}{RGB}{50,120,200}
\definecolor{colorC}{RGB}{50,160,80}
\definecolor{colorZero}{RGB}{150,150,150}

\setminted{
	breaklines=true,
	breakanywhere=true,
	fontsize=\small,
	frame=single,
	bgcolor=gray!5,
	tabsize=2,
}

\renewcommand{\cftsecleader}{\cftdotfill{\cftdotsep}}

\usepackage[colorlinks=true, linkcolor=black, anchorcolor=black, citecolor=black, filecolor=black, menucolor=black, runcolor=black, urlcolor=blue]{hyperref}

\title{1007 喂马 —— 题解（AI 辅助版）}
\author{znzryb}
\date{\today}

\begin{document}
	\maketitle

	\section*{1007 喂马}

	\textbf{Time Limit:} 20000 / 10000 MS (Java / Others)\par
	\textbf{Memory Limit:} 524288 / 524288 K (Java / Others)

	\subsection*{Problem Description}
	2026 丙午马年，某马术俱乐部有 $n$ 匹马排成一排，编号 $1, 2, \ldots, n$。俱乐部设有 $m$ 个饲料槽，编号 $1, 2, \ldots, m$。初始时，第 $i$ 匹马被分配到第 $a_i$ 号饲料槽（$a_i=0$ 表示该马暂未分配）。每个饲料槽有一个投喂量计数 $b_i$，初始均为 $0$。

	你需要依次执行 $q$ 次操作，操作有两种类型：
	\begin{enumerate}
		\item[\opone{}] 给定 $l, r, x$，将编号在 $[l, r]$ 内的所有马重新分配到第 $x$ 号饲料槽。
		\item[\optwo{}] 给定 $l, r, x$，对编号在 $[l, r]$ 内的每匹马，若该马已分配饲料槽（即 $a_i \neq 0$），则向其饲料槽投喂 $x$ 单位饲料（即 $b_{a_i}$ 加上 $x$）。
	\end{enumerate}
	请输出所有操作执行完毕后，每个饲料槽的总投喂量。

	\subsection*{数据范围}
	$1 \le T \le 5$，$1 \le n, m, q \le 2 \times 10^6$，$0 \le a_i \le m$，$opt \in \{1, 2\}$，$1 \le l \le r \le n$，$1 \le x \le m$。所有测试数据的 $n$ 与 $q$ 之和均不超过 $2 \times 10^6$。

	\section{核心思路：把投喂量先记在马身上}

	注意到操作 \optwo{} 里，真正影响答案的，是"这匹马当前属于哪个槽"。如果一匹马在处理操作 \optwo{} 时属于槽 $c$，那这次投喂的 $x$ 就加到 \texttt{b[c]} 上。

	一个关键的观察：\textbf{操作 \optwo{} 本身不需要知道颜色}，它只是在 $[l, r]$ 上加一个值 $x$——不管这段里的马属于哪个槽。我们可以先把这些"投喂"全部记在马的编号上，开一个 BIT（支持区间加、区间查询），操作 \optwo{} 直接对 $[l,r]$ 区间加 $x$，BIT 里 \texttt{S[i]} 的含义就是"马 $i$ 被操作过的所有投喂量之和"。

\begin{minted}{cpp}
// 操作\optwo{} 直接变成一次 BIT 区间加，O(log n)，完全不碰 ODT
if (opt == 2) bit.add(l, r, x);
\end{minted}

	剩下的问题是：这些积在马身上的投喂量，怎么最终归到正确的槽？

	\section{在换槽的瞬间结账}

	马的槽会被操作 \opone{} 改变。想清楚下面这件事：一匹马 $i$ 一开始属于槽 $c_{old}$，然后某次操作 \opone{} 把它改成槽 $c_{new}$。在这次改变发生之前，所有打到马 $i$ 上的投喂量，都应该归给 $c_{old}$。

	所以在执行操作 \opone{} 的那一刻，对于每一段被覆盖的旧区间 $[L, R]$（旧颜色 $c$），把 BIT 里 $[L,R]$ 的区间和查出来，直接加到 \texttt{b[c]} 上就行了：

\begin{minted}{cpp}
// 在 assign 里遍历每一个将被推平的旧段 [L, R, c]
ull V = bit.query(L, R);   // 这段马身上目前积累的总投喂量
if (c != 0) b[c] += V;    // 结账给旧槽
\end{minted}

	但光加还不够——这段马接下来要属于新槽 $c_{new}$。假设之后又有操作 \optwo{} 打到它们身上，那些投喂量不应该再算到旧槽里去了。所以还要把"当前已积累的基准量"从新槽里提前减掉：

\begin{minted}{cpp}
if (x != 0) b[x] -= V;    // 让新槽从"零基准"开始计，而不是从当前 V 开始
\end{minted}

	这样做之后，将来再查 $[L,R]$ 的区间和时，那个值只包含"进入新槽 $x$ 之后新增的投喂量"，正好是应该归给槽 $x$ 的部分。这就是整个方案的核心：\textbf{先减后加，差分结账}。

	\section{最后一次结账}

	所有操作结束后，ODT 里剩下的每个段 $[L, R, c]$，它们在最后一次换颜色之后可能又被投喂了若干次，这些投喂量还留在 BIT 里没有结算。遍历一遍 ODT，对每个非零颜色的段，把区间和加到对应的 \texttt{b[c]} 上：

\begin{minted}{cpp}
for (auto &nd : odt) {
    if (nd.c != 0) b[nd.c] += bit.query(nd.l, nd.r);
}
\end{minted}

	\section{为什么这样做 ODT 不会炸}

	操作 \optwo{} 根本不碰 ODT，只动 BIT，每次 $O(\log n)$。ODT 只在操作 \opone{} 里被动，而每次操作 \opone{} 在推平时会删掉旧段、插入新段。ODT 的快就是因为"被删的段不会再回来"——整个生命周期里最多插入 $n + q$ 个段，所有操作 \opone{} 加在一起最多删 $n + q$ 次，每次删的时候顺便做一次 BIT 区间查询。总代价完全可控。

	\section{处理 \texttt{a[i] = 0} 的马}

	颜色为 $0$ 代表未分配。在 assign 遍历时：

\begin{minted}{cpp}
if (c != 0) b[c] += V;   // c == 0 时直接跳过，不给任何槽结账
if (x != 0) b[x] -= V;   // x == 0 时也跳过
\end{minted}

	颜色为 $0$ 的段在换出去时不结账、换进来时也不做减操作。于是这段马在"属于槽 0"期间积累的投喂量就被彻底丢弃，符合题意。

	\section{溢出问题}

	$x$ 最大 $2 \times 10^6$，区间最大 $2 \times 10^6$，操作最多 $2 \times 10^6$ 次，最大总量接近 \texttt{long long} 的上限。而差分结账时 \texttt{b[x] -= V} 会让 \texttt{b[x]} 暂时变成负数（在 \texttt{long long} 里意味着有溢出风险）。

	改用 \texttt{unsigned long long} 就没这个问题——所有加减在模 $2^{64}$ 的环里转，最终结果只要是正确的正数就能正常打印。

	\section{完整代码}

	\begin{minted}{cpp}
#include <iostream>
#include <vector>
#include <set>
using namespace std;

typedef unsigned long long ull;
const int MAXN = 2000005;

// BIT：支持区间加、区间查询
// 维护两个差分数组 d1[i] 和 d2[i] = i*d1[i]
// 前缀和 = (p+1)*sum(d1, p) - sum(d2, p)
ull bit1[MAXN], bit2[MAXN];
ull b[MAXN];
int a[MAXN];
int n, m, q;

void bit_add(int idx, ull v1, ull v2) {
	for (; idx <= n; idx += idx & -idx) {
		bit1[idx] += v1;
		bit2[idx] += v2;
	}
}
void range_add(int l, int r, ull val) {
	bit_add(l,     val,          (ull)l * val);
	bit_add(r + 1, 0ULL - val,   0ULL - (ull)(r + 1) * val);
}
ull prefix_sum(int idx) {
	ull s1 = 0, s2 = 0, k = idx;
	for (; idx > 0; idx -= idx & -idx) { s1 += bit1[idx]; s2 += bit2[idx]; }
	return (k + 1) * s1 - s2;
}
ull range_query(int l, int r) {
	return prefix_sum(r) - prefix_sum(l - 1);
}

// ODT 节点：[l, r] 内所有马属于槽 c
struct Node {
	int l, r;
	mutable int c;
	Node(int l_, int r_ = 0, int c_ = 0) : l(l_), r(r_), c(c_) {}
	bool operator<(const Node& o) const { return l < o.l; }
};
set<Node> odt;

auto split(int x) {
	if (x > n) return odt.end();
	auto it = --odt.upper_bound(Node(x));
	if (it->l == x) return it;
	int l = it->l, r = it->r, c = it->c;
	odt.erase(it);
	odt.insert(Node(l, x - 1, c));
	return odt.insert(Node(x, r, c)).first;
}

void assign_color(int l, int r, int x) {
	auto itr = split(r + 1);
	auto itl = split(l);
	for (auto it = itl; it != itr; ++it) {
		int L = it->l, R = it->r, c = it->c;
		ull V = range_query(L, R);
		if (c != 0) b[c] += V;   // 旧槽结账
		if (x != 0) b[x] -= V;   // 新槽扣除已积累的基准量
	}
	odt.erase(itl, itr);
	odt.insert(Node(l, r, x));
}

// 快读快写
namespace FastIO {
	const int BUFSZ = 1 << 20;
	char ibuf[BUFSZ], obuf[BUFSZ];
	char *ip1 = ibuf, *ip2 = ibuf;
	int opos = 0;
	inline char gc() {
		if (ip1 == ip2) {
			ip2 = (ip1 = ibuf) + fread(ibuf, 1, BUFSZ, stdin);
			if (ip1 == ip2) return EOF;
		}
		return *ip1++;
	}
	inline void pc(char c) {
		if (opos == BUFSZ) { fwrite(obuf, 1, BUFSZ, stdout); opos = 0; }
		obuf[opos++] = c;
	}
	template<typename T> inline void rd(T &x) {
		x = 0; char c = gc();
		while (c < '0' || c > '9') { if (c == EOF) return; c = gc(); }
		while (c >= '0' && c <= '9') { x = x * 10 + c - '0'; c = gc(); }
	}
	template<typename T> inline void wr(T x) {
		if (x == 0) { pc('0'); return; }
		static char st[24]; int top = 0;
		while (x) { st[top++] = x % 10 + '0'; x /= 10; }
		while (top--) pc(st[top]);
	}
	inline void flush() { if (opos) { fwrite(obuf, 1, opos, stdout); opos = 0; } }
}
using namespace FastIO;

void solve() {
	rd(n); rd(m); rd(q);
	for (int i = 0; i <= n + 1; ++i) bit1[i] = bit2[i] = 0;
	for (int i = 0; i <= m + 1; ++i) b[i] = 0;
	odt.clear();

	for (int i = 1; i <= n; ++i) rd(a[i]);

	// 初始 ODT：相邻同色的马合并成一段
	for (int i = 1; i <= n; ) {
		int j = i;
		while (j <= n && a[j] == a[i]) ++j;
		odt.insert(Node(i, j - 1, a[i]));
		i = j;
	}

	for (int i = 0; i < q; ++i) {
		int opt, l, r; ull x;
		rd(opt); rd(l); rd(r); rd(x);
		if (opt == 1) assign_color(l, r, (int)x);
		else          range_add(l, r, x);   // 操作\optwo{}：只动 BIT，不碰 ODT
	}

	// 最终结算：ODT 里每个残留段的积累量归给对应槽
	for (auto &nd : odt)
		if (nd.c != 0) b[nd.c] += range_query(nd.l, nd.r);

	for (int i = 1; i <= m; ++i) {
		wr(b[i]);
		pc(i == m ? '\n' : ' ');
	}
}

int main() {
	int T; rd(T);
	while (T--) solve();
	flush();
	return 0;
}
	\end{minted}

	\section{把样例跟着走一遍}

	初始：\texttt{a = [1, 0, 3, 2, 4, 1]}，ODT 各段：\texttt{[1,1,1] [2,2,0] [3,3,3] [4,4,2] [5,5,4] [6,6,1]}，\texttt{S = [0,0,0,0,0,0]}，\texttt{b = [0,0,0,0]}。

	\begin{enumerate}
		\item \textbf{操作 2 1 4 3}：BIT 在 $[1,4]$ 加 3，\texttt{S = [3,3,3,3,0,0]}。

		\item \textbf{操作 1 2 5 1}：把 $[2,5]$ 推成颜色 1。遍历旧段结账：
		\begin{itemize}
			\item \texttt{[2,2,0]}，$V=3$，\texttt{c=0} 跳过；\texttt{b[1] -= 3}。
			\item \texttt{[3,3,3]}，$V=3$，\texttt{b[3] += 3}；\texttt{b[1] -= 3}。
			\item \texttt{[4,4,2]}，$V=3$，\texttt{b[2] += 3}；\texttt{b[1] -= 3}。
			\item \texttt{[5,5,4]}，$V=0$，无影响。
		\end{itemize}
		此时 \texttt{b = [-9, 3, 3, 0]}（\texttt{ull} 环里），ODT 变为 \texttt{[1,1,1] [2,5,1] [6,6,1]}。

		\item \textbf{操作 2 1 6 2}：BIT 在 $[1,6]$ 加 2，\texttt{S = [5,5,5,5,2,2]}。

		\item \textbf{操作 1 3 4 4}：把 $[3,4]$ 推成颜色 4。split 出 \texttt{[3,4,1]}，$V=10$，\texttt{b[1] += 10}，\texttt{b[4] -= 10}。\texttt{b = [1, 3, 3, -10]}，ODT 变为 \texttt{[1,1,1] [2,2,1] [3,4,4] [5,5,1] [6,6,1]}。

		\item \textbf{操作 2 2 5 4}：BIT 在 $[2,5]$ 加 4，\texttt{S = [5,9,9,9,6,2]}。

		\item \textbf{最终结算}：
		\begin{itemize}
			\item \texttt{[1,1,1]}：\texttt{b[1] += 5}。
			\item \texttt{[2,2,1]}：\texttt{b[1] += 9}。
			\item \texttt{[3,4,4]}：\texttt{b[4] += 18}。
			\item \texttt{[5,5,1]}：\texttt{b[1] += 6}。
			\item \texttt{[6,6,1]}：\texttt{b[1] += 2}。
		\end{itemize}
		\texttt{b[1] = 1+5+9+6+2 = 23}，\texttt{b[2] = 3}，\texttt{b[3] = 3}，\texttt{b[4] = -10+18 = 8}。
	\end{enumerate}

	输出 \texttt{23 3 3 8}，与样例答案一致。

\end{document}

PDF

我的简略 latex 代码

\documentclass{article}

\usepackage{graphicx} % Required for inserting images
\usepackage{amsmath} % bmatrix、cases、aligned 等数学环境
\usepackage{amssymb} % 数学符号宏包，支持 \mathbb 等
\usepackage{xeCJK} % 核心：添加这个宏包以支持中文
\usepackage{indentfirst} % 支持首段缩进
\setlength{\parindent}{2em} % 设置缩进为两个中文字符宽度
\usepackage{multicol} % 引入分栏宏包
\usepackage{tocloft} % 支持目录引导点
\usepackage{xcolor}   % 用于设置颜色；须先于 minted 以便 bgcolor 等生效
\usepackage[cachedir=_minted-main]{minted} % Pygments 高亮，需 -shell-escape + pygmentize
\usepackage[a4paper, left=2cm, right=2cm, top=2.5cm, bottom=2.5cm]{geometry}

% 与原先 listings 外观大致对齐；
\setminted{
% 风格可用莫兰迪系
% style=stata-light,
% 允许长行换行
	breaklines=true,
% 允许在任意位置换行，防止长 URL 戳出去
	breakanywhere=true,
	fontsize=\small,
	frame=single,
	bgcolor=gray!5,
% -8bit 以后，xelatex 才对制表符有反应
	tabsize=2,
}

% --- 目录样式修改 ---
\renewcommand{\cftsecleader}{\cftdotfill{\cftdotsep}} % 让 section 也有点点
% ------------------

\usepackage[colorlinks=true, linkcolor=black, anchorcolor=black, citecolor=black, filecolor=black, menucolor=black, runcolor=black, urlcolor=blue]{hyperref} % 添加超链接和PDF书签支持

\title{}
\author{znzryb}
\date{\today}
\begin{document}
	\maketitle
	\section*{1007 喂马}

	\textbf{Time Limit:} 20000 / 10000 MS (Java / Others)
	
	\textbf{Memory Limit:} 524288 / 524288 K (Java / Others)

	\subsection*{Problem Description}
	2026 丙午马年，某马术俱乐部有 $n$ 匹马排成一排，编号 $1, 2, \ldots, n$。俱乐部设有 $m$ 个饲料槽，编号 $1, 2, \ldots, m$。初始时，第 $i$ 匹马被分配到第 $a_i$ 号饲料槽（$a_i=0$ 表示该马暂未分配）。每个饲料槽有一个投喂量计数 $b_i$，初始均为 $0$。

	你需要依次执行 $q$ 次操作，操作有两种类型：

	\begin{enumerate}
		\item[①] 给定 $l, r, x$，将编号在 $[l, r]$ 内的所有马重新分配到第 $x$ 号饲料槽。
		\item[②] 给定 $l, r, x$，对编号在 $[l, r]$ 内的每匹马，若该马已分配饲料槽（即 $a_i \neq 0$），则向其饲料槽投喂 $x$ 单位饲料（即 $b_{a_i}$ 加上 $x$）。
	\end{enumerate}

	请输出所有操作执行完毕后，每个饲料槽的总投喂量。

	\subsection*{Input}
	本题有多组测试数据。第一行输入 $T\ (1 \le T \le 5)$，表示数据组数。

	对于每组数据：

	第一行输入三个正整数 $n, m, q\ (1 \le n, m, q \le 2 \times 10^6)$。

	第二行输入 $n$ 个非负整数 $a_1, a_2, \ldots, a_n\ (0 \le a_i \le m)$。

	接下来 $q$ 行，每行输入四个正整数 $opt, l, r, x\ (opt \in \{1, 2\}, 1 \le l \le r \le n, 1 \le x \le m)$，意义如题目描述所述。

	保证所有数据的 $n$ 的和不超过 $2 \times 10^6$，$q$ 的和不超过 $2 \times 10^6$。

	\subsection*{Output}
	对于每组数据，输出一行 $m$ 个整数，第 $i$ 个整数表示第 $i$ 个饲料槽的总投喂量 $b_i$，相邻整数用空格隔开。

	\subsection*{Sample Input}
	\begin{minted}{text}
1
6 4 5
1 0 3 2 4 1
2 1 4 3
1 2 5 1
2 1 6 2
1 3 4 4
2 2 5 4
	\end{minted}

	\subsection*{Sample Output}
	\begin{minted}{text}
23 3 3 8
	\end{minted}

	\section{明确题意以及想法}
	首先，我们需要明确题意。我们需要查询的是在这个 \texttt{[l,r]} 区间内，有几个马是属于 \texttt{house1} 的，有几个马是属于 \texttt{house2} 的...？

	而且，我们发现，这个东西，他不是一个全局查询，而是一个区间查询。\href{https://codeforces.com/gym/105941/problem/C}{2025 河南省赛——Problem C. Toxel 与宝可梦图鉴} 这个和这道题目还不大一样，这道题目是一个这个全局查询，只需要用一个树状数组维护全局信息即可。

	这道题目还有一个这个赋值操作，用 ODT 维护即可，但是问题就在于，查询你不能用 ODT 去查，用 ODT 查，时间复杂度就炸了。

	不过其实这道题目有一个显而易见的思路，就是我们在换槽的时候，再搞事情。因为说白了，这个查询连离线都算不上，最后的结果也是多个查询结果放在一起的，其实根本甚至都不需要将每次查询区分出来。

	\section{进一步的这个思考（可不可能变为在线查询？）}

	呃，okay 啊，我发现，其实想把这道题目改变为在线是很难的，因为在线查询，就是每次查询，都回答给 a 马厩喂了几个，给 c 马厩喂了几个，等等等，这个查询本身就是，你不考虑他是怎么查的，光是输出这个东西本身，复杂度就已经不大对了，所以说类似的，这种比较难维护的这个问题，都不大可能说改为这个在线查询。

\end{document}

PDF

这个下面的这个避免树状数组清空的技巧还是非常有用的。

	void assign(ll la, ll ra, ll val) {
		split(la);
		split(ra + 1);
		auto it = mpODT.lower_bound(la);
#ifdef LOCAL
		assert(it->first==la);
#endif
		for (; it != mpODT.end();) {
			if (it->first > ra) {
				break;
			}
			ll originV = it->second.val;
			ll l = it->first, r = it->second.r;
			// 这里是做一些事情，比如说累加答案
			ll add = tr->query(l, r);
			anss[originV] += add;
			anss[val] -= add;
			it = mpODT.erase(it);
		}
		mpODT[la] = {ra, val};
	}

AC代码

AC

https://acm.hdu.edu.cn/contest/view-code?cid=1201&rid=9803

源代码

// teamname: Gospel_rock
/**
 * Problem: 喂马
 * Contest: 
 * Judge: HDOJ
 * URL: https://acm.hdu.edu.cn/contest/problem?cid=1201&pid=1007
 * Created: 2026-04-17 20:40:26
 * Author: Gospel_rock
 * My blog: https://znzryb.com/
 * 
 * Powered by AutoCp https://github.com/Pushpavel/AutoCp
 */

#include <bits/stdc++.h>
#define all(vec) vec.begin(),vec.end()
#define lson(o) (o<<1)
#define rson(o) (o<<1|1)
#define SZ(a) ((long long) a.size())
#define fsp(x) fixed<<setprecision(x)

using namespace std;

#if 1 && defined(LOCAL)
// @formatter:off
namespace DBG {
	template<typename T>
	void debug(T x) { cerr << x; } void debug(bool x) { cerr << (x ? "T" : "F"); } void debug(string x) { cerr << '"' << x << '"'; }
	template<typename T> void debug(vector<T> v) { constexpr bool nested = requires(T t) { t.begin(); t.end(); }; int n = v.size(); cerr << "["; for (int i = 0; i < n; i++) { if constexpr (nested) { if (i) cerr << ","; cerr << "\n  "; } else { if (i) cerr << ", "; } debug(v[i]); } if constexpr (nested) { if (n) cerr << "\n"; } cerr << "]"; }
	template<typename T> void debug(set<T> s) { cerr << "{"; int f = 0; for (auto x: s) { if (f++) cerr << ", "; debug(x); } cerr << "}"; }
	template<typename T, typename U> void debug(pair<T, U> p) { cerr << "("; debug(p.first); cerr << ", "; debug(p.second); cerr << ")"; }
	template<typename T, typename U> void debug(map<T, U> m) { cerr << "{"; int f = 0; for (auto &[k, v]: m) { if (f++) cerr << ", "; debug(k); cerr << ": "; debug(v); } cerr << "}"; }
	void _dbg() { cerr << endl; }
	template<typename T, typename... A> void _dbg(T x, A... a) { debug(x); if (sizeof...(a)) cerr << ", "; _dbg(a...); }
}
// @formatter:on
#define dbg(x...) cerr << "[" << setw(7) << #x << "] = ", DBG::_dbg(x)
#define cend cerr<<"\n-------------------------\n"
#define cEnd cerr<<"\n*************************\n"
#else
#define dbg(x...) 11
#define cend 45
#define cEnd 14
#endif

using ll = long long;
using ull = unsigned long long;
using DB = double;
using i128 = __int128;
using CD = complex<double>;

static constexpr ll MAXN = (ll) 1e6 + 10, INF = (1ll << 61) - 1;
static constexpr ll mod = 998244353; // (ll)1e9+7;
static constexpr double eps = 1e-8;
const double PI = acos(-1.0);

ll lT, testcase;

/*
 *
 */

/* 2026-04-19 luogu 线段树模板题
 * AC https://www.luogu.com.cn/record/274702532
 * 进一步添加了 public,private 规定了接口的可见性
 */
class BIT {
	// 支持区间修改，区间查询
	// 维护两个差分：d[i] 和 i*d[i]
	// 前缀和 sum(p) = (p+1)*sum(d[1..p])
	//              - sum(i*d[i], 1..p)
	vector<ll> tr1, tr2;
	int n;

	ll lowbit(ll x) {
		return x & (-x);
	}

public:
	BIT(int n_) {
		n = n_;
		// 这个 n+1 就够了，虽然涉及到这个差分
		tr1.assign(n + 2, 0);
		tr2.assign(n + 2, 0);
	}

private:
	void add(vector<ll> &tr, ll p, ll x) {
		// 防止 0 死循环
		if (p <= 0) return;
		while (p <= n) {
			tr[p] += x;
			p += lowbit(p);
		}
	}

	ll sum(vector<ll> &tr, ll p) {
		ll ret = 0;
		while (p) {
			ret += tr[p];
			p -= lowbit(p);
		}
		return ret;
	}

	// 单点加
	void add(ll p, ll x) {
		add(tr1, p, x);
		add(tr2, p, p * x);
	}

public:
	// 区间加，[l, r] 每个位置加 x
	void add(ll l, ll r, ll x) {
		add(tr1, l, x);
		add(tr1, r + 1, -x);
		add(tr2, l, l * x);
		add(tr2, r + 1, -(r + 1) * x);
	}

private:
	// 前缀和 a[1] + a[2] + ... + a[p]
	ll query(ll p) {
		return (p + 1) * sum(tr1, p) - sum(tr2, p);
	}

public:
	// 区间和 a[l] + ... + a[r]
	ll query(ll l, ll r) {
		return query(r) - query(l - 1);
	}
};

// 来自wida github仓库 https://github.com/hh2048/XCPC/tree/main 加了一些新功能
//46 ms https://acm.hdu.edu.cn/contest/view-code?cid=1179&rid=14912 读入字符getc(a) 的AC记录
// AC https://vjudge.net/solution/63197697 一道测试读写的codechef题目
namespace QuickRead {
	// 快读
	char buf[1 << 21], *p1 = buf, *p2 = buf;

	inline int getc() {
		return p1 == p2 && (p2 = (p1 = buf) + fread(buf, 1, 1 << 21, stdin), p1 == p2) ? EOF : *p1++;
	}

	template<typename T>
	void Cin(T &a) {
		T ans = 0;
		bool f = 0;
		char c = getc();
		for (; c < '0' || c > '9'; c = getc()) {
			if (c == '-') f = 1;
		}
		for (; c >= '0' && c <= '9'; c = getc()) {
			ans = ans * 10 + c - '0';
		}
		a = f ? -ans : ans;
	}

	void getc(char &a) {
		char c = getc();
		while (isspace(c)) {
			c = getc();
		}
		a = c;
	}

	template<typename T, typename... Args>
	void Cin(T &a, Args &... args) {
		Cin(a), Cin(args...);
	}

	// ===== 输出 =====
	static constexpr size_t OUT_CAP = 1 << 21; // 大概是2MB
	char obuf[OUT_CAP];
	size_t op = 0;

	inline void flush() {
		if (op) {
			fwrite(obuf, 1, op, stdout);
			op = 0;
		}
	}

	inline void putc(char c) {
		if (op == OUT_CAP) flush();
		obuf[op++] = c;
	}

	template<typename T>
	void write(T x) {
		// 注意，这里输出不带换行
		if (x < 0) putc('-'), x = -x;
		if (x > 9) write(x / 10);
		putc(x % 10 + '0');
	}

	struct Flusher {
		// 析构时自动刷新
		~Flusher() { flush(); }
	} flusher;
} // namespace QuickRead
using namespace QuickRead;

struct Solve {
	ll N, M, Q;

	struct RVal {
		ll r;
		ll val;
	};

	map<ll, RVal> mpODT;
	optional<BIT> tr;
	vector<ll> anss;

	void split(ll pos) {
		if (mpODT.empty()) return;
		auto it = mpODT.upper_bound(pos);
		if (it == mpODT.begin()) return;
		it--;
		if (it->first == pos) {
			return;
		}
		mpODT[pos] = {it->second.r, it->second.val};
		it->second.r = pos - 1;
	}

	void assign(ll la, ll ra, ll val) {
		split(la);
		split(ra + 1);
		auto it = mpODT.lower_bound(la);
#ifdef LOCAL
		assert(it->first==la);
#endif
		for (; it != mpODT.end();) {
			if (it->first > ra) {
				break;
			}
			ll originV = it->second.val;
			ll l = it->first, r = it->second.r;
			// 我们现在要把这个换掉的值给累加到答案上
			ll add = tr->query(l, r);
			anss[originV] += add;
			anss[val] -= add;
			it = mpODT.erase(it);
		}
		mpODT[la] = {ra, val};
	}

	vector<ll> A;

	Solve() {
		// cin >> N >> M >> Q;
		Cin(N, M, Q);
		A.resize(N + 2);
		tr.emplace(N);
		anss.resize(M + 2);
		for (int i = 1; i <= N; ++i) {
			// cin >> A[i];
			Cin(A[i]);
			mpODT[i] = {i, A[i]};
		}
		for (int i = 1; i <= Q; ++i) {
			ll opt, l, r, x;
			// cin >> opt >> l >> r >> x;
			Cin(opt, l, r, x);
			if (opt == 1) {
				assign(l, r, x);
			} else {
				tr->add(l, r, x);
			}
		}
		for (auto it = mpODT.begin(); it != mpODT.end(); it++) {
			ll originV = it->second.val;
			ll l = it->first, r = it->second.r;
			// 我们现在要把这个换掉的值给累加到答案上
			ll add = tr->query(l, r);
			anss[originV] += add;
		}
		for (int i = 1; i <= M; ++i) {
			// cout << anss[i] << " ";
			write(anss[i]);
			putc(' ');
		}
		// cout << "\n";
		putc('\n');
	}
};

signed main() {
	ios::sync_with_stdio(false);
	cin.tie(nullptr);
	cout.tie(nullptr);
#ifdef LOCAL
	cout.setf(ios::unitbuf); // 无缓冲流，方便我们调试
#endif

	// cin >> lT;
	Cin(lT);
	for (testcase = 1; testcase <= lT; ++testcase)
		Solve solve;
	return 0;
}

/*
AC
https://acm.hdu.edu.cn/contest/view-code?cid=1201&rid=9803

*/

背景

第 1 步：理解题目

第 2 步：暴力解法 + 关键观察

第 3 步：寻找更紧的循环节

第 4 步：周期 = 把无穷轨迹压回 O(N)O(N)O(N)

心路历程（WA → TLE → AC）

AC 代码

📎 附件

题目大意

数据范围

链接

思路讲解

第 1 步：理解题目

第 2 步：暴力解法思路

第 3 步：实现

AC 代码

心路历程

附件

题目大意

题面

输入格式

输出格式

数据范围

样例

样例解释

思路讲解

一句话

状态机：matched / mismatched

Phase：一个 matched + 一个 mismatched

跳过首块 + 周期性

三段式 O(1)O(1)O(1) 函数

二分 + 零头（这个二分应该是单纯我们不大能推出来这个最大能走）

uniform 特判

复杂度

📎 动画与源码

AC代码

心路历程（WA，TLE，MLE……）

题目大意

思路讲解

AC代码

心路历程（WA，TLE，MLE……）

题目大意

思路讲解

AC代码

心路历程（WA，TLE，MLE……）

第 4 步：周期 = 把无穷轨迹压回 $O(N)$

三段式 $O(1)$ 函数