本文介绍如何在 pandes dataframe 中,基于分组(groupby)和条件(如首次出现某值),为每组生成一个从 0 开始、按固定步长累加的数值列(如 100/6 的累加序列),并在条件中断后重置。
在实际数据分析中,常需根据业务逻辑对数据进行“状态感知”的填充:例如,当某列首次出现标记值(如 CURA_T1 == 1)时,启动一个递增计数器,并在该连续段内按固定步长(如 100/6 ≈ 16.666...)累加,形成类似进度条的数值序列;一旦标记中断(如后续又变为 0),则重置为 0。同时,还需支持多组 ID(如 CLI_CD)独立计算。
关键难点在于:既要识别“首次出现 1 的连续块”,又要确保每个 CLI_CD 组内独立处理,且不跨组累积。直接使用 .groupby('CLI_CD') 并配合 .cumsum() 或 .cumcount() 容易误判连续性——因为 CURA_T1 的 1 可能非首尾相连,中间夹杂 0。
✅ 正确解法的核心思路是:
用 df['CURA_T1'].eq(0).
cumsum() 构造“逻辑分段标识符” —— 该操作将每个 CURA_T1 == 0 的位置标记为 True,再累加,从而在每次 CURA_T1 从 0 变为 1(即新连续 1 段开始)时,产生一个新的分段编号。这样,所有连续的 1 自动被划入同一分段,而前导/尾随/中断的 0 各自成段。
随后,对这个分段标识符再次 groupby().cumcount(),即可获得每段内的行序号(从 0 开始),乘以 100/6 并取整,即得目标列 CURA_ALT。
以下是完整可运行代码:
import pandas as pd
# 构造示例数据
df = pd.DataFrame({
'CLI_CD': [3]*12,
'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})
# 核心逻辑:按 CURA_T1==0 的累计和分段 → 对每段内行号累加 → 乘步长 → 取整
df['CURA_ALT'] = (
df.groupby(df['CURA_T1'].eq(0).cumsum()).cumcount()
* (100 / 6)
).astype(int)
print(df)输出结果:
CLI_CD CURA_T1 CURA_ALT 0 3 0 0 1 3 0 0 2 3 0 0 3 3 0 0 4 3 1 16 # 第1个1 → 0*100/6 = 0 → 但 cumcount 从0开始,第1行是索引0 → 实际为第1个有效1行 → 0→16 5 3 1 33 # 索引1 → 1*16.666≈16.66→int=16? 注意:cumcount() 返回 0,1,2,... → 0→0, 1→16, 2→33... 6 3 1 50 7 3 1 66 8 3 1 83 9 3 1 100 10 3 0 0 11 3 0 0
⚠️ 注意事项:
总结:此技巧巧妙利用布尔累积和构造语义分段,避开显式循环与 apply,兼具性能与可读性,是 Pandas 高级分组场景的典型范式。