17370845950

新闻动态

Pandas 中按组识别首次出现值并生成累加序列的高效实现

本文介绍如何在 pandes dataframe 中，基于分组（groupby）和条件（如首次出现某值），为每组生成一个从 0 开始、按固定步长累加的数值列（如 100/6 的累加序列），并在条件中断后重置。

在实际数据分析中，常需根据业务逻辑对数据进行“状态感知”的填充：例如，当某列首次出现标记值（如 CURA_T1 == 1）时，启动一个递增计数器，并在该连续段内按固定步长（如 100/6 ≈ 16.666...）累加，形成类似进度条的数值序列；一旦标记中断（如后续又变为 0），则重置为 0。同时，还需支持多组 ID（如 CLI_CD）独立计算。

关键难点在于：既要识别“首次出现 1 的连续块”，又要确保每个 CLI_CD 组内独立处理，且不跨组累积。直接使用 .groupby('CLI_CD') 并配合 .cumsum() 或 .cumcount() 容易误判连续性——因为 CURA_T1 的 1 可能非首尾相连，中间夹杂 0。

✅ 正确解法的核心思路是：
用 df['CURA_T1'].eq(0).cumsum() 构造“逻辑分段标识符” —— 该操作将每个 CURA_T1 == 0 的位置标记为 True，再累加，从而在每次 CURA_T1 从 0 变为 1（即新连续 1 段开始）时，产生一个新的分段编号。这样，所有连续的 1 自动被划入同一分段，而前导/尾随/中断的 0 各自成段。

随后，对这个分段标识符再次 groupby().cumcount()，即可获得每段内的行序号（从 0 开始），乘以 100/6 并取整，即得目标列 CURA_ALT。

以下是完整可运行代码：

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 核心逻辑：按 CURA_T1==0 的累计和分段 → 对每段内行号累加 → 乘步长 → 取整
df['CURA_ALT'] = (
    df.groupby(df['CURA_T1'].eq(0).cumsum()).cumcount() 
    * (100 / 6)
).astype(int)

print(df)

输出结果：

    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16   # 第1个1 → 0*100/6 = 0 → 但 cumcount 从0开始，第1行是索引0 → 实际为第1个有效1行 → 0→16
5        3        1        33   # 索引1 → 1*16.666≈16.66→int=16? 注意：cumcount() 返回 0,1,2,... → 0→0, 1→16, 2→33...
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项：

100/6 是浮点数，cumcount() 从 0 开始计数，因此第 n 个 1（在连续段中位置为 n-1）对应值为 (n-1) * 100/6，四舍五入取整后与预期略有差异（如第 1 行显示 16 而非 17），这是浮点精度与整型截断共同导致的。若需严格向上取整或四舍五入，可用 np.round(...).astype(int) 或 np.ceil()。
该方法天然支持多组 CLI_CD：因 df['CURA_T1'].eq(0).cumsum() 是全局运算，但后续 groupby(...).cumcount() 作用于该 Series，其分段已隐含组内连续性；若存在多个 CLI_CD，需先确保数据按 CLI_CD 排序，或改用 groupby(['CLI_CD', df['CURA_T1'].eq(0).cumsum()]) 显式分组（更稳健）。
若需“仅从首个 1 开始累加，此前全为 0，此后遇 0 即清零”，本方案已满足；若需“跨 CLI_CD 不混段”，务必在构造 cumsum 前按 CLI_CD 排序或分组预处理。

总结：此技巧巧妙利用布尔累积和构造语义分段，避开显式循环与 apply，兼具性能与可读性，是 Pandas 高级分组场景的典型范式。

17370845950

关于我们

服务项目

广告推广

案例欣赏