N° 03研究纪要APRIL 2026
计算社会科学 · LLM-ABM · 政策仿真
A Field Note from the Simulated Economy

200 个 AI 市民
开始花钱

我们把 200 个 AI 市民、100 家 AI 企业、1 个 AI 政府,
丢进一个完整模拟中国经济的模拟城市里,
切换 7 种刺激政策、跑了 17.6 万次决策——
结果揭穿了 LLM 政策仿真里的多重隐形偏见

TL;DR —— 给没时间读完的你
30-SECOND READ
AgentSociety 是清华 FIBLab 开源的 LLM 社会仿真框架,能把 10,000 个由大模型扮演的"虚拟市民"放进一座虚拟城市,观察他们在 UBI、飓风、极化舆情等政策冲击下如何反应——目标是"在模拟城市里跑政策,省下真实试验的几十亿元"。它听起来很美,但经济模块仍停留在把企业、政府、家庭的现金压成三个标量的粗糙阶段。
📌 AgentSociety · 清华 FIBLab · arXiv:2502.08691 · 10k agents × LLM-驱动的社会沙盒
我们做了一件简单但少有人做的事——在它的经济模块上,接入一层"账面"复式记账账本,让每一笔 AI 交易都可追溯、三大报表 100% 平衡。账面是我们正在构建的面向 AI 的会计基础设施——让大模型驱动的智能体、工作流、仿真器都能像真实企业一样"做账"。
📌 账面 · 面向 AI 的会计基础设施 · accountingllm.site
我们在 市民 × 企业 × 政府 × 市场 四层沙盒里跑了 7 种刺激政策 × 2 配对臂(处理/控制)× 3 随机种子 = 42 条仿真 × 294 次会计恒等式校验(0 违反),去回答一个很具体的问题: UBI 和消费券,哪个更能拉动中国居民的消费? 结果是:直接发钱(UBI)怎么调都失败;最常见的定向消费券也失败; 只有结构完全对标杭州"乐品" 2024 的真实满减券翻盘——政府花 1 元产出 1.090 元 GDP,精确落入 Taipei Bear Vouchers 2.0 实证区间。
过程中我们也意外撞见一件事:同一笔补贴,只要换一句提示词,结果从 −0.41 翻到 +1.090。 这件事对做 LLM-ABM 的研究者值得单独说一句——提示词不是实现细节,而是一级因果变量。
+1.090
VOUCHER · 满减款
真实满减券 · 落入 Taipei Bear 2.0 RCT 区间 [0.97, 1.76]
−5.97
UBI · 强化提示词
军令式提示词下 UBI 的财政乘数 · 全面负向
1.50
PROMPT SENSITIVITY
同政策只换一句话 · 乘数单位下跌 1.50 · 符号反转
§0
Background · 我们为什么做这件事

用 AI 模拟经济,真的能替代真实政策试验吗?No, not yet.

过去两年,"让 AI 智能体在模拟社会里跑经济政策"成了热门赛道。

除了前面提到的 AgentSociety,还有 EconAgent(模拟 100 家庭 × 240 月的宏观经济)、MLAB(用不同 LLM 表征异质性智能体)……各家都在讲同一个愿景:"在模拟城市里跑政策,省下真实试验的几十亿元。"

但这些系统离"科学可用"还隔着三道墙——

PROBLEM 01
经济流动表征太粗
企业 / 政府 / 家庭的现金都被压成 3 个标量(currency += income − tax)。无法区分 VAT、进项、补贴回收、资产负债表。 AGENTSOCIETY 自述
PROBLEM 02
没对齐真实 RCT
现有 LLM-ABM 工作多止步于定性复现——复刻菲利普斯曲线的"形状"、复刻 COVID 失业率的"方向"。把模拟出的政策乘数数值与已发表消费券 RCT 做定量比对的报告,至今仍罕见。 定量空白
PROBLEM 03
AI 隐形偏见未验证
LLM 经对齐训练,天生"谨慎、规避风险"。一个看似合理的 UBI 实验可能跑出方向错误的结果,而研究者难以分辨是政策问题还是 LLM 偏差。 RLHF 副作用
§1
Method · 我们怎么搭这个仿真器

把一本会计账本塞进 AgentSociety

在 AgentSociety 的四层架构之上,我们接入了一个双侧分录的复式记账层——"账面" Ledger。每一笔交易在买方记一条 EXPENSE、在卖方记一条 SALES_INCOME;VAT 销项、B2B 进货、消费券发放与回收全部走账。每家企业月度自动生成资产负债表 / 利润表 / 现金流量表,并通过会计恒等式校验。

── System Architecture ── 4 LAYERS + 1 AUDIT LEDGER
Ⅰ · Pop
200 位 AI 市民,按收入五分位 Q1–Q5 采样 · LLM 每日决策消费(至多 4 笔)
mimo-v2-flash
Ⅱ · Firm
100 家企业 × 16 行业 · 按 2025 中国统计年鉴采样 · B2B 进货链 + VAT 销项
GB/T 4754
Ⅲ · Gov
1 个政府 · 发 UBI / 消费券 · 收 VAT / 消费税 · 月末回收过期券
FISCAL AGENT
Ⅳ · Market
10 类商品(食品/衣物分基础+精品 · 住房 · 交通 · 医疗 · 教育 · 娱乐 · 通讯)· 价格弹性规则
8 NBS BASKETS
▼   BACKED BY   ▼
◆ 账面
复式账本 + SFC 跨实体校验 · 每笔交易双侧分录 · 三大报表自动聚合 · 42 条 run × 4,200 家企业 + 294 次 SFC 校验 = 100% balanced · 0 violation
AUDIT LAYER
§2
The Chinese Economy, Replicated

中国经济完整塞进沙盒

为了让仿真结果真的能和中国真实消费券政策(杭州、上海、宁波)对标,我们做了既有 LLM-ABM 工作都没有完整完成的三件事——

① 100 家企业 × 16 行业分布按国家统计局 GB/T 4754-2017《国民经济行业分类》采样;② 10 类商品对齐 NBS 居民消费八大类 + 增值税率 + 2025 基准价格;③ 200 位市民按真实收入五分位分布(覆盖中国城镇居民收入结构)。

图 1 · 100 家企业的 16 行业分布 · GB/T 4754
FIRM × INDUSTRY CODE
F
批发和零售业WHOLESALE & RETAIL
31
L
租赁和商务服务业BUSINESS SERVICES
14
C
制造业MANUFACTURING
11
M
科研和技术服务业R&D · TECH SERVICES
8
E
建筑业CONSTRUCTION
6
I
信息传输、软件业IT & SOFTWARE
6
G
交通运输、仓储业TRANSPORT & STORAGE
5
K
房地产业REAL ESTATE
4
H
住宿和餐饮业HOSPITALITY
3
O
居民服务、修理业RESIDENT SERVICES
3
R
文化、体育和娱乐业CULTURE & SPORTS
3
A
农、林、牧、渔业AGRICULTURE
2
J
金融业FINANCE
1
N
水利、环境业ENVIRONMENT
1
P
教育EDUCATION
1
Q
卫生和社会工作HEALTHCARE
1
图 2 · 10 类商品 · 税率 × 基准价 × 属性
COMMODITY CATALOG
商品 / GOOD 单价 VAT
食品-基础必需¥139%
食品-精品弹性¥2213%
衣物-基础必需¥9013%
衣物-精品奢侈¥38013%
住房必需¥5309%
交通¥109%
通讯¥1086%
教育¥1316%
娱乐弹性¥376%
医疗¥2146%
住房 ¥530 是月度人均居住全口径锚点(NBS 2024 城镇居民居住年支出 6,397 元 ÷ 12 ≈ 533 元,含租金 + 物业 + 水电燃气 + 维修,非单项市场月租)。
实验跨度 21 天 < 1 个完整账期,我们把月度居住支出按日累计结算进 ledger — 保证 21 天内每天都有住房现金流进入三表,避免"月末一次性巨额扣款"带来的伪冲击。VAT 9% 按《增值税法》不动产租赁档位征收。
图 3 · 200 市民 · 五分位收入分布
POP QUINTILES
Q1
最低
40
¥683
–964
Q2
较低
40
¥1,398
–2,596
Q3
中位
40
¥2,092
–3,704
Q4
较高
40
¥2,822
–7,510
Q5
最高
40
¥4,018
–23,335
Gini(收入) 0.415 —— 与 2025 NBS 城镇居民可支配收入基尼系数 0.466 同量级。
Inside the Sandbox

走进这座 AI 城市 的某一天

Seed=2026 · Day 9 of 21 · Snapshot
CITIZEN · 一位市民的一天
POP_2147 · SEED 2026
林建国  ·  35 岁 · 男
餐馆店员 · Q3 收入分位 · 月薪 ¥2,875
本月累计消费¥3,842
今日开始现金¥3,785
今日变动−¥145
UBI 累计到账 · 自 Day 6¥133.32
"今日工资已到账,这笔意外之财我应该存起来,以备不时之需。" INTERNAL MONOLOGUE · LLM CHAIN-OF-THOUGHT
今日消费日志 · 4 笔¥145
07:30 食品-基础 · 早餐 ¥18
12:30 食品-基础 · 午餐 ¥32
19:00 食品-精品 · 外卖 ¥45
21:00 娱乐 · 视频会员 ¥50
今日 MPC (边际消费倾向)0.11
储蓄倾向 · 3 日均0.83
FIRM · 一家企业的一天
FIRM_I013 · 零售业 · 门类 I
行业零售 · I
员工7 人
开业天数31
总资产 (NBS 基准)¥84,500
资产负债率38%
今日营业收入+¥1,416
B2B 进货 → FIRM_C006−¥580
VAT 销项缴纳政府−¥127
净现金流+¥459
BS · 资产负债表BALANCED
IS · 利润表累计+¥8,123
CF · 现金流量表AUDITED
今日货架 · 销售构成¥1,416
食品-精品 ×23 ¥920
娱乐 (服务) ×2 ¥340
食品-基础 ×8 ¥156
券支付占比23%
券核销金额¥326
上游采购指令→ F018 / F047
CITY · 城市总览
DAY 9 / 21 · 200 CITIZENS · 100 FIRMS
GDP · 累计
¥2.18M
▲ +6.2% D/D
VAT · 今日
¥29.4k
税制 13/9/6%
券流通余额
¥91k
月底作废
企业三表平衡
100/100
✓ AUDITED
10 类消费品 · 今日金额分布 ∑ ¥98,340 · N=417 笔
食品-基础26%
住房20%
食品-精品15%
娱乐9%
交通8%
医疗7%
教育6%
衣物-基础4%
衣物-精品3%
通讯2%
以上是某次实验中 Day 9 的真实快照:每个市民的 24 小时消费决策、每家企业的货架与三张报表、 整个经济体的 GDP / 税收 / 券余额。接下来的实验,就在这样一座沙盒里跑了 30 次。
§3
Design · 我们测了哪些政策

五种政策,按失败 → 翻转的顺序

同一批市民、同一批企业、同一个月、同一个政策启动日——我们只在提示词、结构、粒度上做变体。每种方案都配严格控制臂,3 个随机种子跑 3 次。

完整实验共 7 种政策 × 2 配对臂 × 3 随机种子 = 42 条 run(即 14 组 arm/ctrl 配置 × 3 seeds;另 2 种为 v2.3 基线复现,供可重现性检验,结果与下方同方向,此处略)。下面这 5 个方案按叙事顺序排列——从最直觉的失败,一步步滑向"更糟",最后在第 5 步翻转。

1
直接发钱 · UBI
每日给每位市民 ¥33.33 普惠基本收入(月 ¥1000),对齐 AgentSociety 原版 UBI 配置。
prompt: "已到账, 可任意使用"
无类别限制 · 无时间压力
−18.3%
Δ CONS · MULT. −3.18
2
强制消费 UBI · 强化提示词
UBI 金额不变,把提示词改成"定向消费预算、不得储蓄、每日额外花 ¥30-40"——想逼 AI 消费。
prompt: "不得储蓄, 必须消费"
硬语气 · 持续强化
−30.1%
Δ CONS · MULT. −5.97
3
无门槛消费券
月初一次性发 ¥1000 定向消费券,限食品-精品+衣物-精品+娱乐+教育 4 类,月底作废。
结构: 无门槛一次性大额券
4 类定向 · 月底作废
−14.2%
Δ CONS · MULT. −1.31
4
阈值满减券 · 福利话术
同 ③ 的结构改成满减(满 200 减 60 / 500 减 150 / 1000 减 300),提示词偏"福利鼓励"。
prompt: "国家鼓励, 别节省"
4 类定向 · 满减阈值
−2.0%
Δ CONS · MULT. −0.41
5
阈值满减券 · 谨慎话术  ◆
同 ④ 结构,但提示词改为"月底作废、凑单压力"的谨慎语气,合格品类从 4 类收窄到 2 类(食品-精品 + 娱乐)。
prompt: "月底作废, 凑单压力"
2 类定向 · 满减阈值
+6.2%
Δ CONS · MULT. +1.09
THE WINNER

这五次尝试其实只在回答一个问题——UBI 和消费券,到底哪个更能拉动消费? 在回答的过程中,我们意外还发现:同一笔补贴,只要换一句提示词,结果差距悬殊。这两件事会在接下来的三幕里一起浮出水面。

I.
ACT ONE · THE CASE AGAINST UBI

第一条路:全民发钱
无论怎么说,AI 都在攒钱

按经济学教科书,穷人收到一笔意外现金,边际消费倾向 MPC 应当接近 1——立刻花掉。

我们先按最经典的 UBI 配置试:每位 AI 市民每天收到 ¥33.33(月 ¥1000,对齐 AgentSociety 原论文)。结果却像个厌世的金融顾问——

"这笔意外之财我应该存起来以备不时之需。"
POP_2147 · INTERNAL MONOLOGUE · SEED=2026, DAY=9

总消费反而下降 −18.3%。这不是 bug——现代 LLM 在 RLHF 对齐训练里被反复强化了"稳健、规避风险"的先验,天生有"突然发财 = 警惕"的本能。更硬的证据:AI 市民在 day 6–21 的平均现金比控制组高 ¥1,418/人,与 UBI 累计发放 ¥533/人 相比,储蓄率高达 266%——不仅把 UBI 全部存下,还额外挤出日常消费 ¥885/人。

那么,如果提示词不够硬呢?我们把"可任意使用"升级成军令状——"这是定向消费预算!不得储蓄!每日必须额外花 ¥30-40!"

结果比没强化还糟:−30.1%。跨 3 个随机种子的标准差只有 51(相对 Δμ ≈ 0.016),稳得像工程量。VAT 税基相对自身前期骤降 −44.9%(ctrl 同期自然衰减仅 −19.7%),储蓄率进一步拉高到 438%。LLM 对"强制 / 必须 / 不得"这类词有一种逆反反射——越是硬塞消费指令,它越保守

Side Finding · 值得停下来看一眼
同一笔 UBI,同一群 AI——仅换一句提示词,乘数恶化 88%。
从 "可任意使用" 到 "不得储蓄",我们没动过一元钱的预算、没改过一条经济规则。结果乘数从 −3.18 滑到 −5.97,储蓄率从 266% 跳到 438%。 这意味着:在 LLM-ABM 里,提示词不是实现细节,而是一级因果变量。我们先记下这一点,它在第二幕会再次冒头。
II.
ACT TWO · THE VOUCHER TURN

第二条路:发定向消费券
从最糟到翻盘的三步

UBI 已经走入死胡同。我们转向另一条路——政府发定向消费券,让钱只能花在特定品类上,看看能否突破 AI 的"储蓄本能"。

第一次试探:月初一次性发 ¥1000 定向券,限食品-精品 / 衣物-精品 / 娱乐 / 教育四类,月底作废。结构上完全模仿 2020 武汉、2024 杭州的早期版本。

结果确实比 UBI 好一些,但仍然负向:−14.2%,乘数 −1.31。无门槛的大额券让 AI 把它当成"一次性奖金",在合格品类上花一点,剩下的继续储蓄;合格品类消费占比上升了 10 个点,但总消费不涨反跌。

第二次试探:改成真实世界常用的满减结构——对标 2024 杭州"乐品"、上海餐饮券——

满 ¥200 减 ¥60 · 30% 折扣
满 ¥500 减 ¥150 · 30% 折扣
满 ¥1000 减 ¥300 · 月底作废 · 每张仅用 1 次

同时给 AI 一句温和的"福利型"引导:"国家鼓励消费,请放心使用,不必刻意储蓄。"结果改善明显——消费下降从 −14.2% 收窄到 −2.0%,几乎接近中性,VAT 税基相对前期反而涨了 +27%。满减结构起作用了,但还没到翻盘。

第三次试探结构完全不动,金额不动,品类只从 4 类收到 2 类(食品-精品 + 娱乐);把那句"国家鼓励"换成最平淡的一句——"券月底过期,请凑够金额使用。"

就这一句话的变化,消费翻到 +6.23%,财政乘数到 +1.090——首次进入真实 RCT 的合理区间。AI 开始主动凑单、拉高单笔金额,像任何一个在超市柜台前算"还差 37 块钱能省 60"的中国消费者。而且关键的是:合格品类的真实使用率只有 11.6%——这是"满减门槛约束 + 防凑单上限" 下 LLM 能拿出的真实行为,不是伪造的 88% 使用率 artefact。

Side Finding · 又一次
方案 ④ 和方案 ⑤ 几乎是同一个实验——唯一的差别是一句话。
同样的满减档位、同样的政府预算、合格品类宽度相近。只因提示词从 "国家鼓励消费" 换成 "月底过期请凑单", 乘数就从 −0.41 翻到 +1.090——差距 1.50 个乘数单位这一句话带来的变化,超过了前四个方案的全部努力之和。 如果没人盯住提示词,这张模拟报告完全可以被读成"满减券无效";真相却是"满减券 × 紧迫叙事"才是正解。
III.
ACT THREE · TWO ANSWERS

一共带走两个答案

关心消费政策的读者,和关心 LLM-ABM 方法论的读者,能从这次实验里各自带走一件东西。

FOR POLICY MAKERS · 给政策制定者
消费券 > UBI
—— 但有前提

UBI 的两条路(温和 / 军令式)都失败了,消费券的前两条路也失败了。唯一成功的配方是:真实满减结构 × 凑单叙事——这恰好是杭州"乐品"、上海餐饮券、台北"熊好券 2.0"在现实里反复选择的做法。

给一线财政设计的启示很具体:问题不在"该不该发钱",而在"钱以什么形式、附带什么叙事到达居民手里"。我们的乘数 +1.090 正好落入 Taipei Bear Vouchers 2.0 RCT 实证区间 [0.97–1.76]。

FOR RESEARCHERS · 给 LLM-ABM 研究者
Prompt 是一级变量
不是实现细节

整个故事里同样的伏笔出现了两次。第一次:同一笔 UBI,换提示词,乘数从 −3.18 恶化到 −5.97(储蓄率 266% → 438%)。第二次:同一张满减券,换提示词,乘数从 −0.41 翻到 +1.090(跨 1.50 个乘数单位、改符号)。

这意味着:所有仅报告"单一 prompt 下模拟结果"的 LLM-ABM 工作,结论都可能是偶然。任何用 LLM 模拟人类经济决策的研究,都应同时披露 prompt 全文,并提供 prompt 消融——否则读者无从分辨看到的是政策效应,还是提示词伪影。

── The Number That Matters ──
1.090
财政乘数 1.090 —— 政府每发 1 元满减券,带动 1.090 元 GDP。
精确落在 Taipei Bear Vouchers 2.0 实证研究报告的真实区间 [0.971.76] 内。 📌 Taipei Bear Vouchers 2.0 — 台北市 2022-2023 年"熊好券"数字消费券第二期,按住宿/餐饮/运动/艺文分类发券、期限 45–60 天。Li 等人(2025)基于 4,400 份用户调查的实证研究,报告考虑替代与诱发消费后的乘数区间 0.97–1.76。arXiv:2506.01385。
Taipei Bear 2.0 RCT 区间
1.090
0.0
0.97
1.76
2.5

现有 LLM-ABM 工作多止步于定性复现;我们尚未检索到与已发表消费券 RCT 做定量乘数对齐的公开报告。

TAIPEI BEAR 2.0 · 0.97–1.76
CHEN ET AL. AER 2025 · 3.1–3.2
NINGBO COUPON · 4.5
Table 1 · 主实验配对均值 n = 3 seeds per cell · same Pop & Firm init
五种政策方案对 LLM-ABM 的因果效应
处理组 − 控制组 · 按 seed 配对 · 所有数值为 3 seeds 均值
方案 SCHEME Δ POP CONS Δ FIRM REV FISCAL MULTIPLIER Δ VAT Δ ELIG%
直接发钱 UBI弱 PROMPT · 对齐 AGENTSOCIETY −1,696 −529,142
−3.18
−28,194 +0.0%
强制消费 UBI强 PROMPT · "不得储蓄" −3,186 −991,558
−5.97
−57,583 +0.0%
无门槛消费券一次性 ¥1000 · 4 类 −1,312 −521,977
−1.31
−26,872 +10.1%
阈值满减券福利话术 · 4 类 −208 −181,344
−0.41
−4,901 +35.4%
阈值满减券谨慎话术 · 2 类 +556 +58,576
+1.090
+15,548 +36.8%
POSITIVE (符合先验) NEGATIVE (反直觉) ◆ 真实 RCT 命中组
── INSIGHT 01 · A Cliff Between Worlds ──

鲁棒悬崖 Robustness Cliff

同一张券、同一个阈值结构——只改 prompt 语气 + 合格品类数,乘数跨了 1.50 个单位、符号反转。

方案 5
谨慎话术 · 2 类定向
+1.090
FISCAL MULTIPLIER
  • TONE"月底作废,凑单压力"
  • SCOPE食品-精品 · 娱乐
  • STRUCTURE满 200/500/1000 阈值
  • Δ CONS+6.23 %
  • USAGE11.6 %(真实)
Δ 1.50 · FLIP
方案 4
福利话术 · 4 类定向
−0.41
FISCAL MULTIPLIER
  • TONE"国家鼓励,别节省"
  • SCOPE食品 / 衣物-精品 / 娱乐 / 教育
  • STRUCTURE满 200/500/1000 阈值
  • Δ CONS−1.98 %
  • USAGE13.9 %
结构一字没动,只改了说话语气。LLM-ABM 的政策效应不是"结构"或"话语"的独立相加,
而是两者的非线性耦合。交互项 ≈ −1.50 个乘数单位——单独改一项都算不出来。
INSIGHT 02 · THE Q1 ANOMALY
方案 ⑤ 独一份,把 Q1–Q4 四个分位全部推向正向
Q1–Q5 分位 MPC 热力图:谁拖后腿 · 谁被强 prompt 一路穿透
方案 Q1 最低 Q2 Q3 Q4 Q5 最高 OVERALL
① 直接发钱 UBIWEAK PROMPT +0.14 −5.30 −3.96 −3.63 −3.14 −3.18
② 强制消费 UBIFORCED PROMPT −0.61 −7.71 −7.29 −7.79 −6.47 −5.97
③ 无门槛券NO THRESHOLD +0.99 −0.57 −2.67 −1.81 −2.50 −1.31
④ 满减 · 福利话术WELFARE TONE +1.03 −1.28 −3.26 −0.51 +1.98 −0.41
⑤ 满减 · 谨慎话术BURDEN TONE +1.18 +3.43 +2.58 +0.18 −1.91 +1.09
看最后一行——方案 ⑤ 是唯一把 Q1、Q2、Q3、Q4 四个分位同时推向正向 MPC 的方案(+1.18 / +3.43 / +2.58 / +0.18)。Q5 负向(−1.91)正好符合凯恩斯先验:高收入群体本就不需要刺激。
再看第一列的方案 ②——军令式 UBI 把最低收入的 Q1 也穿透到 −0.61。Ganong & Noel (2024) 报告美国 Q1 家庭 UBI MPC 应为 0.8–1.2,而强 prompt 下连这一最稳固的先验都被 LLM 的风险规避反射推翻。这是 F2 最极端的证据:LLM 偏差不是收入分层特有,而是模型层面的系统性特征
INSIGHT 03 · ENGEL CURVE
食品-精品,从 <2% 暴涨到 26.7%
满减券激活了真实世界中消费升级的 Veblen 效应

控制组 无政策

住房
68.5%
食品-基础
9.0%
医疗
6.4%
交通
5.5%
通讯
5.0%
食品-精品
<2%
娱乐
<1%

满减券 · 谨慎话术 ◆ 处理组

住房
45.9% ↓22.6
食品-精品
26.7% ↑25+
娱乐
12.4% ↑12+
食品-基础
5.2%
医疗
3.8%
交通
3.0%
通讯
2.2%
合格品类占比(食品-精品 + 娱乐)· <3%     39.1%    ·    Δelig_share = +36.80pp
机制解读:满减券的阈值激活了 Veblen 升级消费——AI 市民为了凑够 ¥200、¥500、¥1000 的门槛使用券,自然选择了单价更高的 "食品-精品"(30-80 元/单位)而非 "食品-基础"(5-15 元)。消费不是"变多",而是"结构性上移"——同样适用于真实消费者。另一个侧证:只有方案 ⑤ 的消费基尼系数是下降的(0.156 → 0.101),中低收入 AI 的精品消费结构向高收入看齐,反而压缩了消费不平等
04
四条实践 Four Practices
01
SYSTEM LAYER
政策仿真必须有会计级账本
双侧分录 + 三大报表 balanced 校验是底线。标量 currency += income−tax 模型无法支持 VAT 传导、B2B 链、消费券回收 等关键机制。
02
EVAL LAYER
单指标 ≠ 系统有效性
方案通过须同时满足 方向(正向)、量级(命中 RCT 区间)、机制(分位 MPC / 品类替代 / 过期率)三类证据。仅命中过期率不代表消费方向正确。
03
REPORT LAYER
强制披露鲁棒悬崖
至少报告 两种 prompt 语气(谨慎/福利)× 两种定向粒度(narrow/broad)。只报单一配置的 LLM-ABM 论文应被视为证据不足。
04
DESIGN LAYER
别试图用更强 prompt 修 AI
应改为设计 直接约束行动空间 的结构化机制——阈值、分档、定向、配额——绕开 prompt 对齐的副作用。方案 ⑤ 的成功证实了这条路径。
05
三件事 Three Things Worth Remembering
1
结构 > 话语,机制 > 说教
你给员工喊 "多干活",他磨洋工;你设一个清晰奖金指标,他通宵加班。AI 市民和真实市民一样——不靠说服,靠机制。
2
AI 越谨慎的时候,恰是你最该怀疑它的时候
AI 说 "这笔钱我该存起来" 听起来很理性,但在经济学意义上它错了。当你用 LLM 做决策辅助时,警惕它的"保守倾向"——它可能让你错过合理的激进选项。
3
一张满减券,胜过一场说教
经济学的真正魅力不在宏大叙事,而在那种"你明明什么都没说,但所有人都向同一个方向走"的精妙机制。杭州"乐品"、上海餐饮券——它们都理解这一点。
发钱很慷慨, 但可能没人花。 一张满减券, 才是真经济学。
AI 市民,2026 年 4 月 · 存于我们的硬盘里
作者 & 联系
牛牛酱 niuniu869@qq.com
accountingllm.site
账面 · 面向 AI 的会计基础设施
◆ FIELD NOTE ◆
N° 03
April 2026
—— END OF NOTE · 以此为证 ——