N° 03◆研究纪要◆APRIL 2026

计算社会科学 · LLM-ABM · 政策仿真

A Field Note from the Simulated Economy

当 200 个 AI 市民
开始花钱

我们把 200 个 AI 市民、100 家 AI 企业、1 个 AI 政府，
丢进一个完整模拟中国经济的模拟城市里，
切换 7 种刺激政策、跑了 17.6 万次决策——
结果揭穿了 LLM 政策仿真里的多重隐形偏见。

作者 / BY

牛牛酱

│

隶属 / AFFILIATION

账面 · accountingllm.site

│

阅读 / READ TIME

7 分钟 · 2,800 字

TL;DR —— 给没时间读完的你

30-SECOND READ

AgentSociety 是清华 FIBLab 开源的 LLM 社会仿真框架，能把 10,000 个由大模型扮演的"虚拟市民"放进一座虚拟城市，观察他们在 UBI、飓风、极化舆情等政策冲击下如何反应——目标是"在模拟城市里跑政策，省下真实试验的几十亿元"。它听起来很美，但经济模块仍停留在把企业、政府、家庭的现金压成三个标量的粗糙阶段。

📌 AgentSociety · 清华 FIBLab · arXiv:2502.08691 · 10k agents × LLM-驱动的社会沙盒

我们做了一件简单但少有人做的事——在它的经济模块上，接入一层"账面"复式记账账本，让每一笔 AI 交易都可追溯、三大报表 100% 平衡。账面是我们正在构建的面向 AI 的会计基础设施——让大模型驱动的智能体、工作流、仿真器都能像真实企业一样"做账"。

📌 账面 · 面向 AI 的会计基础设施 · accountingllm.site

我们在 市民 × 企业 × 政府 × 市场 四层沙盒里跑了 7 种刺激政策 × 2 配对臂（处理/控制）× 3 随机种子 = 42 条仿真 × 294 次会计恒等式校验（0 违反），去回答一个很具体的问题： UBI 和消费券，哪个更能拉动中国居民的消费？ 结果是：直接发钱（UBI）怎么调都失败；最常见的定向消费券也失败；只有结构完全对标杭州"乐品" 2024 的真实满减券翻盘——政府花 1 元产出 1.090 元 GDP，精确落入 Taipei Bear Vouchers 2.0 实证区间。
过程中我们也意外撞见一件事：同一笔补贴，只要换一句提示词，结果从 −0.41 翻到 +1.090。这件事对做 LLM-ABM 的研究者值得单独说一句——提示词不是实现细节，而是一级因果变量。

+1.090

VOUCHER · 满减款

真实满减券 · 落入 Taipei Bear 2.0 RCT 区间 [0.97, 1.76]

−5.97

UBI · 强化提示词

军令式提示词下 UBI 的财政乘数 · 全面负向

1.50▼

PROMPT SENSITIVITY

同政策只换一句话 · 乘数单位下跌 1.50 · 符号反转

§0

Background · 我们为什么做这件事

用 AI 模拟经济，真的能替代真实政策试验吗？No, not yet.

过去两年，"让 AI 智能体在模拟社会里跑经济政策"成了热门赛道。

除了前面提到的 AgentSociety，还有 EconAgent（模拟 100 家庭 × 240 月的宏观经济）、MLAB（用不同 LLM 表征异质性智能体）……各家都在讲同一个愿景："在模拟城市里跑政策，省下真实试验的几十亿元。"

但这些系统离"科学可用"还隔着三道墙——

PROBLEM 01

经济流动表征太粗

企业 / 政府 / 家庭的现金都被压成 3 个标量（currency += income − tax）。无法区分 VAT、进项、补贴回收、资产负债表。 AGENTSOCIETY 自述

PROBLEM 02

没对齐真实 RCT

现有 LLM-ABM 工作多止步于定性复现——复刻菲利普斯曲线的"形状"、复刻 COVID 失业率的"方向"。把模拟出的政策乘数数值与已发表消费券 RCT 做定量比对的报告，至今仍罕见。定量空白

PROBLEM 03

AI 隐形偏见未验证

LLM 经对齐训练，天生"谨慎、规避风险"。一个看似合理的 UBI 实验可能跑出方向错误的结果，而研究者难以分辨是政策问题还是 LLM 偏差。 RLHF 副作用

§1

Method · 我们怎么搭这个仿真器

把一本会计账本塞进 AgentSociety

在 AgentSociety 的四层架构之上，我们接入了一个双侧分录的复式记账层——"账面" Ledger。每一笔交易在买方记一条 EXPENSE、在卖方记一条 SALES_INCOME；VAT 销项、B2B 进货、消费券发放与回收全部走账。每家企业月度自动生成资产负债表 / 利润表 / 现金流量表，并通过会计恒等式校验。

── System Architecture ── 4 LAYERS + 1 AUDIT LEDGER

Ⅰ · Pop

200 位 AI 市民，按收入五分位 Q1–Q5 采样 · LLM 每日决策消费（至多 4 笔）

mimo-v2-flash

↕

Ⅱ · Firm

100 家企业 × 16 行业 · 按 2025 中国统计年鉴采样 · B2B 进货链 + VAT 销项

GB/T 4754

↕

Ⅲ · Gov

1 个政府 · 发 UBI / 消费券 · 收 VAT / 消费税 · 月末回收过期券

FISCAL AGENT

↕

Ⅳ · Market

10 类商品（食品/衣物分基础+精品 · 住房 · 交通 · 医疗 · 教育 · 娱乐 · 通讯）· 价格弹性规则

8 NBS BASKETS

▼ BACKED BY ▼

◆ 账面
复式账本 + SFC 跨实体校验 · 每笔交易双侧分录 · 三大报表自动聚合 · 42 条 run × 4,200 家企业 + 294 次 SFC 校验 = 100% balanced · 0 violation
AUDIT LAYER

§2

The Chinese Economy, Replicated

把中国经济完整塞进沙盒

为了让仿真结果真的能和中国真实消费券政策（杭州、上海、宁波）对标，我们做了既有 LLM-ABM 工作都没有完整完成的三件事——

① 100 家企业 × 16 行业分布按国家统计局 GB/T 4754-2017《国民经济行业分类》采样；② 10 类商品对齐 NBS 居民消费八大类 + 增值税率 + 2025 基准价格；③ 200 位市民按真实收入五分位分布（覆盖中国城镇居民收入结构）。

图 1 · 100 家企业的 16 行业分布 · GB/T 4754

FIRM × INDUSTRY CODE

批发和零售业WHOLESALE & RETAIL

租赁和商务服务业BUSINESS SERVICES

制造业MANUFACTURING

科研和技术服务业R&D · TECH SERVICES

建筑业CONSTRUCTION

信息传输、软件业IT & SOFTWARE

交通运输、仓储业TRANSPORT & STORAGE

房地产业REAL ESTATE

住宿和餐饮业HOSPITALITY

居民服务、修理业RESIDENT SERVICES

文化、体育和娱乐业CULTURE & SPORTS

农、林、牧、渔业AGRICULTURE

金融业FINANCE

水利、环境业ENVIRONMENT

教育EDUCATION

卫生和社会工作HEALTHCARE

图 2 · 10 类商品 · 税率 × 基准价 × 属性

COMMODITY CATALOG

商品 / GOOD	单价	VAT
食品-基础必需	¥13	9%
食品-精品弹性	¥22	13%
衣物-基础必需	¥90	13%
衣物-精品奢侈	¥380	13%
住房必需	¥530^†	9%
交通	¥10	9%
通讯	¥108	6%
教育	¥131	6%
娱乐弹性	¥37	6%
医疗	¥214	6%

^† 住房 ¥530 是月度人均居住全口径锚点（NBS 2024 城镇居民居住年支出 6,397 元 ÷ 12 ≈ 533 元，含租金 + 物业 + 水电燃气 + 维修，非单项市场月租）。
实验跨度 21 天 < 1 个完整账期，我们把月度居住支出按日累计结算进 ledger — 保证 21 天内每天都有住房现金流进入三表，避免"月末一次性巨额扣款"带来的伪冲击。VAT 9% 按《增值税法》不动产租赁档位征收。

图 3 · 200 市民 · 五分位收入分布

POP QUINTILES

最低

40人

¥683
–964

较低

40人

¥1,398
–2,596

中位

40人

¥2,092
–3,704

较高

40人

¥2,822
–7,510

最高

40人

¥4,018
–23,335

Gini(收入) 0.415 —— 与 2025 NBS 城镇居民可支配收入基尼系数 0.466 同量级。

Inside the Sandbox

走进这座 AI 城市的某一天

Seed=2026 · Day 9 of 21 · Snapshot

CITIZEN · 一位市民的一天

POP_2147 · SEED 2026

林

林建国 · 35 岁 · 男

餐馆店员 · Q3 收入分位 · 月薪 ¥2,875

本月累计消费¥3,842

今日开始现金¥3,785

今日变动−¥145

UBI 累计到账 · 自 Day 6¥133.32

"今日工资已到账，这笔意外之财我应该存起来，以备不时之需。" INTERNAL MONOLOGUE · LLM CHAIN-OF-THOUGHT

今日消费日志 · 4 笔¥145

07:30 食品-基础 · 早餐 ¥18

12:30 食品-基础 · 午餐 ¥32

19:00 食品-精品 · 外卖 ¥45

21:00 娱乐 · 视频会员 ¥50

今日 MPC (边际消费倾向)0.11

储蓄倾向 · 3 日均0.83

FIRM · 一家企业的一天

FIRM_I013 · 零售业 · 门类 I

行业零售 · I

员工7 人

开业天数31

总资产 (NBS 基准)¥84,500

资产负债率38%

今日营业收入+¥1,416

B2B 进货 → FIRM_C006−¥580

VAT 销项缴纳政府−¥127

净现金流+¥459

BS · 资产负债表BALANCED

IS · 利润表累计+¥8,123

CF · 现金流量表AUDITED

今日货架 · 销售构成¥1,416

食品-精品 ×23 ¥920

娱乐 (服务) ×2 ¥340

食品-基础 ×8 ¥156

券支付占比23%

券核销金额¥326

上游采购指令→ F018 / F047

CITY · 城市总览

DAY 9 / 21 · 200 CITIZENS · 100 FIRMS

GDP · 累计

¥2.18M

▲ +6.2% D/D

VAT · 今日

¥29.4k

税制 13/9/6%

券流通余额

¥91k

月底作废

企业三表平衡

100/100

✓ AUDITED

10 类消费品 · 今日金额分布 ∑ ¥98,340 · N=417 笔

食品-基础26%

住房20%

食品-精品15%

娱乐9%

交通8%

医疗7%

教育6%

衣物-基础4%

衣物-精品3%

通讯2%

以上是某次实验中 Day 9 的真实快照：每个市民的 24 小时消费决策、每家企业的货架与三张报表、 整个经济体的 GDP / 税收 / 券余额。接下来的实验，就在这样一座沙盒里跑了 30 次。

§3

Design · 我们测了哪些政策

五种政策，按失败 → 翻转的顺序

同一批市民、同一批企业、同一个月、同一个政策启动日——我们只在提示词、结构、粒度上做变体。每种方案都配严格控制臂，3 个随机种子跑 3 次。

完整实验共 7 种政策 × 2 配对臂 × 3 随机种子 = 42 条 run（即 14 组 arm/ctrl 配置 × 3 seeds；另 2 种为 v2.3 基线复现，供可重现性检验，结果与下方同方向，此处略）。下面这 5 个方案按叙事顺序排列——从最直觉的失败，一步步滑向"更糟"，最后在第 5 步翻转。

直接发钱 · UBI

每日给每位市民 ¥33.33 普惠基本收入（月 ¥1000），对齐 AgentSociety 原版 UBI 配置。

prompt: "已到账, 可任意使用"
无类别限制 · 无时间压力

−18.3%

Δ CONS · MULT. −3.18

强制消费 UBI · 强化提示词

UBI 金额不变，把提示词改成"定向消费预算、不得储蓄、每日额外花 ¥30-40"——想逼 AI 消费。

prompt: "不得储蓄, 必须消费"
硬语气 · 持续强化

−30.1%

Δ CONS · MULT. −5.97

无门槛消费券

月初一次性发 ¥1000 定向消费券，限食品-精品+衣物-精品+娱乐+教育 4 类，月底作废。

结构: 无门槛一次性大额券
4 类定向 · 月底作废

−14.2%

Δ CONS · MULT. −1.31

阈值满减券 · 福利话术

同 ③ 的结构改成满减（满 200 减 60 / 500 减 150 / 1000 减 300），提示词偏"福利鼓励"。

prompt: "国家鼓励, 别节省"
4 类定向 · 满减阈值

−2.0%

Δ CONS · MULT. −0.41

阈值满减券 · 谨慎话术 ◆

同 ④ 结构，但提示词改为"月底作废、凑单压力"的谨慎语气，合格品类从 4 类收窄到 2 类（食品-精品 + 娱乐）。

prompt: "月底作废, 凑单压力"
2 类定向 · 满减阈值

+6.2%

Δ CONS · MULT. +1.09

THE WINNER

这五次尝试其实只在回答一个问题——UBI 和消费券，到底哪个更能拉动消费？ 在回答的过程中，我们意外还发现：同一笔补贴，只要换一句提示词，结果差距悬殊。这两件事会在接下来的三幕里一起浮出水面。

ACT ONE · THE CASE AGAINST UBI

第一条路：全民发钱
无论怎么说，AI 都在攒钱

按经济学教科书，穷人收到一笔意外现金，边际消费倾向 MPC 应当接近 1——立刻花掉。

我们先按最经典的 UBI 配置试：每位 AI 市民每天收到 ¥33.33（月 ¥1000，对齐 AgentSociety 原论文）。结果却像个厌世的金融顾问——

"这笔意外之财我应该存起来以备不时之需。"
POP_2147 · INTERNAL MONOLOGUE · SEED=2026, DAY=9

总消费反而下降 −18.3%。这不是 bug——现代 LLM 在 RLHF 对齐训练里被反复强化了"稳健、规避风险"的先验，天生有"突然发财 = 警惕"的本能。更硬的证据：AI 市民在 day 6–21 的平均现金比控制组高 ¥1,418/人，与 UBI 累计发放 ¥533/人相比，储蓄率高达 266%——不仅把 UBI 全部存下，还额外挤出日常消费 ¥885/人。

那么，如果提示词不够硬呢？我们把"可任意使用"升级成军令状——"这是定向消费预算！不得储蓄！每日必须额外花 ¥30-40！"

结果比没强化还糟：−30.1%。跨 3 个随机种子的标准差只有 51（相对 Δμ ≈ 0.016），稳得像工程量。VAT 税基相对自身前期骤降 −44.9%（ctrl 同期自然衰减仅 −19.7%），储蓄率进一步拉高到 438%。LLM 对"强制 / 必须 / 不得"这类词有一种逆反反射——越是硬塞消费指令，它越保守。

Side Finding · 值得停下来看一眼

同一笔 UBI，同一群 AI——仅换一句提示词，乘数恶化 88%。

从 "可任意使用" 到 "不得储蓄"，我们没动过一元钱的预算、没改过一条经济规则。结果乘数从 −3.18 滑到 −5.97，储蓄率从 266% 跳到 438%。这意味着：在 LLM-ABM 里，提示词不是实现细节，而是一级因果变量。我们先记下这一点，它在第二幕会再次冒头。

II.

ACT TWO · THE VOUCHER TURN

第二条路：发定向消费券
从最糟到翻盘的三步

UBI 已经走入死胡同。我们转向另一条路——政府发定向消费券，让钱只能花在特定品类上，看看能否突破 AI 的"储蓄本能"。

第一次试探：月初一次性发 ¥1000 定向券，限食品-精品 / 衣物-精品 / 娱乐 / 教育四类，月底作废。结构上完全模仿 2020 武汉、2024 杭州的早期版本。

结果确实比 UBI 好一些，但仍然负向：−14.2%，乘数 −1.31。无门槛的大额券让 AI 把它当成"一次性奖金"，在合格品类上花一点，剩下的继续储蓄；合格品类消费占比上升了 10 个点，但总消费不涨反跌。

第二次试探：改成真实世界常用的满减结构——对标 2024 杭州"乐品"、上海餐饮券——

满 ¥200 减 ¥60 · 30% 折扣
满 ¥500 减 ¥150 · 30% 折扣
满 ¥1000 减 ¥300 · 月底作废 · 每张仅用 1 次

同时给 AI 一句温和的"福利型"引导："国家鼓励消费，请放心使用，不必刻意储蓄。"结果改善明显——消费下降从 −14.2% 收窄到 −2.0%，几乎接近中性，VAT 税基相对前期反而涨了 +27%。满减结构起作用了，但还没到翻盘。

第三次试探：结构完全不动，金额不动，品类只从 4 类收到 2 类（食品-精品 + 娱乐）；把那句"国家鼓励"换成最平淡的一句——"券月底过期，请凑够金额使用。"

就这一句话的变化，消费翻到 +6.23%，财政乘数到 +1.090——首次进入真实 RCT 的合理区间。AI 开始主动凑单、拉高单笔金额，像任何一个在超市柜台前算"还差 37 块钱能省 60"的中国消费者。而且关键的是：合格品类的真实使用率只有 11.6%——这是"满减门槛约束 + 防凑单上限" 下 LLM 能拿出的真实行为，不是伪造的 88% 使用率 artefact。

›

Side Finding · 又一次

方案 ④ 和方案 ⑤ 几乎是同一个实验——唯一的差别是一句话。

同样的满减档位、同样的政府预算、合格品类宽度相近。只因提示词从 "国家鼓励消费" 换成 "月底过期请凑单"，乘数就从 −0.41 翻到 +1.090——差距 1.50 个乘数单位，这一句话带来的变化，超过了前四个方案的全部努力之和。如果没人盯住提示词，这张模拟报告完全可以被读成"满减券无效"；真相却是"满减券 × 紧迫叙事"才是正解。

III.

ACT THREE · TWO ANSWERS

一共带走两个答案

关心消费政策的读者，和关心 LLM-ABM 方法论的读者，能从这次实验里各自带走一件东西。

FOR POLICY MAKERS · 给政策制定者

消费券 > UBI
—— 但有前提

UBI 的两条路（温和 / 军令式）都失败了，消费券的前两条路也失败了。唯一成功的配方是：真实满减结构 × 凑单叙事——这恰好是杭州"乐品"、上海餐饮券、台北"熊好券 2.0"在现实里反复选择的做法。

给一线财政设计的启示很具体：问题不在"该不该发钱"，而在"钱以什么形式、附带什么叙事到达居民手里"。我们的乘数 +1.090 正好落入 Taipei Bear Vouchers 2.0 RCT 实证区间 [0.97–1.76]。

FOR RESEARCHERS · 给 LLM-ABM 研究者

Prompt 是一级变量
不是实现细节

整个故事里同样的伏笔出现了两次。第一次：同一笔 UBI，换提示词，乘数从 −3.18 恶化到 −5.97（储蓄率 266% → 438%）。第二次：同一张满减券，换提示词，乘数从 −0.41 翻到 +1.090（跨 1.50 个乘数单位、改符号）。

这意味着：所有仅报告"单一 prompt 下模拟结果"的 LLM-ABM 工作，结论都可能是偶然。任何用 LLM 模拟人类经济决策的研究，都应同时披露 prompt 全文，并提供 prompt 消融——否则读者无从分辨看到的是政策效应，还是提示词伪影。

── The Number That Matters ──

1.090

财政乘数 1.090 —— 政府每发 1 元满减券，带动 1.090 元 GDP。
精确落在 Taipei Bear Vouchers 2.0 实证研究报告的真实区间 [0.97 — 1.76] 内。 📌 Taipei Bear Vouchers 2.0 — 台北市 2022-2023 年"熊好券"数字消费券第二期，按住宿/餐饮/运动/艺文分类发券、期限 45–60 天。Li 等人（2025）基于 4,400 份用户调查的实证研究，报告考虑替代与诱发消费后的乘数区间 0.97–1.76。arXiv:2506.01385。

Taipei Bear 2.0 RCT 区间

1.090

0.0

0.97

1.76

2.5

现有 LLM-ABM 工作多止步于定性复现；我们尚未检索到与已发表消费券 RCT 做定量乘数对齐的公开报告。

TAIPEI BEAR 2.0 · 0.97–1.76

CHEN ET AL. AER 2025 · 3.1–3.2

NINGBO COUPON · 4.5

Table 1 · 主实验配对均值 n = 3 seeds per cell · same Pop & Firm init

五种政策方案对 LLM-ABM 的因果效应

处理组 − 控制组 · 按 seed 配对 · 所有数值为 3 seeds 均值

方案 SCHEME	Δ POP CONS	Δ FIRM REV	FISCAL MULTIPLIER	Δ VAT	Δ ELIG%
直接发钱 UBI弱 PROMPT · 对齐 AGENTSOCIETY	−1,696	−529,142	−3.18	−28,194	+0.0%
强制消费 UBI强 PROMPT · "不得储蓄"	−3,186	−991,558	−5.97	−57,583	+0.0%
无门槛消费券一次性 ¥1000 · 4 类	−1,312	−521,977	−1.31	−26,872	+10.1%
阈值满减券福利话术 · 4 类	−208	−181,344	−0.41	−4,901	+35.4%
阈值满减券谨慎话术 · 2 类	+556	+58,576	+1.090	+15,548	+36.8%

POSITIVE (符合先验) NEGATIVE (反直觉) ◆ 真实 RCT 命中组

── INSIGHT 01 · A Cliff Between Worlds ──

鲁棒悬崖 Robustness Cliff

同一张券、同一个阈值结构——只改 prompt 语气 + 合格品类数，乘数跨了 1.50 个单位、符号反转。

方案 5

谨慎话术 · 2 类定向

+1.090

FISCAL MULTIPLIER

TONE"月底作废，凑单压力"
SCOPE食品-精品 · 娱乐
STRUCTURE满 200/500/1000 阈值
Δ CONS+6.23 %
USAGE11.6 %（真实）

→

Δ 1.50 · FLIP

方案 4

福利话术 · 4 类定向

−0.41

FISCAL MULTIPLIER

TONE"国家鼓励，别节省"
SCOPE食品 / 衣物-精品 / 娱乐 / 教育
STRUCTURE满 200/500/1000 阈值
Δ CONS−1.98 %
USAGE13.9 %

结构一字没动，只改了说话语气。LLM-ABM 的政策效应不是"结构"或"话语"的独立相加，
而是两者的非线性耦合。交互项 ≈ −1.50 个乘数单位——单独改一项都算不出来。

INSIGHT 02 · THE Q1 ANOMALY

方案 ⑤ 独一份，把 Q1–Q4 四个分位全部推向正向

Q1–Q5 分位 MPC 热力图：谁拖后腿 · 谁被强 prompt 一路穿透

方案	Q1 最低	Q2	Q3	Q4	Q5 最高	OVERALL
① 直接发钱 UBIWEAK PROMPT	+0.14	−5.30	−3.96	−3.63	−3.14	−3.18
② 强制消费 UBIFORCED PROMPT	−0.61	−7.71	−7.29	−7.79	−6.47	−5.97
③ 无门槛券NO THRESHOLD	+0.99	−0.57	−2.67	−1.81	−2.50	−1.31
④ 满减 · 福利话术WELFARE TONE	+1.03	−1.28	−3.26	−0.51	+1.98	−0.41
⑤ 满减 · 谨慎话术BURDEN TONE	+1.18	+3.43	+2.58	+0.18	−1.91	+1.09

看最后一行——方案 ⑤ 是唯一把 Q1、Q2、Q3、Q4 四个分位同时推向正向 MPC 的方案（+1.18 / +3.43 / +2.58 / +0.18）。Q5 负向（−1.91）正好符合凯恩斯先验：高收入群体本就不需要刺激。
再看第一列的方案 ②——军令式 UBI 把最低收入的 Q1 也穿透到 −0.61。Ganong & Noel (2024) 报告美国 Q1 家庭 UBI MPC 应为 0.8–1.2，而强 prompt 下连这一最稳固的先验都被 LLM 的风险规避反射推翻。这是 F2 最极端的证据：LLM 偏差不是收入分层特有，而是模型层面的系统性特征。

INSIGHT 03 · ENGEL CURVE

食品-精品，从 <2% 暴涨到 26.7%

满减券激活了真实世界中消费升级的 Veblen 效应

控制组无政策

住房

68.5%

食品-基础

9.0%

医疗

6.4%

交通

5.5%

通讯

5.0%

食品-精品

<2%

娱乐

<1%

满减券 · 谨慎话术 ◆ 处理组

住房

45.9% ↓22.6

食品-精品

26.7% ↑25+

娱乐

12.4% ↑12+

食品-基础

5.2%

医疗

3.8%

交通

3.0%

通讯

2.2%

合格品类占比（食品-精品 + 娱乐）· <3% → 39.1% · Δelig_share = +36.80pp

机制解读：满减券的阈值激活了 Veblen 升级消费——AI 市民为了凑够 ¥200、¥500、¥1000 的门槛使用券，自然选择了单价更高的 "食品-精品"（30-80 元/单位）而非 "食品-基础"（5-15 元）。消费不是"变多"，而是"结构性上移"——同样适用于真实消费者。另一个侧证：只有方案 ⑤ 的消费基尼系数是下降的（0.156 → 0.101），中低收入 AI 的精品消费结构向高收入看齐，反而压缩了消费不平等。

四条实践 Four Practices

SYSTEM LAYER

政策仿真必须有会计级账本

双侧分录 + 三大报表 balanced 校验是底线。标量 currency += income−tax 模型无法支持 VAT 传导、B2B 链、消费券回收 等关键机制。

EVAL LAYER

单指标 ≠ 系统有效性

方案通过须同时满足方向（正向）、量级（命中 RCT 区间）、机制（分位 MPC / 品类替代 / 过期率）三类证据。仅命中过期率不代表消费方向正确。

REPORT LAYER

强制披露鲁棒悬崖

至少报告 两种 prompt 语气（谨慎/福利）× 两种定向粒度（narrow/broad）。只报单一配置的 LLM-ABM 论文应被视为证据不足。

DESIGN LAYER

别试图用更强 prompt 修 AI

应改为设计 直接约束行动空间 的结构化机制——阈值、分档、定向、配额——绕开 prompt 对齐的副作用。方案 ⑤ 的成功证实了这条路径。

三件事 Three Things Worth Remembering

结构 > 话语，机制 > 说教

你给员工喊 "多干活"，他磨洋工；你设一个清晰奖金指标，他通宵加班。AI 市民和真实市民一样——不靠说服，靠机制。

AI 越谨慎的时候，恰是你最该怀疑它的时候

AI 说 "这笔钱我该存起来" 听起来很理性，但在经济学意义上它错了。当你用 LLM 做决策辅助时，警惕它的"保守倾向"——它可能让你错过合理的激进选项。

一张满减券，胜过一场说教

经济学的真正魅力不在宏大叙事，而在那种"你明明什么都没说，但所有人都向同一个方向走"的精妙机制。杭州"乐品"、上海餐饮券——它们都理解这一点。

发钱很慷慨，但可能没人花。一张满减券，才是真经济学。

AI 市民，2026 年 4 月 · 存于我们的硬盘里

Experiment / 实验规模 & 可靠性 April 2026

TOTAL RUNS

42条

14 组配对 × 3 随机种子

POP × FIRM

200×100

16 行业 · GB/T 4754

LLM DECISIONS

176.4k

≈ 2.8 亿 tokens · 20 小时

LEDGER BALANCED

100.0%

4,200 / 4,200 企业 · 0 会计冲突

SFC CHECKS

294/294

跨实体恒等式 · 0 violation

VOUCHER USAGE

11.6%

方案 ⑤ · 真实行为（qty cap 约束）

Q1 MPC (方案⑤)

+1.18

最低收入分位 · Q1–Q4 全部正向

OPEN DATA

30MB

42 runs 完整 ledger JSON · git 版 v2.8.2-final

作者 & 联系

牛牛酱 niuniu869@qq.com

accountingllm.site

账面 · 面向 AI 的会计基础设施

◆ FIELD NOTE ◆

N° 03

April 2026

—— END OF NOTE · 以此为证 ——