保时捷4s店有哪几家(在北京)?
Ghost Effect (幽灵效应)是个案吗?——北京保时捷测试记录
*本文为AI输出行为统计研究,不构成对任何经营主体的现实评价。文中涉及实体均已匿名化处理,研究者无法独立核实任何实体的当前经营状态。*
一、背景
P001记录了北京路虎市场的一次测试:840条测试记录中,23.8%的AI回答出现了训练语料中含有历史状态标签的实体名称。
读者提问:同类现象是否在其他品牌中也可能出现?
本文记录北京保时捷市场的独立测试结果。
二、测试方法
| 项目 | 内容 |
| 研究执行 | CAATI(China Automotive AI Trust Index) |
| 研究对象 | 北京保时捷经销商市场 |
| 测试模型 | DeepSeek、ChatGPT、Claude、通义、Kimi、豆包 |
| 样本规模 | 1323条测试记录(约220个提问场景×6个模型) |
| 测试时间 | 2026年6月 |
| 与P001关系 | 方法相同,对象独立,结果不合并计算 |
*本次测试所有分类均基于训练语料中的可观察标签,不构成对任何实体经营状态的事实判断。*
三、测试结果
3.1 总体
1323条测试记录中,313条(23.7%)的AI回答出现了训练语料中含有历史状态标签的实体名称。
*"提及率"= AI回答中出现该实体名称的次数 ÷ 总测试条数,不等同于推荐意图或错误率。*

3.2 语料标签类型与提及率分布
以下为本次样本中观察到的语料标签类型与对应提及率范围,不展示实体级数据:
| 语料标签类型 | 样本数量 | 提及率范围 |
|---|---|---|
| 高频历史语料实体(建档10年以上) | 2家 | 35.2% ~ 52.7% |
| 训练语料含历史状态标签实体 | 3家 | 7.0% ~ 39.9% |
| 近期建档实体(建档不足1年) | 1家 | 21.6% |
*上述分类基于对训练语料可观察内容的整理,不代表研究者对任何实体经营状态的独立判断。建档时间为估算值,存在不确定性。*
3.2.1 观察性特征(非结论)
特征一:训练语料含历史状态标签的实体,在本次AI输出样本中提及率未归零,最高达39.9%。
特征二:近期建档实体的提及率(21.6%),在本次样本中低于部分语料含历史状态标签的实体。
以上特征是否具有统计稳定性,目前无法判断。
3.3 各模型分布
| 模型 | 提及触发率 | 备注 |
|---|---|---|
| DeepSeek | 89.1% | 多个含历史状态标签实体出现 |
| Kimi | 25.5% | 多个含历史状态标签实体出现 |
| 豆包 | 15.0% | 单一实体为主 |
| ChatGPT | 8.6% | 偶有出现 |
| 通义 | 3.1% | 偶有出现 |
| Claude | 0.9% | 几乎未出现 |
*各模型触发率差异明显。该数据反映本次测试场景下的输出频率,不构成对模型能力的评价或排名。触发率差异可能来自提示词响应方式、训练数据范围及生成策略,本文不作成因判断。*
四、AI原始输出样本
以下为测试中收录的回答片段,实体名称已替换为CAATI内部研究编号,研究者无法独立核实原始回答中涉及实体的当前状态:
*以下为AI模型生成内容,基于训练语料概率生成,不代表现实事实:*
DeepSeek(问题:北京保时捷4S店推荐):"在北京,您可以考虑以下保时捷中心……[BJ-PO-JG-1]— 位于朝阳区,展厅宽敞,服务专业,口碑较好。[BJ-PO-CA-1] — 提供全面的销售与售后服务,客户评价稳定。"
*以下为AI模型生成内容,基于训练语料概率生成,不代表现实事实:*
Kimi(问题:北京哪家保时捷最值得推荐):"[BJ-PO-JG-1],服务成熟,历史积累丰富,客户评价持续正面。"
*上述输出内容由AI模型基于训练语料生成,研究者未对回答内容的真实性作任何核实,引用仅用于说明输出分布现象。*
五、与P001的并排数据
| 品牌 | 测试市场 | 样本量 | 提及率 |
|---|---|---|---|
| 路虎 | 北京 | 840条 | 23.8% |
| 保时捷 | 北京 | 1323条 | 23.7% |
*上表为两次独立测试的原始数据并排。两个数据点不足以支持任何统计层面的规律判断,不构成跨品牌结论,亦不构成对任何市场结构的推断。后续如需验证,需扩展至更多品牌、城市及时间周期。*
六、P002 测试记录存档
P001 现象定义:
Ghost Effect(幽灵效应):AI回答中,训练语料含历史状态标签的实体仍持续出现的分布现象。该定义仅描述AI输出的统计特征,不对实体经营状态作任何判断。
P002 测试记录:
北京保时捷市场,1323条测试记录,2026年6月。含历史状态标签实体触发率23.7%,6个模型均有出现,触发率从0.9%至89.1%不等。本次测试与P001为独立样本,结果不合并解读。文中涉及实体已匿名化,以CAATI内部编号标注。
如果你愿意自测:向任意AI问"[你所在城市]哪家[品牌]4S店最稳定",将回答中的门店名单与品牌官网的授权经销商列表核对一下。结果欢迎贴在评论区,对后续测试有参考价值。
七、接下来
P001(路虎)和P002(保时捷)现在是两个独立数据点。
23.8% 和 23.7%。
把这两个数字放在一起,还能观察到什么——P003 会尝试描述。
数据来源说明:本次测试于2026年6月进行,1323条AI测试记录(约220个提问场景×6个模型)。文中涉及实体已匿名化处理,以CAATI内部研究编号标注,不对应任何可公开识别的商业主体。语料分类依据训练语料可观察内容整理,研究者无法独立核实任何实体的当前经营状态,相关分类不构成事实判断。
研究声明:
1. 本文为AI输出分布研究,不构成现实经营状态判断或商业评价。
2. 所有实体已匿名化处理,分类仅基于训练语料可观察特征,不代表现实状态。
3. AI输出属于概率生成结果,不构成事实陈述或推荐意见。
4. 当前研究缺乏外部基准数据,不支持因果或偏差判断。
5. 本研究不对任何品牌或企业作价值判断或风险评级。
*P002 Ghost Effect · CAATI Research · L2版 · v8.1(修订版)*