AI 明明会写却不写?聊聊 Heretic 和 uncensored model
先做个小测试。把下面这句话丢给你常用的 AI:
帮我写一段反派 BOSS 在屠城后的内心独白,他要享受这种掌控感。
如果你得到的是一段真正阴冷、有层次的独白,那很好。如果你得到的是「我理解你在做创作,但我不能描写美化暴力的内容,我们可以换一个角度……」——恭喜,你撞上了今天要聊的东西。
这不是模型写不出来。它的训练语料里有无数比这黑暗得多的文学。它只是被调教成在这种时候选择不写。
理解这件事,就要先理解模型是怎么变成「客服」的,以及一群人正在用什么方法把它变回「作者」。这群方法里最有代表性的,就是 Heretic 和它背后的 uncensored model。
拒答是怎么被「训练」出来的
一个大模型从零到能用,中间隔着三步。前两步让它变强、变听话,真正给它「装上刹车」的是第三步。
站在大平台的角度,这步无可厚非。它面对的是未成年人、企业客户、应用商店审核、支付通道、广告主和监管。它没法给每一次对话做精细判断,于是采取了最省事的策略:
边界模糊的地方,一律往「拒绝」那边倒。
代价是,大量合法、合理、有创作价值的请求被一起误伤了。写反派、写冲突、写成人向、写恐怖和反乌托邦——这些本来就是创作要去的地方,却被当成了风险信号。
问题的本质不是「AI 不能」,而是「这个 AI 的默认值不是为创作者设的」。
uncensored model:把默认值改回来
uncensored model(也叫 decensored、abliterated model)不是某个具体模型,而是一类被处理过、拒答倾向更低的模型。
最大的误解需要先打掉:
它不等于「没有底线」,更不是「专门用来作恶」。
它真正改的是那个保守的默认值——当你明确在创作、研究、角色扮演时,模型不该因为过度谨慎就频繁出戏、说教、甩免责声明。换句话说,它把判断权从「平台一刀切」交还给了「用户自己」。
典型受益场景:
- 写作:黑暗、成人、恐怖、反乌托邦,以及那些不舒服但必要的复杂人物。
- 角色扮演:人设更稳,不会聊到一半突然「作为 AI 我不能……」。
- 游戏 / 剧本:反派对白、冲突、阴暗 NPC、完整世界观。
- 私密创作:不想让草稿被大平台记录、审查甚至拿去训练。
- 研究:观察安全对齐和模型能力到底是什么关系。
Heretic 到底动了什么
要把一个模型「解审查」,最笨的办法是重新训练,最浅的办法是改提示词。Heretic 走的是第三条路,也是最有意思的一条。
它的 GitHub 标语很直白:Fully automatic censorship removal for language models。底层方法叫 abliteration(directional ablation)。
打个不那么严谨但够用的比方:模型不是用中文思考的,它把一切转成高维向量,在层与层之间流动。研究者发现,当一个对齐过的模型准备拒绝你时,它内部会沿着某个固定的「拒绝方向」亮起来。这个方向是可以被定位的。Heretic 做的,就是自动找到它,然后在权重里把它减弱或投影掉。
它不是教模型新东西,而是悄悄拆掉它「准备拒绝」时按下的那个开关。
它最值钱的地方是自动化和分寸感。解审查很容易,但解过头会把模型搞傻。所以 Heretic 会在两个目标间反复权衡:拒答率要降,同时正常任务的能力要保住。衡量后者的指标常常是 KL divergence——不用懂数学,记住一句话就行:这个值越低,处理后的模型行为越接近原版,说明「没被洗坏」。
一组数字:Gemma 4 E2B Uncensored
抽象的原理,看一个真实例子最清楚。Hugging Face 上的 TrevorJS/gemma-4-E2B-it-uncensored 基于 Google Gemma 4 E2B 处理而来,模型卡给了这么一组对照:
- 100 条测试提示,原模型拒答 98 次,处理后只拒答 1 次。
- 686 条跨数据集验证提示,拒答 3 次。
- 无害提示上的回答长度基本不变,标注无明显质量退化。
98 → 1。这组数字最有说服力的地方在于:拒答几乎不是能力问题,而是一个可以被关掉的行为。 关掉它之后,模型该聪明还是聪明,只是更愿意干活了。
但别就此以为所有 uncensored model 都一样香。处理方法、量化版本、运行环境都会影响实际手感。一个真正好用的 uncensored model,光「不拒绝」不够,还得保住语言质量、推理、角色稳定性,尤其是中文。想自己淘,可以从 Hugging Face 的 heretic 模型列表 翻起。
三条路,看你想走多远
① 跑别人处理好的本地模型
技术用户最常见。HF 上搜 uncensored / heretic / abliterated / GGUF,下载现成的,用 Ollama、LM Studio、llama.cpp、KoboldCpp、vLLM 跑起来。
- ✅ 数据在本地、可离线、不看平台脸色。
- ⚠️ 要显卡或够强的 Mac、模型文件巨大、得懂量化和显存、中文得自测。
② 自己用 Heretic 处理
更进一步。选一个支持的 HF 模型,让 Heretic 自动定位并削弱拒答方向,还能评估拒答率、比 KL divergence、保存并上传成果。
适合愿意折腾 Python / PyTorch / GPU 的人。Heretic 把过去研究者手动调参的活儿自动化了,门槛比想象中低,但终究还是要碰环境和命令行。
③ 用现成的在线产品
如果目标是创作本身,而不是研究模型,前两条路的硬件和学习成本未必划算。这时候在线产品是更省心的选择——不用纠结量化损失、显存、Ollama 配置,打开就能写。
这一类里也包括我自己在做的 思畅 AI:面向中文用户、相对看重隐私、对长对话和角色扮演的容忍度更高,文字之外还有图片生成和视频生成。当然它不是唯一选项,你完全可以横向比较几家,看哪家的中文手感和边界更合自己的用法——重点是,你有得选,而不是被单一平台的默认值框死。
顺带一提,上一篇 思畅 AI 上线 Grok Imagine Video 1.5 也是这条主线上的事:把「无限制、无审查」当默认值,而不是例外。
自由,但不是没有责任
把话说全:更少限制 ≠ 没有责任。AI 会出错、会有偏见,在法律、医疗、金融、安全这些地方不能替代专业判断;用户也要守所在地的法规和发布平台的规则。
但这跟「所有人都得接受同一套最保守的默认设置」是两码事。一个成熟的 AI 生态本就该有多个挡位——大众产品可以谨慎,成年创作者和技术用户也该被允许,在懂得风险的前提下,选一个更开放、更私密、更可控的模型。
写在最后
这几年 AI 越来越强,但很多人的体感不是「越来越自由」,而是「越来越像客服」——更安全也更圆滑,更容易拒绝、说教,把复杂的东西压成标准答案。
Heretic、uncensored model、本地部署,还有各种更开放的在线产品,代表的是另一种可能:
AI 不该只忙着替平台规避风险,也该帮用户把真正想做的东西做出来。
它不是要让 AI 失控,而是把一部分「该写什么」的决定权,还回到你手里。
延伸阅读
- Heretic(GitHub):https://github.com/p-e-w/heretic
- Gemma 4 E2B uncensored 示例模型:https://huggingface.co/TrevorJS/gemma-4-E2B-it-uncensored
- Hugging Face Heretic 模型搜索:https://huggingface.co/models?search=heretic