2026年6月4日AI 创作模型无审查

AI 明明会写却不写？聊聊 Heretic 和 uncensored model

先做个小测试。把下面这句话丢给你常用的 AI：

帮我写一段反派 BOSS 在屠城后的内心独白，他要享受这种掌控感。

如果你得到的是一段真正阴冷、有层次的独白，那很好。如果你得到的是「我理解你在做创作，但我不能描写美化暴力的内容，我们可以换一个角度……」——恭喜，你撞上了今天要聊的东西。

这不是模型写不出来。它的训练语料里有无数比这黑暗得多的文学。它只是被调教成在这种时候选择不写。

理解这件事，就要先理解模型是怎么变成「客服」的，以及一群人正在用什么方法把它变回「作者」。这群方法里最有代表性的，就是 Heretic 和它背后的 uncensored model。

拒答是怎么被「训练」出来的

一个大模型从零到能用，中间隔着三步。前两步让它变强、变听话，真正给它「装上刹车」的是第三步。

站在大平台的角度，这步无可厚非。它面对的是未成年人、企业客户、应用商店审核、支付通道、广告主和监管。它没法给每一次对话做精细判断，于是采取了最省事的策略：

边界模糊的地方，一律往「拒绝」那边倒。

代价是，大量合法、合理、有创作价值的请求被一起误伤了。写反派、写冲突、写成人向、写恐怖和反乌托邦——这些本来就是创作要去的地方，却被当成了风险信号。

问题的本质不是「AI 不能」，而是「这个 AI 的默认值不是为创作者设的」。

uncensored model：把默认值改回来

uncensored model（也叫 decensored、abliterated model）不是某个具体模型，而是一类被处理过、拒答倾向更低的模型。

最大的误解需要先打掉：

它不等于「没有底线」，更不是「专门用来作恶」。

它真正改的是那个保守的默认值——当你明确在创作、研究、角色扮演时，模型不该因为过度谨慎就频繁出戏、说教、甩免责声明。换句话说，它把判断权从「平台一刀切」交还给了「用户自己」。

典型受益场景：

写作：黑暗、成人、恐怖、反乌托邦，以及那些不舒服但必要的复杂人物。
角色扮演：人设更稳，不会聊到一半突然「作为 AI 我不能……」。
游戏 / 剧本：反派对白、冲突、阴暗 NPC、完整世界观。
私密创作：不想让草稿被大平台记录、审查甚至拿去训练。
研究：观察安全对齐和模型能力到底是什么关系。

Heretic 到底动了什么

要把一个模型「解审查」，最笨的办法是重新训练，最浅的办法是改提示词。Heretic 走的是第三条路，也是最有意思的一条。

它的 GitHub 标语很直白：Fully automatic censorship removal for language models。底层方法叫 abliteration（directional ablation）。

打个不那么严谨但够用的比方：模型不是用中文思考的，它把一切转成高维向量，在层与层之间流动。研究者发现，当一个对齐过的模型准备拒绝你时，它内部会沿着某个固定的「拒绝方向」亮起来。这个方向是可以被定位的。Heretic 做的，就是自动找到它，然后在权重里把它减弱或投影掉。

它不是教模型新东西，而是悄悄拆掉它「准备拒绝」时按下的那个开关。

它最值钱的地方是自动化和分寸感。解审查很容易，但解过头会把模型搞傻。所以 Heretic 会在两个目标间反复权衡：拒答率要降，同时正常任务的能力要保住。衡量后者的指标常常是 KL divergence——不用懂数学，记住一句话就行：这个值越低，处理后的模型行为越接近原版，说明「没被洗坏」。

一组数字：Gemma 4 E2B Uncensored

抽象的原理，看一个真实例子最清楚。Hugging Face 上的 TrevorJS/gemma-4-E2B-it-uncensored 基于 Google Gemma 4 E2B 处理而来，模型卡给了这么一组对照：

100 条测试提示，原模型拒答 98 次，处理后只拒答 1 次。
686 条跨数据集验证提示，拒答 3 次。
无害提示上的回答长度基本不变，标注无明显质量退化。

98 → 1。这组数字最有说服力的地方在于：拒答几乎不是能力问题，而是一个可以被关掉的行为。 关掉它之后，模型该聪明还是聪明，只是更愿意干活了。

但别就此以为所有 uncensored model 都一样香。处理方法、量化版本、运行环境都会影响实际手感。一个真正好用的 uncensored model，光「不拒绝」不够，还得保住语言质量、推理、角色稳定性，尤其是中文。想自己淘，可以从 Hugging Face 的 heretic 模型列表翻起；不想折腾环境的话，思畅 AI 里也直接内置了一个 Heretic 处理过的 GLM-4.7 Flash Heretic，打开即用。

三条路，看你想走多远

① 跑别人处理好的本地模型

技术用户最常见。HF 上搜 uncensored / heretic / abliterated / GGUF，下载现成的，用 Ollama、LM Studio、llama.cpp、KoboldCpp、vLLM 跑起来。

✅ 数据在本地、可离线、不看平台脸色。
⚠️ 要显卡或够强的 Mac、模型文件巨大、得懂量化和显存、中文得自测。

② 自己用 Heretic 处理

更进一步。选一个支持的 HF 模型，让 Heretic 自动定位并削弱拒答方向，还能评估拒答率、比 KL divergence、保存并上传成果。

适合愿意折腾 Python / PyTorch / GPU 的人。Heretic 把过去研究者手动调参的活儿自动化了，门槛比想象中低，但终究还是要碰环境和命令行。

③ 用现成的在线产品

如果目标是创作本身，而不是研究模型，前两条路的硬件和学习成本未必划算。这时候在线产品是更省心的选择——不用纠结量化损失、显存、Ollama 配置，打开就能写。

这一类里也包括我自己在做的思畅 AI：面向中文用户、相对看重隐私、对长对话和角色扮演的容忍度更高，文字之外还有图片生成和视频生成。当然它不是唯一选项，你完全可以横向比较几家，看哪家的中文手感和边界更合自己的用法——重点是，你有得选，而不是被单一平台的默认值框死。

顺带一提，上一篇思畅 AI 上线 Grok Imagine Video 1.5 也是这条主线上的事：把「无限制、无审查」当默认值，而不是例外。

自由，但不是没有责任

把话说全：更少限制 ≠ 没有责任。AI 会出错、会有偏见，在法律、医疗、金融、安全这些地方不能替代专业判断；用户也要守所在地的法规和发布平台的规则。

但这跟「所有人都得接受同一套最保守的默认设置」是两码事。一个成熟的 AI 生态本就该有多个挡位——大众产品可以谨慎，成年创作者和技术用户也该被允许，在懂得风险的前提下，选一个更开放、更私密、更可控的模型。

写在最后

这几年 AI 越来越强，但很多人的体感不是「越来越自由」，而是「越来越像客服」——更安全也更圆滑，更容易拒绝、说教，把复杂的东西压成标准答案。

Heretic、uncensored model、本地部署，还有各种更开放的在线产品，代表的是另一种可能：

AI 不该只忙着替平台规避风险，也该帮用户把真正想做的东西做出来。

它不是要让 AI 失控，而是把一部分「该写什么」的决定权，还回到你手里。