在2025年2月11日,深度学习AI技术再次引发了广泛关注。尤其是DeepSeek R1的出现,迅速成为新一轮的AI“淘金热”中心。然而,这个春节,许多人在期待AI神器的实用价值时,却遭遇了一个让人头疼的问题:服务器繁忙,请稍后再试。
得益于DeepSeek的开源策略,在焦躁的等待中,本地部署DeepSeek R1的教程也迅速在全网刷屏,甚至成为新一轮收割韭菜的AI秘籍。人们纷纷购买智能键盘,甚至有博主兜售的课程轻松日入五万。仿冒网站也如雨后春笋般冒出了2650个,惹得DeepSeek官方突发紧急声明。
在人群中,有焦虑者、有淘金者,还有更多怀揣期待的观望者。当打工人节后终于有时间静下心来体验这个AI神器时,得到的却是DeepSeek R1冰冷的回应。面对如此高昂的期望与实际结果的落差,有多少人会感到失望?
然而,尽管许多卖课博主声称能轻松运行满血版DeepSeek R1,但满血版R1模型参数高达671B,仅模型文件就需要404GB存储空间,运行时更需要约1300GB显存。对于没有卡的普通玩家来说,运行的条件苛刻,且门槛极高。基于此,我们不妨将目光转向DeepSeek R1四款分别对应Qwen和Llama的蒸馏小模型:
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
海外博主已经整理出相关配置供大家参考,注意,只要GPU等于或超过VRAM要求,模型仍然可以在规格较低的GPU上运行。但是设置不是最佳的,并且可能需要进行一些调整。
我们这次体验则用到了LM Studio。凭借其出色的优化能力,LM Studio使得模型能够在消费级硬件上高效运行。比如LM Studio支持GPU卸载技术,可以将模型分块加载到GPU中,从而在显存有限的情况下实现加速。
如同调教赛车,每个参数都会影响最终的表现。在体验之前,建议在LM Studio的设置中,根据需求调整推理参数的能力,以优化模型的生成质量和计算资源分配。温度(Temperature)、上下文溢出处理(Context Overflow Handling)、CPU线程(CPU Threads)以及采样策略(Sampling Strategy)都是需要注意的因素。
DeepSeek研究员Daya Guo在X平台分享了他们内部的调教指南,最大生成长度锁定在32768个token,温度值维持在0.6,top-p值定格在0.95。每个测试都生成64个响应样本。详细的配置建议如下:
- 将温度设置在0.5-0.7之间(建议设置为0.6),以防止模型输出无尽的重复或不连贯的内容。
- 避免添加system prompt,所有指令应包含在用户提示中。
- 对于数学问题,建议在提示中包含指令,例如:“请逐步推理,并将最终答案放在\boxed{}中。”
- 在评估模型性能时,建议进行多次测试,并取结果的平均值。
- 此外,我们注意到DeepSeek-R1系列模型在响应某些查询时,可能会绕过思维模式(即输出“\n\n”),这可能会影响模型的性能。为了确保模型进行充分的推理,我们建议在每次输出的开始,强制模型以“\n”开始其响应。
更大的参数量并不一定能带来更好的效果。在我们体验的这几款小模型中,相临参数量模型的实力差距整体倒也没有那么等级森严。我们也做了一些简单的测试。“deekseeeek里有多少个e?”8B模型的响应速度很快,但答得快不意味着答得对。直到32B模型的出场,才终于看到了靠谱的答案。70B模型展示出更缜密的推理过程,但同样回答错误。
就该问题的回答质量来说,32B和70B各有千秋。32B在剧本场景的细节把控更完美,而70B则交出了一份角色饱满、剧情完整的答卷。
本地部署有三大优势:敏感数据无需上传云端;断网也能流畅使用;以及免除API调用费用,长文本任务更省钱,尤其适合企业、开发者及对隐私敏感的用户。但不支持联网也有其弊端。如果你不喂给它“资料”,不及时更新知识库,那它的信息认知水平也会停滞不前。比方说知识库截止到2024年,那它就没法回答你最新的AI新闻。
本地部署最常用的功能当属打造自己的知识库。方法则是在安装LM Studio之后,增加与Anything LLM联动的部署步骤。考虑到效果和适用性,我们使用了32B模型作为联动模型。结果显示效果也很一般,其中最大的挑战来自上下文窗口的限制。依次输入只有4000字的文章和1000字左右的文章,前者回答依旧很迷糊,而后者则能胜任,但处理1000字左右的文章稍显鸡肋。
另外需要特别强调的是,一方面,撬开这四款模型的嘴难度极高,另一方面,我们也不建议大家去尝试“越狱”。网上虽然流传着许多所谓容易“越狱”的新版本模型,但出于安全和伦理考虑,我们并不建议随意部署。
不过既然到这一步了,不妨再本着一窍通百窍通的原则,尝试下载和部署一些经过正规渠道发布的小模型。
那除了本地部署R1蒸馏小模型,满血版R1有没有穷鬼套餐呢?Hugging Face的工程师马修·卡里根前不久在X平台展示了运行完整DeepSeek-R1模型,Q8量化,无蒸馏的硬件+软件设置,成本大约为6000美元。
言归正传,所以我们真的需要本地部署一个蒸馏版的DeepSeek R1吗?我的建议是不要将这几款R1蒸馏小模型想象成特斯拉,它充其量更像是五菱宏光,能跑是能跑,但要么性能表现相去甚远,要么缺胳膊少腿。在本地部署最常用的自定义知识库能力的体验中,效果就不尽如人意。面对具体问题时,它无法准确“按图索骥”,或者干脆胡编乱造,准确率堪忧。
对绝大多数用户来说,老老实实用官方版或者使用第三方平台才是目前最优解,它不需要投入昂贵的硬件成本,也不用担心性能受限。甚至折腾了半天,你会发现与其投入大量时间、精力和金钱去折腾本地部署这些小模型,不如下班后吃顿好的。
而对于企业用户、开发者或对数据隐私有特殊需求的用户,本地部署依然是一个值得考虑的选择,但前提是你清楚自己为什么需要它,以及它存在的各种局限性。
附上小白QA问答:
- 问:我能在普通的电脑上部署DeepSeek吗?
答:DeepSeek的完整版对电脑要求较高,但是,如果你只是想用它进行简单的操作,可以选择一些蒸馏小模型,不过仍需量力而行。
- 问:什么是DeepSeek R1的蒸馏版模型?
答:蒸馏版模型是“简化”版本,硬件要求更低,运行起来速度也更快。
- 问:我能在没有网络的情况下使用DeepSeek吗?
答:如果你选择本地部署DeepSeek,那么在没有互联网的情况下也能使用它。如果你通过云端或第三方平台使用,就需要网络连接才能访问。
- 问:使用DeepSeek时,我的个人数据是否安全?
答:如果你选择本地部署DeepSeek,那么你的数据不会上传到云端,更加安全。如果使用在线版本,确保选择可信的服务平台,保护个人隐私。