2025年初,中国迎来属于自己的“ChatGPT时刻”。
DeepSeek-R1模型的卓越能力引发了广泛关注,从科技圣地硅谷到国内各个角落,不分年龄、职业,从科技创业者到各行各业的从业者,无论是新手小白还是技术大咖,无不沉浸在对DeepSeek的探索与体验之中。面对“服务器繁忙”的挑战,用户们更是解锁了DeepSeek的多样“玩法”:
通过Web/APP端,普通用户只需简单登录即可免费享受服务,随时随地体验AI的魅力;资深玩家则可申请性价比超高的API,以OpenAI o1价格3%的优惠(每百万输出tokens仅需16元)自由定制需求;而对于追求私密与控制的极客玩家,本地部署方案将DeepSeek安装在个人电脑或服务器,享受完全掌控的丝滑体验,无惧官方宕机。
本地部署需要配置哪些硬件?
相较于那些只能等待DeepSeek“服务器繁忙”得到缓解的用户,已经完成DeepSeek本地部署的人们早已抢先一步,开始享受着大模型带来的种种优势与便利。对于普通用户而言,想要实现这一部署,则需具备一定配置的硬件支持,这具体涵盖了高性能处理器以确保计算效率、充足的内存资源以保障多任务处理流畅,以及足够的存储空间来容纳庞大的模型数据及运行期间的临时数据。
GPU在DeepSeek训推中扮演着至关重要的角色,能够显著加快训推速度,提升大模型的收敛速度和准确性。值得一提的是,不同参数版本的DeepSeek其实对于GPU的要求不尽相同,参数规模越大,需要的GPU性能越强。对于配备RTX 3060独立显卡的系统,建议选择7b或8b模型,14b模型虽然也能运行,RTX 5090D显卡,则更适合选择14b、32b模型,甚至可以尝试70b模型。中关村在线使用的是索泰GEFORCE RTX 5090 D 32GB。来尝鲜试试它的性能。
同时,在AI模型训练中,CPU虽然不像GPU那样承担主要的计算工作,但在处理较小的数据集和简单的计算任务,如数据预处理、模型评估等方面发挥着关键作用。在部署大模型的时候应选择高性能的CPU,比如Intel Core i7或更高性能的处理器,或者AMD Ryzen 7及以上的处理器。这些处理器具备多核心和多线程的特性,能够同时处理多个计算任务,从而显著提高训练速度。中关村在线使用的是英特尔Core i9-14900K。
同样重要的是存储,在DeepSeek训练与推理过程中,存储的读写速度对于提高训推的效果也非常重要。为了加快数据读写速度,推荐选择SSD作为存储介质。在这里中关村在线选择的是致态TiPro9000固态硬盘。作为PCIe 5.0 SSD,致态TiPro9000固态硬盘相较于PCIe 4.0 SSD最突出的改进之处在于其顺序读写速度实现翻倍。
中关村在线也对致态TiPro9000进行Crystal Disk Mark实测,显示连续读取速度高达14641.21MB/s,比14000MB/s标称值高出600多MB/s;连续写入速度高达13656.46MB/s,比12500MB/s标称值更是高出1100多MB/s。
此外,作为存储临时文件的部件,内存大小直接影响到计算机能够同时处理的任务数量和数据量。在DeepSeek训推过程中,内存的大小对于提高训练速度和效率至关重要。在这里建议选择32GB或者更高容量的内存。中关村在线使用48GB内存。以下为中关村在线搭建的硬件平台规格参数。
简单两步搞定DeepSeek本地部署
DeepSeek本地部署的方式有很多,此前笔者也尝试“Ollama+Chatbox”的部署方式,Ollama用于运行DeepSeek,而Chatbox是与DeepSeek对话的前端,部署起来也较为简单。感兴趣的网友可以关注《Deekseek服务器繁忙?快来试试本地部署!安装指南双手奉上!》。为了更为直观地查看DeepSeek大模型的相关能力,本次中关村在线尝试使用LM Studio部署,使用起来也十分简单。
首先,下载并安装LM Studio软件。用户需要访问LM Studio的官方网站,网址为。接下来,根据所使用的操作系统,选择相应的下载选项。中关村在线使用的是Windows系统,于是点击“Download LM Studio for Windows”进行下载。下载完成后,双击安装程序并按照软件默认的设置进行安装即可。整个安装步骤也十分流畅,并不需要多余的操作。安装完毕后,可以通过右下角“齿轮”选择设置语言。
其次,将DeepSeek模型下载到本地。大家可从多个网站或社区下载DeepSeek-R1大模型,选择时需考虑自身需求。更为便捷的是,LM Studio软件内置了DeepSeek模型下载功能。只需点击主界面左侧的放大镜图标进入大模型搜索页,输入“DeepSeek”即可检索到多个不同参数规模的大模型。模型参数越大,内容越丰富且准确,但对硬件要求也越高。随后,直接选取并下载所需的DeepSeek模型,下载完成后,即可在本地环境中运行DeepSeek。
在此次测试环节中,中关村在线成功下载并部署了多种参数规模的DeepSeek-R1模型,具体包括7B、8B、14B及32B等版本。笔者也尝试与32B版本对话,输入“春天到了,请帮我生成一篇赋,主要描写春日美景”,在很短的时间内,DeepSeek便给出相应的回答,其生成性能达36.73tokens/s。
硬件配置给力!畅享本地DeepSeek!
在首轮测试中,中关村在线使用“帮我生成代码,日常花销记账所用”问题对7B、8B、14B及32B等版本进行测试,测试结果显示,7B版本DeepSeek大模型的生成速度达到112.97 tokens/s;8B版本生成速度为111.42 tokens/s;14B版本则为66.14 tokens/s;32B版本达到37.47 tokens/s。值得一提的是,参数规模越小,其生成的速度越快。在对比一些本地部署案例,以及云端部署DeepSeek之后,笔者发现,本次部署的DeepSeek还是相当给力的。
特别值得一提的是,本次测试使用的致态TiPro9000固态硬盘采用了长江存储的新一代晶栈Xtacking 4.0闪存架构,相比上一代,大幅增加了垂直通道的数量,实现了更高的存储密度,释放闪存闪存潜能,并在生产成本、良品率和品质等方面达到更完美的均衡。为了验证致态TiPro9000固态硬盘的性能,中关村在线还专门测试另外一款普通固态硬盘,用对比的方式,进一步验证存储的读写性能对大型模型训练与推理的影响。
在使用同样的测试场景下,普通硬盘搭配索泰GEFORCE RTX 5090 D测试结果显示,7B版本DeepSeek大模型的生成速度达到110.82 tokens/s;8B版本生成速度为108.26 tokens/s;14B版本则为61.88 tokens/s;32B版本达到31.93 tokens/s。其速度低于基于致态TiPro9000固态硬盘搭建的测试环境,并且随着参数规模的增加,生成速度差距持续拉大。值得注意的是,本次测试主要为推理测试,而在训练阶段,大模型需要海量的数据进行喂养,不仅对容量提出考验,还对读写能力提出新要求。
写在最后
在数字化时代,数据已成为核心生产要素,而存储则是其不可或缺的基石。面对海量数据的存储挑战,如何有效承载这些数据成为亟待解决的问题。随着AI时代的临近,各式各样的AI应用将频繁访问数据,这对硬盘的读写性能提出了更高要求。因此,具备大容量、高速读写能力以及高度安全可靠的存储设备将成为市场的首选。
开源大模型DeepSeek的迅速走红,预示着它有望成为一款横跨各行各业、吸引广泛用户群体的现象级应用。这意味着,不仅企业会基于DeepSeek进行定制化开发,个人用户群体也将深入挖掘其潜在价值。鉴于此,中关村在线认为,为了确保DeepSeek能够服务于如此庞大的用户基础,不仅需要DeepSeek本身进行服务器扩容,以及各大云服务和算力提供商推出DeepSeek相关服务,个人用户本地部署也将成为主流选择,唯一的挑战在于数据的定期更新。
本地部署也将对电脑的配置提出考验。特别是在显卡的选择上,中关村在线建议NVIDIA的GeForce RTX 30系列或更高版本的显卡,以及AMD的Radeon RX 6000系列或更高版本的显卡都是不错的选择。对于存储方案的选择,中关村在线推荐采用PCIe 5.0标准的产品,尤其是本次部署中表现出色的致态TiPro9000固态硬盘。它以其卓越的速度性能、低发热量以及整体亮眼的综合表现,成为个人电脑升级的理想之选。
0 条