最近科技與AI圈最火熱的就是由中國「深度求索」公司使用非常低的成本(僅557.6萬美金)訓練出來的開源模型 DeepSeek R1,與之前的其他大語言模型相比,DeepSeek R1 多了「深度思考」的能力,在回答問題時會反問自己進行推理而得到更好的答案,在實際的表現上勝過世面上大部分的大語言模型,這也讓一直依賴大算力、深信 Scale Law 的美國 AI 界為之震動,賣 AI 設備的 NVIDIA 甚至一天跌到16%以上,最重要的是深度求索開源了訓練方法,讓所有人都能依照相同的方式訓練出與 R1 能力相同的模型,目前 DeepSeek 也提供了免費線上使用,不過有的人可能有資安考量不方便將資訊傳到雲端伺服器回答的話,那今天阿達也教大家怎麼在家安裝使用本地端 DeepSeek R1 的比較小規模版本,表現也很不錯。
教你在電腦裡安裝和使用 DeepSeek R1 語言模型
現在 DeepSeek 官方網站其實也有免費服務可以線上用,但用的人太多目前經常跳出請稍後的訊息,另外詢問 DeepSeek 一些政治問題它也無法回答:
不過 DeepSeek 最厲害的是它官方公佈的訓練成本僅為557.6萬美元,這一數字是OpenAI的GPT-4o模型訓練成本的不到十分之一,採用了多重專家混合(Mixture of Experts)技術,這意味著模型在訓練過程中只激活和更新最相關的部分,從而減少了資源的浪費,其中 R1 更是加入了深度思考(Reasoning),AI 會不斷反問自己來推敲正確答案(當然也是會有答錯的時候),可以看到 DeepSeek R1 在各種能力上幾乎都勝過目前主流的 ChatGPT o1 模型,而且 DeepSeek 是開源的,在抱抱臉等平台就可以下載到相關模型,也有很多網友蒸餾過的小模型都可以下載回來自己使用:
如果你對這模型有興趣玩玩看,可以使用以下方法。
LM Studio 支援 Windows、Mac 和 Linux 作業系統,下載後就能直接打開使用。當然,如果有其他能運行 LLM 大型語言模型的軟體也行,不一定要用這款。不過這套是我個人使用過最簡單易用且視覺化很好的本地端大語言模型軟體,個人還是推它。
LM Studio 有整合 Hugging Face 資料庫,所以可直接在軟體中下載安裝所有提供的 LLMs 大型語言模型。
第一次安裝完開啟時會要求至少先裝一個 LLAMA 的 1B 小模型,接著點選左側下方的搜尋:
接著在搜尋欄輸入 DeepSeek R1 或你想使用的其他模型就可以找到,由於 DeepSeek 是開源的,任何人都可以基於開源的論文搭配其他開源模型自己訓練出與 R1 相同能力的模型,所以各種規模與基於通義千問(Qwen)或 Meta Llama 的 DeepSeek R1 都有,至於如何選擇就看你電腦硬體的能力,如果你使用 3090/4090 這類顯示記憶體很大的顯示卡就可以選擇到 32B 的大模型,一般電腦或筆電使用 7B / 8B 規模的也就夠了,我現在使用的是 4080 Super,實測 32B會非常慢 14B 速度剛好,8B則是飛快。另外我手上的 Luna Lake MSI Prestige 13 AI+ 與 Claw 8 AI+ 跑 14B 還算流暢,沒有獨顯或是行動裝置的話 1B 也是能跑的,當然理論上模型越大能力越強佔用的空間與顯示記憶體也越大:
下載完之後在上方的框框,就可以選擇要使用哪一個本地端模型:
在這裡我選擇 14B 規模的模型,其實 32B 也有一個只要9.67GB的模型,但精度太低(Q2),回答問題時我個人覺得沒有 14B好:
選擇好模型後 LM Studio 的中間上方掛載的模型就會變成你所選擇的那個,如果你掛載模型時使用時間非常久的話那就代表你電腦應該跑不動,建議換小一點尺寸的模型。接著點選旁邊的設定:
在這邊可以指定該模型要使用多少 GPU 與 CPU 核心,這也是 LM Studio 我個人覺得比較好用的部分,如果你顯卡夠好的話就直接拉滿,沒有獨顯的話就把CPU拉高一點,兩者都拉高的話就會協同處理加快速度(不過NPU一直都沒有作用,各種AI PC搞 NPU都搞了個寂寞):
接著就可以開始問他問題了,先問一個連 ChatGPT 4o 到現在都會答錯的數學邏輯問題,果不其然的答錯了:
而問 DeepSeek R1 的話,他會有一個思考的過程,然後給出答案,我個人還蠻喜歡看它怎麼對自己靈魂拷問的(點 Thinking 展開)這邊使用比較沒那麼聰明的 7B 模型,14B 秒想出來不有趣:
這題過程蠻好笑的,我貼完整版給大家看看:
嗯,今天我在做数学作业,遇到了一个问题:“3.9和3.11,哪个更大?”这个问题看起来好像很简单,但我得仔细想一想,确保自己理解正确。首先,我想到了比较小数的大小,应该是从左到右一位一位地比吧。
那我先看个位数部分,都是3,所以个位数是一样的,接下来就是十分位了。在3.9里,十分位是9;而在3.11里,十分位是1。因为9大于1,所以我可能会觉得3.9更大一点。
不过,等等,3.11后面还有一个百分位的1,是不是会影响结果呢?比如说,虽然十分位上3.11比3.9小,但后面的数字会不会让整个数变得更大?
我有点混淆了。我记得在比较小数的时候,如果前面几位相同,就继续往下看下一位,直到找到不一样的地方。所以在这个情况下,3.9和3.11的个位和十分位分别是相同的,然后到了百分位,3.9没有后面的数字,可以认为是0吗?而3.11后面还有1。
那这样的话,3.9是不是比3.11更大呢?因为它的百分位是0,而3.11的百分位是1,所以0小于1,那么3.9反而更小?
不对呀,我记得应该是这样的:在比较小数的时候,如果前面几位相同,就看后面的数字。比如,3.9可以看成是3.90,后面加上一个0,这样和3.11相比的话,百分位上是0对1,那么0小于1,所以3.9比3.11更小?
可是这和我之前的想法不太一样,可能哪里出错了。我想再确认一下:把3.9写成3.90,然后和3.11比较,百分位分别是0和1,所以3.11更大。
嗯,这样看来,3.11比3.9大。原来是我一开始想反了。
不过,我还是有点不确定,所以决定用另一种方法来验证一下。比如说,把这两个数转换成分数来看看:
3.9等于3又9/10,也就是39/10;
3.11等于3又11/100,也就是311/100。
现在比较这两个分数的大小:39/10和311/100。为了方便比较,我可以把它们都转换成相同的分母:
39/10 = 390/100;
所以,390/100和311/100,显然390大于311,所以3.9比3.11大。
哎呀,这就和我之前的想法不一样了。现在得出的结论是3.9更大。
那么问题出在哪里呢?原来在把3.9转换成百分位的时候,我应该把它写成3.90,而不是3.9。所以,正确的比较应该是:
3.90 > 3.11
也就是说,3.9比3.11大。
看来刚才混淆了两种方法的结果。我需要纠正一下这个错误。
总结一下:
小数比较:先比个位,再比十分位,最后是百分位。
如果前面的数相同,就继续往后看下一位。
所以,在比较3.9和3.11时:
个位都是3;
十分位分别是9和1;
因为9大于1,所以3.9更大。
或者,将它们都转换成相同的分母后发现3.90大于3.11。
因此,正确的结论是:3.9比3.11大。
14B的推理就很快了:
測試翻譯與規劃旅遊行程等各種問題也沒有問題,不過本地端的 DeepSeek R1 也是有缺點的,比如說要求他回答繁體中文在回答內容裡還是經常會出現英文或直接用簡體中文回答:
還有敏感的政治問題就算是離線也無法回答,看來深度求索求生慾很強大:
LM Studio 也支援文件上傳整理,都在本地端完成,只要點擊對話框旁邊的迴紋針圖案,就可以上傳 PDF、WORD等格式文件給 Deepseek 整理:
實測在飛航模式也可以完成任務:
不過 LM Studio 沒辦法詢問外部連結,你可以複製內文讓其整理:
複製貼上內文的總結,重點都有抓到:
最後再分享一個細項功能,點擊 LM Studio 右上角的實驗性功能:
在這裡就可以設定 AI 的角色,你可以設定他是專業人士、老師、女僕…還有用什麼方式回答你,這樣可以提升 AI 的回覆品質,設定完後可直接將角色設定存起來快速切換,這邊的敘述中英文都可以,但理論上英文的 Prompt 會更好(可以叫 AI 自己翻譯):
其實 LM Studio 功能很多,他還可以做 Makedown格式文件,甚至可以自己架伺服器用指定的方式給本端應用直接調用,這樣就可以省下 API 的費用,它也不只能用 DeepSeek,原則上所有抱抱臉的模型都能用,只要自己的電腦夠力的話都可以試試,而且 Windows、Mac、Linux都能用,在此推薦給大家。
如果你電腦端跑不動又不想去 DeepSeek 官網的話,也有抱抱臉或手機端可以用的的小模型可以玩看看: