文、圖/EDGE 昂越資本
AI領域自從中國推出DeepSeek後,帶來強大衝擊,DeepSeek號稱 利用 2048 個輝達 (NVDA-US)H800 GPU 的集群,在大約兩個月的時間內就成功訓練出包含 6710 億個參數的混合專家 (mixture of experts, MoE) 語言模型。規模和效率遠超過業界領先者,成功引發關注,低成本研發更震撼全球。
推理模型的競爭起點
世界上第一個「推理模型」(Reasoning model)是一種先進的AI,由 OpenAI 於2024年9月發表。英文名稱為 o1,o1使用「思考鏈」來回答科學和數學上的難題,將問題分解成不同的步驟,並在幕後測試完成任務的各種方法,然後將結論呈現給使用者。Google 迅速在 12 月推出「Gemini Flash Thinking」。幾天之後,OpenAI 以 o3 作為回應,這是 o1 的更新版。
但是,擁有所有資源的 Google 其實並不是第一家模仿 OpenAI 的公司。在「Gemini Flash Thinking」推出的幾乎同時,阿里巴巴就發布了新版 Qwen 聊天機器人 QwQ。QwQ 同樣具有「推理」能力,該模型免費使用。緊接著,1/20中國AI公司 DeepSeek 發布了最新R1模型,造成本比美國同等級模型更低,效率更高。
1月21日,川普總統上任的第二天,宣布「星門」,這項計畫將對美國AI基礎建設投入5000億美元。維持AI的地位是少數美方兩黨都有共識的政策,認為贏得與中國的地緣政治戰爭所帶來的好處超過孤立中國的經濟成本。
▲DeepSeek-R1的基本性能(圖/EDGE 昂越資本提供)
中美AI差距早已不斷縮小
這個排華政策也廣受矽谷的支持,順從這項政治理想的人也被挑入白宮,例如Scale AI 的董事Michael Kratsios 是兩屆川普政府的AI政策制定者。 Palantir 的前顧問Jacob Helberg 成為經濟成長副部長。
事實是中國AI在各種排名內一直都沒有落後美國太多(甚至在圖像辨識領先全球),美方認為以出口限制等方式鉗制中國取得先進硬體,將維持美國在AI的領先地位。
對於排名拉近的事實,打擊行動的支持者認為,中國公司竊取了美國的智慧財產,幫助他們的大型語言模型(LLM)快速發展。中國科技公司肯定以某種方式規避了對美國半導體的出口管制,或是在黑市上購買GPU,或是租用其他國家的雲服務器容量。
然而1/22 DeepSeek 在康乃爾大學的論文平台Arxiv以僅僅18頁全文公開其R1演算法,使得這些想像都被否定。
▲R1 與傳統LLM差異比較表(圖/EDGE 昂越資本提供)
過去AI模型的假開源爭議
中國公司表示過去遲遲才公開 LLM,是擔心審查員會對可能產生AI產生的「幻覺」導致政治上的危險後果。最終,中國政府制定了促進AI產業發展的法規。阿里巴巴是第一波適用新法的企業。
但 DeepSeek 有著不同的起源。阿里巴巴發布第一個 Qwen 模型時,它甚至還不存在。它是 High-Flyer 的後裔,High-Flyer 是一家成立於 2015 年的對沖基金,旨在利用 AI 在股票交易中取得優勢。High-Flyer 是中國最大的量化基金之一。
High-Flyer 的創辦人梁文鋒表示,公開DeepSeek其動機並非純粹為了商業目的。而是「追求使命」。他強調DeepSeek 與 OpenAI 不同,OpenAI 目前被迫尋求私人資金來支付不斷膨脹的訓練成本。已經並非真正的開源模型。
梁先生所指出的假開源問題,並非他單方面的指控。美國非營利組織 Open Source Initiative 2024年11月發表報告也曾指出,美國企業對於開放原始碼的定義在AI領域毫無意義。
真正的全開源模型定義
Meta 的模型號稱開源,但實質免費分享的是 LLM 中人工神經元之間連接的權重,而不是製作 LLM 的所有原始碼與資料,這肯定不足以讓人從頭開始建立自己版本的 Llama 3。
由於問題的複雜性,「開放原始碼 AI」的確實含義也引起了爭議。在最近的一份報告中,OSI 為 AI 重新制定了開源人工智慧的最新定義。該組織認為,AI 系統必須提供「四種自由」:自由使用、研究、修改與分享。
它不要求完全公開訓練資料,畢竟強制分享模型的所有訓練資料並不總是可取的。例如,這實際上會阻止開源醫療 AI 工具的建立,因為健康記錄是病患的財產,不能無限制地分享。
基於「開放原始碼 AI」的理念,梁先生表示他將持續公開訓練結果,試圖防止只有少數個人或公司 「壟斷 」AI技術。
▲DeepSeek-R1和其他 AI 模型的比較評估(圖/EDGE 昂越資本提供)
DeepSeek 的LLM模型家族
DeepSeek R1 與DeepSeek V3是兩個不同的模型,V3 訓練於回答問題。R1 則是透過自問自答後,回答用戶問題。V3 不僅比許多西方同業大,也比較好,只有 Google 和 OpenAI 的專屬模型可以媲美。聊天機器人的排名 Lmsys 將 DeepSeek 排在第七名,是開源模型中第一名。
梁先生表示, DeepSeek 的LLM組合成功並非來自單一的重大創新,而是來自許多小改進。舉例來說,訓練過程經常使用四捨五入來簡化計算,但在必要時仍保持精確的數字。
伺服器也經過重新配置,讓個別晶片之間的溝通更有效率。模型訓練完成後,再根據推理系統 DeepSeek R1 的輸出進行微調,學習如何以更低的成本模仿其品質。
DeepSeek V3差不多有需要350-700 GB 的 RAM/VRAM,有 6850億個參數,是所有開源模型中最大的。Llama 3.1 是 Facebook 母公司 Meta 於 7 月推出的旗艦 LLM,只有 4050 億個參數。
▲DeepSeek-R1-Zero和 OpenAI 01模型的關聯性評估(圖/EDGE 昂越資本提供)
成本革命大砍 & 收費價格
梁先生表示,得益於這些及其他創新技術,V3的數十億個參數只花了不到 300 萬個晶片小時,估計成本不到 600 萬美元,約為 Llama 3.1 計算能力和費用的十分之一。由於美國的制裁,V3使用的晶片甚至不是效能最好的。
不僅模型的訓練成本低,運行成本也更低。DeepSeek 比同業更有效率地將任務分割到多個晶片上,並在前一個程序完成之前就開始下一個程序。如此一來,它就能讓晶片在幾乎沒有休息的情況下全速運作。
過去OpenAI推出o1時強調「博士級職務代理」的概念,期望自己的AI在解決數理任務上的能力不亞於人類博士級專家。
而這才是企業能夠導入AI節省高階人才費用的關鍵。因此, DeepSeek的收費不到西方同業的十分之一。是LLM 定價戰中一個戲劇性的新轉折。
R1的思考鍊到底是甚麼?
R1與 o1 實質上採用的是心理學家 Daniel Kahneman 所謂的「第二型」思考方式的數位版本:比起快速且本能的「第一型」思考方式,更慢、更深思熟慮且更具分析性。「第二型」思考在數學和程式設計等領域展現絕佳成果。
舉例如果人類被問到一個簡單的事實問題,例如說出法國首都的名字,腦海中直覺浮現的第一個字,而且很可能是正確的。GPT等聊天機器人是以「第一型」的方式運作,透過語言的統計表達提供了絕對優先的答案,它就會依此完成句子。
如果被問到一個更複雜的問題,例如法國人口第五多的城市,人類可能會先列出一份法國大城市的名單,然後嘗試依人口來排序,最後才會回答,也就是「第二型」思考方式。
R1公開思考鍊
R1與 o1嘗試誘導 LLM有條理思考將問題拆解開來,一步一步地找出答案。但是,o1 對自己的想法守口如瓶,只向使用者透露過程摘要與最後的結論。
OpenAI 認為其推理的資料都被公開,模型的謹慎也讓其推理的精確機制不被可能的模仿者發現。阿里巴巴與R1沒有這樣的顧慮。
如果要求 QwQ 解決一個棘手的數學問題,它會詳述過程中的每個步驟,用戶可以清楚看到程式自言自語幾千個字。
這個開放性,也延伸到幕後貢獻的研究人員。中國與西方都在爭奪相同的人才。如果你是一名研究人員,正在考慮移居國外,西方無法給你的東西是什麼?
R1論文詳細列出超過了 100 位作者的名字。對於研究人員來說比起在美國默默耕耘,這樣的威望與名譽更具吸引力。
▲DeepSeek-R1-Zero思考鍊(圖/EDGE 昂越資本提供)
市場對AI 的欣喜轉為恐慌
1月27日,AI晶片製造大廠 Nvidia 的當天下跌近 17%,單日市值蒸發近六千億美元。
DeepSeek 進軍AI領域,正值美國科技巨頭在AI基礎設施上大灑金錢之際。然而,如果可以用較少的計算能力訓練出表現優異的模型,那麼原先的硬體投資可能被董事認為是過度的。
大股東可能會要求資本支出的減少或是重新配置。對於Nvidia 以及提供能源的公司來說無疑是壞消息。電子設備製造商西門子能源 (Siemens Energy) 和核能鈾生產商 Cameco 的股價已分別暴跌 14% 和 15%。
公開市場的崩盤也會波及私人公司。 2024 年,創投業者投資了約 1,320 億美元在 AI 新創公司。 DeepSeek 若證明可以用更少的錢做更多的事,勢必未來更難再融資了。其他由風投資金支持的公司,例如兩家 AI 晶片製造商 Groq 和 Cerebras,以及 AI 雲端運算公司 CoreWeave,也可能面臨困境。
▲DeepSeek-R1-Zero思考鍊(圖/EDGE 昂越資本提供)
中美AI競賽不止於技術面
中國與美國都在競賽,期望能率先實現超級智慧的飛躍。獲勝者所取得的,不僅僅是軍事優勢,更是在所有科技服務領域贏家通吃。這毫無疑問的具有商業價值,阿里巴巴的模型刻意加入了較無商業利益的「低資源」語言,例如烏爾都語和孟加拉語,這也建立AI盟友的政治手段。
中國想要創造一個以AI為中心的公司生態系統。即使AI產業保持在今天的研發進度上,中國AI也將帶來巨大的政治影響力。
DeepSeek 的創新表明,訓練模型的前期成本將大幅下降。不確定性來源是地緣政治,阻礙中國的AI努力已經失敗,川普可能會認為,答案就是進一步收緊出口限制,使 AI 供應鏈中的公司受到更嚴重的打擊。在最壞的情況下,AI相關禁令可能會升級到核武器等級,以任何手段(包括戰爭)阻止中方取得先進硬體的可能性。
需求改變,終端消費是贏家
最後一個不確定因素是需求。原先OpenAI 將 o1 模型的「專業」版本定價每個月 200 美元,而預計最高階的 o3 的完整使用權收取高達每月 2,000 美元的費用。
這個高額的訂價策略源自於OpenAI認為其 o3模型將能夠使公司利用這些代理提高生產力。相較於僱用一位數學博士,企業會選擇雇用一位能力相當的機器人。
此外,原本非完全開源的架構,使得OpenAI得以針對企業客戶提供AI客製化服務的專門模型。然而DeepSeek對於AI定價帶來了革命,對於軟體的終端消費者是利多,企業軟體公司 Salesforce 1 月 27 日上漲近4%。
雖然這次是中國,但下一次技術革命有可能來自印度或歐洲。毫無疑問,美國這次通過繁複的法規卻適得其反。對於AI未來的發展投資人不應該將任何一國的領先地位視為理所當然的。
▲AI「天才少女」羅福莉是DeepSeek-V2的關鍵開發者。(圖/翻攝自網易新聞)