李開復「零一萬物」AI獨角獸，更勝Meta！避禁令、圈矽谷人是原因

雜誌原標題：避禁令、圈矽谷人李開復「零一萬物」挑戰Meta

傅莞淇

傅莞淇

2023-11-10

瀏覽數 5,300+

前微軟亞洲研究院院長、創新工場創辦人李開復創立的AI新創公司零一萬物（01.AI），本周宣布開發大型語言模型Yi-6B及34B並將之開源出來。張智傑攝

00:00

本文出自 2023 / 12月號雜誌 2024脆弱中迎復甦

OpenAI這週剛發表GPT-4 Turbo，引來新一波AI戰。其實，華人界AI大師李開復創立的零一萬物，6日也發表Yi大模型，則獲得AI開源社群HuggingFace認可，評價更勝Meta Llama 2！已成估值超10億美元的獨角獸。為何「零一萬物」能成功？據外媒透露，這兩點讓它實力毫不輸矽谷。此外身為推手的李開復，又如何深入拆解中美AI大戰？

前微軟亞洲研究院院長、創新工場創辦人李開復創立的AI公司「零一萬物」（01.AI），11月6日發布首款預訓練大型語言模型（LLM）「Yi」系列Yi-6B及34B。一大市場差異性是具備簡體中文、英文的雙語能力，但其引人注目之處不僅於此。

在深耕AI開源社群的Hugging Face評測排行榜上，擁有340億個參數的Yi-34B平均表現達68.68分。在開源的大語言模型中居冠！勝過擁有1800億個參數的Falcon與由臉書創辦人祖克伯領導的Meta團隊，所發表700億參數的Llama 2。

參數值較少也能贏Meta！原因拆解

其實，零一萬物的Yi模型參數值較小，卻能勝過參數值較大的Meta Llama 2，是少見個案。因為參數是影響大語言模型生成內容的內部變數，通常參數愈大、模型表現愈好。因爲參數愈多，模型愈能捕捉語言中的細微差別與複雜性，也更能掌握文本中距離較遠的字詞先的相互關係。

不過，Yi-34B能以較少參數繳出較佳成績，顯示參數規模不是決定模型表現的唯一因素。訓練集的資料品質、訓練技術與演算法、模型結構也都扮演相關角色。

Yi法律與經濟學都能懂，素養不輸人類知識分子

到底贏在哪裡？從細項看來，像是在評估大語言模型的關鍵指標「大規模多任務語言理解」（MMLU）上，Yi-34B同樣繳出開源模型中的最佳表現76.3分。Falcon-180B 為70.4分，Llama 2-70B為68.9分。

所謂的「大規模多任務語言理解」，是透過涵蓋法律、歷史、經濟學、政治等57個多元主題的複雜多選題，測試模型對廣泛主題的理解及推理能力。在這領域上表現愈好，可被視為能力愈接近受過教育的人類。

因此，零一萬物的Yi-34B繳出開源模型中最高分，也顯現出若使用這款模型來詢問它法律、歷史、經濟學、政治等問題，可能答案已不輸一般人類知識分子的素養。

Yi模型的另一大亮點，是可處理的上下文長度（context window）高達200K，約等同於40萬字的中文文本。這比尚未發布的GPT-4 Turbo的128K更長，也是第一個在開源社區開放超長上下文處理的大模型公司。

不只知識要續航手機電量也要！現在訂遠見即贈飛利浦最新磁吸式行動電源

李開復表示，Yi系列大模型：命名來自中文「一」的拼音，“Yi中的Y上下顛倒，巧妙形同漢字的「人」，結合AI裡的i，代表 Human+AI。取自臉書＠李開復 Kai-Fu Lee

開源只是第一步，朝千億參數的付費模型邁進

據「零一萬物」創辦人暨CEO李開復表示，選擇開源Yi模型，是為了向開源社群提供另一個優秀的選項。目前Yi模型已在Hugging Face、ModelScope、GitHub 三大平台上線，完全公開學術使用，也開放免費商業應用的授權申請。

不過，訓練LLM是大筆開銷，李開復承認公司無法開源一切。未來零一萬物預計將為不同行業應用提供收費的模型方案，朝消費者端應用邁進。如Yi-34B目前在數學與程式語言能力上相對較弱，未來可能推出專精於此的模型。

李開復亦宣布，公司已經在進行下一個千億參數模型的開發。預計在未來12、18個月陸續推出1000億參數及4000億參數的LLM，以GPT-4為競爭基準。

零一萬物為何成功？能突圍晶片禁令，圈Google與微軟人才

「零一萬物」在3月成立、6月開始營運，11月就能發表首款模型，8個月就突飛猛進，顯示了AI領域在中國大陸發展飛速。李開復指出，這是受到市場需求的鼓勵。由於OpenAI的ChatPT與Google Bard服務在中國不可用，讓本土相關服務積極搶攻。如4月成立的「百川智能」與6月被美團收購的「光年之外」，都有成為「中國OpenAI」的野心。

TechCrunch觀察，零一萬物可在短短8個月內展現成果的一大關鍵是募資順利。除了李開復自己的創新工場外，也成功吸引阿里雲等投資者，估值已逾10億美元。這讓公司得以募集Google、微軟、阿里巴巴與騰訊等科技巨頭出身的人才，以及購入開發模型的關鍵硬體GPU。

由於美國政府晶片禁令，零一萬物也像眾多中國AI公司一樣提前囤貨。李開復透露，公司甚至是超支採購，目前已累積足夠使用12～18個月的存貨。美國限制也迫使中國企業極力優化算力運用。李開復估計，在基礎設施團隊的支持下，零一萬物設法讓每千顆GPU發揮出2千顆的效能。

李開復觀察，與美國相比，中國在LLM開發上雖無優勢，但在應用上相對較強。這是由發展已久的行動互聯網生態系所支持。他透露，零一萬物已在實驗生產力及社交方面的應用，也期望開源Yi模型有助於AI應用生態系加速蓬勃發展。