“過去貧窮限制了想象力,現(xiàn)在一些人的野心又太超前了?!?/p>
文丨《財經(jīng)》記者 朱麗琨
【資料圖】
編輯丨程曼祺
周明是在國內(nèi) AI 市場溫度降到谷底的時刻決定創(chuàng)業(yè)的。那是兩年前,2020 年底,他考慮辭去微軟亞洲研究院副院長的工作,很多朋友勸他別出來,但他很堅定地要開始大模型創(chuàng)業(yè),認(rèn)為 “大模型未來會成為某種基礎(chǔ)設(shè)施”。
這之前 6 個月,OpenAI 發(fā)布了 GPT-3,在人工智能領(lǐng)域引起關(guān)注,但尚未形成去年底 ChatGPT 發(fā)布后大模型機(jī)會已至的共識。
不像一些熱潮中加入的創(chuàng)業(yè)者那樣愿意談 “終局”,周明在接受《晚點 LatePost》采訪時,一再強調(diào)的是 “公司要活下來”。他給出的商業(yè)前景沒有那么 “性感”。他認(rèn)為對國內(nèi)創(chuàng)業(yè)者而言,更靠譜的是 2B 的慢生意。
他笑著承認(rèn),“有 2C 志向的人,大概看不上做 2B 的人”。他認(rèn)為大模型 2C 創(chuàng)業(yè)是無止境的 “軍備競賽”,不確定性很大,2B 更務(wù)實。
務(wù)實的背后是他始終受制于資源不足。
周明創(chuàng)立瀾舟科技時,國內(nèi) AI 創(chuàng)投活動正處于冰點。他慶幸自己沒有再晚一年從微軟出來。自 2019 年以來,中國 AI 領(lǐng)域的創(chuàng)投熱度一直在下降,去年到了最低谷。據(jù) IT 桔子,截至 2022 年 11 月,中國 AI 領(lǐng)域一級市場融資總額比 2021 年同期下降 61%。
一成立,周明和瀾舟就遇到了冰冷的市場環(huán)境,當(dāng)時也少有人認(rèn)可大模型的潛力。
資源受限也來自客戶習(xí)慣:中國不少大型企業(yè),尤其是央國企有數(shù)據(jù)私有化的強需求。所以周明走訪了上百家國內(nèi)客戶后,得到的反饋往往是:“你做大模型,我們也用不起。”
它們要把大模型部署到本地,這需要自己購買大量 GPU、建算力中心,至少得投入上千萬元人民幣。因此,周明一開始選擇做 10 億參數(shù)量級的模型,研發(fā)重點是如何用輕量級模型解決問題。直到 ChatGPT 教育了客戶,瀾舟開始加速研發(fā)百億、千億級別大模型。
資源不足還有時代印記。周明從 1980 年代就開始研究自然語言處理(NLP),參與研發(fā)了中國第一個中英機(jī)器翻譯系統(tǒng) CEMT。那時算力很低,他每天想著如何節(jié)省內(nèi)存。90 年代他去清華任教,申請到的科研經(jīng)費仍然有限。1999 年加入當(dāng)時剛成立的微軟亞研院后,他和團(tuán)隊很長一段時間的重點也放在如何用小數(shù)據(jù)訓(xùn)練出與大數(shù)據(jù)相仿的結(jié)果。
周明經(jīng)常開玩笑說自己是 “貧窮限制了想象力”——他一直不敢想通用人工智能(AGI)會實現(xiàn),直到 ChatGPT 爆發(fā),他才把 AGI 作為愿景。在做自然語言處理研究將近四十年、創(chuàng)業(yè)兩年后,他終于有了適當(dāng)?shù)囊靶摹?/p>
不過,在如今對更大機(jī)會、更新物種的暢想氛圍中,周明并不是最吸引資本和資源的創(chuàng)業(yè)者。不止一位關(guān)注大模型的投資人對《晚點 LatePost》強調(diào)創(chuàng)業(yè)者的年齡,一些人相信,過去的 NLP 研究范式已被完全顛覆,更年輕的創(chuàng)業(yè)者才能更好地理解新技術(shù),把握新機(jī)會。
周明在 “知天命” 的年紀(jì)開始創(chuàng)業(yè),習(xí)慣了關(guān)于年齡的質(zhì)疑。年齡也帶來好處,就是經(jīng)歷過周期的韌性。
“利用好天時地利,才是一個人的核心競爭力?!彼f。
瀾舟科技創(chuàng)始人兼 CEO 周明
以下是周明和《晚點 LatePost》的對話:
普通人沒感覺,但 AI 界 “巨震” 早就開始了
《晚點》:你 2020 年底從微軟亞研院離職,決定做大模型創(chuàng)業(yè),ChatGPT 引起震動是在這兩年之后。你為什么更早看到了機(jī)會?
周明:我當(dāng)時在微軟亞研院的團(tuán)隊做了不少研究,看到大模型的用處。我認(rèn)為再發(fā)展下去,它會成為某種基礎(chǔ)設(shè)施。
當(dāng)時很多國內(nèi)中小企業(yè)還沒感受到大模型是什么、有什么用。BAT 已經(jīng)開始做大模型了,但還沒有對外釋放太多技術(shù)和服務(wù)。中國企業(yè),尤其中小企業(yè)未來一定會用大模型。誰來做?這里就存在一個創(chuàng)業(yè)機(jī)會。
《晚點》:大模型有用,你在當(dāng)時是怎么感知到的?
周明:其實 2017 年 Google 的 Transformer 出來后,NLP(自然語言處理)領(lǐng)域立刻就轉(zhuǎn)到 Transformer 上了。
我當(dāng)時在微軟領(lǐng)導(dǎo)的自然語言組也馬上開始用 Transformer 做編碼、解碼,做各種大模型,那時叫預(yù)訓(xùn)練模型,我們當(dāng)時做了一個業(yè)界挺有名的模型叫 Unified Language Model (UniLM)。我們的技術(shù)成功應(yīng)用到多個產(chǎn)品,涉及微軟圖靈大模型、必應(yīng)搜索的相關(guān)度提升、Office 的語法錯誤檢查、Azure 的機(jī)器翻譯等。
《晚點》:所以 2017 年的 Transformer 給行業(yè)帶來的震動比 ChatGPT 更大?
周明:如果未來頒圖靈獎,也許會頒給 Transformer 而不是 ChatGPT,因為圖靈獎一般鼓勵有長期廣泛影響的基礎(chǔ)技術(shù)。
普通人沒感覺,可是 AI 界當(dāng)時全都轉(zhuǎn)用 Transformer。Google 也許覺得有點虧,Transformer 是它搞的,轟動一時的 BERT 也是它搞的,但現(xiàn)在摘果子的是 GPT。
(*BERT 是 Google 2018 年基于 Transformer 推出的大模型。)
《晚點》:Transformer 具體帶來了什么變化?
周明:讓我們從頭來講。為什么自然語言處理這幾年發(fā)展很快?“自監(jiān)督學(xué)習(xí)” 是最重要的。
過去做自然語言的很多任務(wù),比如中英翻譯,你得去互聯(lián)網(wǎng)上找中-英雙語語料,人工檢查確認(rèn),或者補充新的語料。不同任務(wù)還要標(biāo)不同數(shù)據(jù),標(biāo)注成本特別大。再利用標(biāo)注數(shù)據(jù)設(shè)計一個模型進(jìn)行學(xué)習(xí)。這就是 “監(jiān)督學(xué)習(xí)”。
GPT 大模型是 “自監(jiān)督學(xué)習(xí)”,不需要提前標(biāo)數(shù)據(jù)了,只需要把大規(guī)模語料準(zhǔn)備好,神經(jīng)網(wǎng)絡(luò)會自己調(diào)整參數(shù),學(xué)到一個穩(wěn)定狀態(tài)。
做具體任務(wù)時,比如信息抽取或文本生成,需要再在模型上做一個微調(diào),這需要標(biāo)注針對這些任務(wù)的數(shù)據(jù),但標(biāo)注量比監(jiān)督學(xué)習(xí)小很多。因為模型更聰明了,你給它舉幾個例子,它就會了。原來可能要標(biāo) 1 萬條數(shù)據(jù),現(xiàn)在可能 100 條就行了。
現(xiàn)在 GPT-4 連針對具體任務(wù)做標(biāo)注這步都不需要了,它可以直接通過提示(prompt)告訴模型怎么做任務(wù),你提示得越詳細(xì)、準(zhǔn)確,它完成得就越好。
《晚點》:Transformer 是如何實現(xiàn)自監(jiān)督學(xué)習(xí)的?
周明:自監(jiān)督學(xué)習(xí),搞自然語言的人老早就想到了,只不過沒有很好的編碼方式去實現(xiàn)。
NLP 領(lǐng)域近年的第一個大變化是在 2012 年 ImageNET 大火,大家認(rèn)識到深度學(xué)習(xí)在圖像識別領(lǐng)域的強大能力,開始把深度學(xué)習(xí)用到 NLP 上。最初深度學(xué)習(xí)只改造了原有 NLP 流程的一部分,主要是用它生成幫助機(jī)器理解語言的 feature(特征),比如在翻譯任務(wù)里,詞的個數(shù)比例、兩個詞對譯的可能性等都是特征。但當(dāng)時做不到大模型這樣,從輸入數(shù)據(jù)到輸出結(jié)果的端到端的訓(xùn)練,主要是因為編碼能力和效率不足。
Transformer 的出現(xiàn)改變了這種情況,它帶來了目前最高效的編碼和解碼器,而且它可以并行計算,速度快。關(guān)鍵在于它引入了 “多頭自注意力機(jī)制”;并且在給詞語編碼時,除了語義信息,也加了這個詞在上下文的位置信息。簡單來說,這可以做到多維度抽取句子信息,最后把多層注意力模型和位置信息拼起來,編解碼能力大幅提升。
這后面大家膽子就大了,BERT、GPT-1、2、3,再到 ChatGPT,一條線都出來了。
《晚點》:現(xiàn)在回看,這好像是一種挺自然的思路,為什么 2017 年才實現(xiàn)?
周明:第一,算力是真提高了。這種編碼形式對算力要求極高,因為要搞這么多注意力,每個詞的編碼位都很多,神經(jīng)網(wǎng)絡(luò)層數(shù)也很多,這些都要耗費很大計算量。
第二是想象力增強了,這和算力提升也有關(guān)。以前一個頭的注意力都不敢想,太費空間了。
算力、算法和數(shù)據(jù)之間是互動前進(jìn)的:算力強了,可以想得更多,算法強了,又可以把數(shù)據(jù)處理效率提得更高。
《晚點》:對做 NLP 多年的人來說,Transformer 是一個石破天驚的顛覆式創(chuàng)新還是基于已有技術(shù)的漸進(jìn)式創(chuàng)新?
周明:顛覆式創(chuàng)新。它的每一個部分過去可能都有人想到過,但把它變成一個體系,成為神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),這肯定是顛覆式創(chuàng)新。
《晚點》:你曾經(jīng)想到了其中的什么部分嗎?
周明:編碼,還有詞跟詞之間的相關(guān)度。也不能說是我想到的,我從 1985 年就開始做 NLP,當(dāng)時就有人研究多特征編碼,研究能不能不管詞性、語種,都用統(tǒng)一的多維向量來編碼?
《晚點》:但是這么多年來,你自己和其他人都沒能實現(xiàn)這些設(shè)想。
周明:貧窮限制了想象力。
我們那時機(jī)器太小,整天想的是如何節(jié)省內(nèi)存。假設(shè)真有人往那兒想,你就會說 stupid,一下把內(nèi)存外存全吃了,怎么可能做出來?大模型是反過來的,想的是如何把算力充分調(diào)動起來,沒那么在乎算力消耗。
而且過去我們只有皮毛和初步想法。Transformer 則是一種全方位、多語言、多模態(tài)的大一統(tǒng)編碼精神,所有語種,包括程序代碼都能做,因為編碼機(jī)制是一樣的。
Ilya 有底層創(chuàng)新能力,Sam 把集成創(chuàng)新做到極致
《晚點》:在 Transformer 基礎(chǔ)上,OpenAI 做了什么?
周明:持續(xù)努力,把數(shù)據(jù)清洗、規(guī)模、參數(shù)量、訓(xùn)練速度……所有東西做到了極致。
《晚點》:Meta 的 AI 首席科學(xué)家楊樂昆(Yann LeCun)評價 ChatGPT “就底層技術(shù)而言,沒什么創(chuàng)新”。
周明:他說的有一定道理。搞學(xué)術(shù)研究的人會說 ChatGPT 沒什么了不起,它使用的技術(shù)點點滴滴散落在文獻(xiàn)中,多少在別處用過。
但搞工程、產(chǎn)品的人會覺得 ChatGPT 很了不起。它最大的功績是把各方面做到極致,是集成創(chuàng)新的典范。
中國的集成創(chuàng)新能力相對薄弱,我們在點上的、應(yīng)用上的創(chuàng)新現(xiàn)在做得不錯。
《晚點》:當(dāng)年微軟亞洲研究院孫劍指導(dǎo)下做的 ResNET 屬于哪一類創(chuàng)新?
周明:它屬于 fundamental 的底層創(chuàng)新。ResNET 的光芒至今照耀整個神經(jīng)網(wǎng)絡(luò)和 AI 領(lǐng)域,是微軟亞研院的驕傲。
(*ResNET 主要解決深度過大的神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問題,由何愷明、張祥雨、任少卿、孫劍于 2015 年底提出,論文被引用超 12 萬次?!白顝娖迨帧盇lphaGo Zero 也用到這個技術(shù)。)
《晚點》:底層創(chuàng)新和集成創(chuàng)新,區(qū)別是什么?
周明:底層創(chuàng)新,算法從頭到尾是自己提出來的。集成創(chuàng)新則像 “吸星大法”,集成所有優(yōu)秀的算法、工程、界面、交互能力,甚至 PR 能力。
大模型領(lǐng)域,你可以理解為 Transformer 是底層創(chuàng)新,ChatGPT 是集成創(chuàng)新的集大成者。
《晚點》:上一次以計算機(jī)視覺為主的 AI 熱潮中,中國科學(xué)家提出了 ResNET 這樣的成果,現(xiàn)在看語言大模型,為什么從底層的 Transformer,到后來的 ChatGPT 都出現(xiàn)在美國?
周明:任何技術(shù)出現(xiàn)都有一定偶然性。
集成創(chuàng)新中國是比較薄弱,OpenAI 以外很多美國公司也薄弱。微軟也幫 OpenAI 做了很多事,OpenAI 聰明地把微軟的計算、資源、數(shù)據(jù)都用起來了。
《晚點》:那這個問題可以是,為什么是 OpenAI?
周明:世界上有幾類人,有人就是要研究底層創(chuàng)新。有的是在底層創(chuàng)新上做應(yīng)用,一般的應(yīng)用是解決單項任務(wù)。還有的是做集成創(chuàng)新,把所有工作、應(yīng)用、算法都在一個大平臺上體現(xiàn),形成里程碑。OpenAI 恰好集成創(chuàng)新做得非常好。
中國應(yīng)用創(chuàng)新比較厲害,集成創(chuàng)新相對薄弱,底層創(chuàng)新有一些突破。
《晚點》:底層創(chuàng)新來自何處,比如第一個想到 Transformer 的人是怎么想到的?
周明:一是想象力,想象力又來自提問能力。
做應(yīng)用創(chuàng)新的人不會去想 “怎么對語言更好地編碼”,但能提出底層創(chuàng)新的人會想,這個問題不解決,后面的東西很難推;他看到了問題的全部,同時能找到突破點。
二是,做底層創(chuàng)新需要數(shù)學(xué)功底。
《晚點》:OpenAI 的成功給你什么啟發(fā)?
周明:它跟微軟是難得的天作之合。Sam 跟微軟 CEO 納德拉,跟馬斯克、黃仁勛都有很好的私交,有信任。加上 Sam 看了很多創(chuàng)業(yè)項目,有戰(zhàn)略定力,知道該往哪個方向走,再搭配一個首席科學(xué)家 Ilya,那個人就是很執(zhí)著。
《晚點》:Ilya 難尋,還是 Sam 更難尋?
周明:中國有 Ilya,也有 Sam,但是這倆碰到一起不容易。中國也缺乏微軟這樣的公司。
Ilya 就是堅信某些技術(shù)能出奇跡。我們這個領(lǐng)域也有。
《晚點》:你覺得自己是哪類人才?
周明:我可能更像一個 architect,架構(gòu)師。我有清晰的想法,能把不同人、資源架構(gòu)起來,知道可以往哪走。但是讓我寫特別牛的算法,我寫不出來。
瀾舟的應(yīng)用做得非常強了,模型、算法還算國內(nèi)一流水平。我也看到有些創(chuàng)業(yè)團(tuán)隊,不懂底層的技術(shù),就直接做集成,可能欲速則不達(dá)。
《晚點》:你們是國內(nèi)最早做大模型開發(fā)和應(yīng)用實踐的公司之一,現(xiàn)在其他公司來挖人你怎么辦?
周明:他們還沒往我們這看。我們不注重個人英雄主義,我們每個人發(fā)揮自己的優(yōu)勢,不同的人互相支撐,能做出大項目。
大公司,包括新成立的公司,都在看國際人才。你在 OpenAI 干過,哪怕就是掃地的,現(xiàn)在身價都很高。OpenAI 的沒找著,在微軟、Google 干過也湊合,現(xiàn)在都這么找人。
《晚點》:他們?nèi)ッ绹谌耸敲髦侵e嗎?
周明:不論在國內(nèi)挖還是國外挖,單純挖人都不是上策。多數(shù)人在一個公司里只做某一個螺絲釘,只對問題有局部了解,本來就是個兵,你指望他到你這兒做帥,你想想你公司會往哪兒走?
2C 更有雄心,但是 2B 更務(wù)實
《晚點》:你曾評價 OpenAI “雄心令人敬佩”,國內(nèi)做 NLP 有些 “膽小”。什么是 “雄心”?什么是 “膽小”?
周明:OpenAI 從一開始就想做 AGI(通用人工智能),不鳴則已,一鳴驚人。國內(nèi)外其他公司多數(shù)沒這個雄心,更多是想著把機(jī)器翻譯、搜索引擎等任務(wù)做好,不一定非要走到 AGI。
不過現(xiàn)在一些中國公司看到 OpenAI 的成功之后,雄心又太大了,認(rèn)為我只要有錢,只要買得起機(jī)器,很快會達(dá)到或超越 ChatGPT。我覺得是不太可能的。
《晚點》:你自己也沒想過 AGI?
周明:我以前認(rèn)為做不出來,現(xiàn)在我也不敢說瀾舟能做出來了,但有了這個 Vision(愿景)。有和沒有區(qū)別很大:我們這一代也許能實現(xiàn),也許實現(xiàn)不了,但大家每天都在逼近,要有這樣的雄心。
《晚點》:你怎么定義 AGI?有人認(rèn)為 AGI 已經(jīng)來了。
周明:AGI 是一個遞進(jìn)過程,你原來只能做一個任務(wù),后來變成 N 個任務(wù)、1 萬個任務(wù),都用一個平臺實現(xiàn)。
1 萬個任務(wù)是 AGI 嗎?也不是,它可能一直往上漲,越前面的任務(wù)越容易被人用到,越往后的是越長尾的。
《晚點》:你這是從通用性角度定義 AGI,你并不考慮機(jī)器的認(rèn)知或意識問題?
周明:我是站在生產(chǎn)力的角度,不是生產(chǎn)關(guān)系的角度。現(xiàn)在生產(chǎn)力都還沒做出來。
《晚點》:想法挺務(wù)實。你們具體怎么做?
周明:我講究兩條腿走路,一個是 Vision,一個是 Stage(階段)。Vision 是終極目標(biāo),每個階段還有階段目標(biāo),讓公司有中間成果或?qū)崿F(xiàn)收入。
所以我們既煉模型,同時也希望它能很快在某些領(lǐng)域落地,邊煉邊用,不能割裂,這二者存在互相反饋:煉模型時要考慮怎么用,這樣會更聚焦,效率更高;用時要想好怎么和 “最后一公里” 結(jié)合?,F(xiàn)在的創(chuàng)業(yè)團(tuán)隊里,同時有煉和用的能力的很少。
《晚點》:王慧文的想法也是 “大模型 + 應(yīng)用”,他管這叫雙輪驅(qū)動。
周明:這說明他真是干過大公司的。瀾舟的優(yōu)勢是已經(jīng)做了兩年,吃了很多苦,我們過去的模型已經(jīng)有落地經(jīng)驗,現(xiàn)在是做更大的模型去落地,我們多了一個 “反饋鏈”。
《晚點》:和這一批新公司不同,瀾舟 2021 年初做的是一個 10 億參數(shù)的模型,回頭看這是不是一種相對膽小的選擇?
周明:我剛出來創(chuàng)業(yè)時就想做大模型,可我調(diào)研了上百家單位,他們說你做大模型,我也用不起,你給我一個百億或千億參數(shù)的模型,我得買多少機(jī)器?中國央國企是要私有化部署的,我認(rèn)為它們是中國 2B 最主要的客戶。所以這兩年,瀾舟做輕量化是走務(wù)實的路線。
《晚點》:客戶部署大模型的成本具體是多少?
周明:如果是訓(xùn)練千億參數(shù)級大模型,追求訓(xùn)練速度,要上千塊 A100,現(xiàn)在一塊 A100 約 10 萬元人民幣,這是上億元投入。如果接受訓(xùn)練得很慢很慢,我覺得最少用 128 塊 A100,這也是上千萬投入,而且我不確認(rèn)能不能訓(xùn)練出來。
當(dāng)然如果只是本地部署推理,則不需要那么多卡。推理就是模型訓(xùn)好了來用。千億大模型要 8 到 16 塊 A100,也是一二百萬元的投入。如果這個模型支持的任務(wù)沒那么重要,客戶還是覺得不合算。所以當(dāng)時只能做輕量化模型。
《晚點》:今年 3 月瀾舟的孟子大模型發(fā)布會上,你們說接下來要做百億、千億參數(shù)的模型。
周明:2B 的需求分布是:80% 是輕量化模型能解決的任務(wù),如機(jī)器翻譯、信息收集、閱讀理解等;還有 20% 的任務(wù)需要多輪對話、復(fù)雜語義理解或意圖識別,比如客服、合同審核等,這只能大模型來做。我們以前不碰這 20%,即使它客單價更高。
前兩年我們做的事是先拿 80% 的任務(wù),積累能力,再逐步做更大的模型,去拿 20% 的大單。
《晚點》:ChatGPT 出來前,一定拿不到那 20% 的單?
周明:拿不到。你模型能力不夠,客戶也覺得你做不了。我要審時度勢,作為初創(chuàng)團(tuán)隊,我得先靠 80% 的任務(wù)活著。
但 ChatGPT 一來,它教育了客戶,客戶想用了。我們原本的規(guī)劃,加上技術(shù)的進(jìn)步、客戶的教育、同行的競爭,我們能力也更強了,萬事俱備,我就應(yīng)該做這個(千億參數(shù)大模型)。
《晚點》:現(xiàn)在做百億以上參數(shù)規(guī)模的大模型,企業(yè)客戶會不會還是用不起?
周明:一是更大、更重要的任務(wù)有更大的預(yù)算;二是按照摩爾定律,機(jī)器每 18 個月性能高一倍,價格低一倍。當(dāng)然現(xiàn)在中國是被美國限制了芯片。
《晚點》:你一開始就在調(diào)研企業(yè)客戶,為什么不考慮做 2C?
周明:2C 可能成就偉大公司,2B 節(jié)奏慢,但是更務(wù)實。有 2C 志向的人,大概看不上 2B 志向的人。
但大模型 2C 在中國很難,我私下以為,可能是一條不歸路。首先現(xiàn)在好多人沒明白 C 和 B 的區(qū)別,他覺得我把 ChatGPT 抄出來,將來兩條路全可以做。
實際上 2C 更需要 AGI,要把各種功能放在一個通用引擎上,不能翻譯一個 App,寫作一個 App,一堆 App。這就要把兩類能力——聽懂人話,即語言理解的基礎(chǔ)能力,和做事,即解決各種任務(wù)的能力——放在一個模型里。相應(yīng)地,模型參數(shù)規(guī)模必須大。ChatGPT 參數(shù)量已到了 1750 億,未來還會更大。做 2C ,未來就是一個不斷增加參數(shù)規(guī)模、數(shù)據(jù)量和機(jī)器的軍備競賽,可能一直被 OpenAI 壓著走。
第二,國內(nèi) 2C 很難直接找用戶收到錢,而且監(jiān)管比較嚴(yán)。
其實還有第三條路,就是 2B2C,類似 OpenAI 把 GPT 的能力嵌入微軟的標(biāo)準(zhǔn)產(chǎn)品,如 Bing 或 Office 里。這條路得有機(jī)緣,要找好合作伙伴。
《晚點》:瀾舟現(xiàn)在是重點 2B,考慮 2B2C,不碰 2C?
周明:我們也做 2C,但是是為了獲客。2B2C,我們已和一家大型通信廠商合作,去服務(wù)它的客戶。
《晚點》:未來更追求通用性的 2C 大模型會碾壓更小的模型嗎?
周明:在具體任務(wù)上,相對小的模型,加上更好的微調(diào)和特定領(lǐng)域的數(shù)據(jù),會超越通用大模型。另外還有成本,對很多場景來說,客戶需要便宜和夠用。
《晚點》:如果把未來通用大模型做到公有云上再 2B,就可以平攤掉小任務(wù)的成本。
周明:央企國企的很多業(yè)務(wù)出于數(shù)據(jù)安全考量,一般不會用公有云,我認(rèn)為這個形勢大概未來十年不會變。
《晚點》:這給 2B 帶來一個問題,你們能用客戶數(shù)據(jù)幫助優(yōu)化模型,形成數(shù)據(jù)飛輪嗎?
周明:國內(nèi)的行業(yè)數(shù)據(jù)飛輪效應(yīng)很難建立,央國企的數(shù)據(jù)、訓(xùn)練出來的模型也不是你能帶走的。當(dāng)然這對所有公司都一樣,大家都在一個起跑線。
人左右不了局勢,只能適應(yīng)局勢。中國的 SaaS(軟件即服務(wù))沒有美國普及。公有云和 SaaS 有一天可能會迸發(fā),在這之前要積累和保留能力,等待未來的變化。
《晚點》:變化可能來自哪兒?
周明:在于自己先強起來,從不能做到能做,然后等待一些外部關(guān)系調(diào)整,包括看看出海可能,不停尋找新的活下來的機(jī)會。
我出生在比較窮苦的家庭,從小各種惡劣環(huán)境都經(jīng)歷過,所以不怕吃苦。我覺得事情每天都在變好。
《晚點》:相比上一次 AI 熱潮,中國和世界的差距是拉大還是縮小了?
周明:越來越好了。如果不是因為芯片的事,差距不會有看起來這么大。
《晚點》:這次創(chuàng)業(yè)之初,你曾和人說希望做世界上最好的 NLP 公司。這受很多因素左右。
周明:一個人怎么把天時地利用好,才是他的核心競爭力。
《晚點》:如果最終這個愿望沒實現(xiàn),是一個怎樣的遺憾?
周明:這就像機(jī)器學(xué)習(xí),它需要正反饋,也需要負(fù)反饋,最終神經(jīng)網(wǎng)絡(luò)才會越來越強。當(dāng)你抱著一顆學(xué)習(xí)之心,人生的經(jīng)歷,不管成功、失敗,所有人和所有事,都是你的學(xué)習(xí),你的訓(xùn)練語料。
責(zé)編 | 田潔
本文為《財經(jīng)》雜志原創(chuàng)文章,未經(jīng)授權(quán)不得轉(zhuǎn)載或建立鏡像。如需轉(zhuǎn)載,請?zhí)砑游⑿牛篶aijing19980418