5 月 23 日,36 氪舉辦「顛覆 · AIGC」產(chǎn)業(yè)發(fā)展峰會。本次峰會匯聚產(chǎn)業(yè)力量,共同探討企業(yè)、行業(yè)在面臨變革時的應(yīng)對策略,分享思考,探索和發(fā)現(xiàn)產(chǎn)業(yè)中最具潛力的企業(yè)與最具價值的技術(shù),在激蕩的環(huán)境中探尋前行的方向。
大會上,商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆發(fā)表了題為《大模型浪潮帶來的 AI 產(chǎn)業(yè)發(fā)展新機遇》的主題演講。楊帆認為,新一輪 AI 浪潮有兩個特點:一是從技術(shù)突破到商業(yè)模式創(chuàng)新的周期更短,技術(shù)成果被更快地用于商業(yè)和產(chǎn)業(yè)探索、實踐;二是相較于過去十年,當(dāng)前的人工智能產(chǎn)業(yè)化更容易將技術(shù)優(yōu)勢轉(zhuǎn)化為數(shù)據(jù)壁壘和規(guī)模優(yōu)勢。
對人工智能技術(shù)能取得突破性進展的原因,楊帆也發(fā)表了自己的看法。他認為,盡管大模型的成功仍然印證了人工智能的 " 數(shù)據(jù)、算力、算法 " 暴力美學(xué),但這三要素背后實際上是一個綜合系統(tǒng)工程。以 OpenAI 為例,楊帆指出,如何做好數(shù)據(jù)工程,如何提升芯片的有效資源利用率,如何設(shè)計更低成本但結(jié)構(gòu)優(yōu)良的算法,每一個環(huán)節(jié)都需要專家經(jīng)驗知識和系統(tǒng)工程能力支撐。在他看來,這是模型層企業(yè)核心基礎(chǔ)技術(shù)能力積累的最終體現(xiàn),也是向市場提供 AI 基礎(chǔ)設(shè)施服務(wù)的關(guān)鍵能力。
【資料圖】
以下為楊帆演講實錄(經(jīng) 36 氪整理編輯):
大家好!很榮幸今天能夠在 36 氪的活動和大家一起交流大模型的一些產(chǎn)業(yè)趨勢。
在這樣一個產(chǎn)業(yè)極度變化期,我分享幾個觀點。首先,我們今天講大模型,是沒有被精確定義說法的,到底是千億較大,還是百億較大?在我看來,人工智能從 2012 年到現(xiàn)在,過去十幾年,模型結(jié)構(gòu)一直在變大,參數(shù)量也一直在變大,為什么現(xiàn)在大家好像突然有了一個概念,引爆更多的關(guān)注熱點?我們可以看到,在 2016 年以 AlphaGo 為代表的新應(yīng)用,和個人消費者之間有一個強關(guān)聯(lián),最近兩年,人工智能技術(shù)取得了新的進展和突破,首先這些進展、突破和每個人更直接相關(guān),大家能夠直接感受到它,第二這些突破確實形成了更大的影響力,我覺得人工智能可以完成一些其他學(xué)科在科研領(lǐng)域里的創(chuàng)新工作,不管是生物、物理、化學(xué),還是其他領(lǐng)域,比如:今天大家所關(guān)注的 ChatGPT 模型,就很有意義,因為它有可能驅(qū)動我們整個底層的科技,產(chǎn)生新的進步。這樣新的進步有可能在未來給人類帶來更多的增量。
從 2021 年開始,陸陸續(xù)續(xù)產(chǎn)生比較多的技術(shù)突破,同時我們看到一個很有意思的現(xiàn)象,這輪技術(shù)突破從技術(shù)形成一定的成果后,我們開始到產(chǎn)業(yè)、商業(yè)上做探索和實踐,這個周期變得比原來更短。在此之后,國內(nèi)外有大量的創(chuàng)新公司成立,教授、學(xué)者開始創(chuàng)業(yè),我覺得可能過去市場上對此已有一些路徑,投資人的認可度也變得更高,包括一些文生圖的 API 公布后,很快就有人在小紅書上做網(wǎng)紅嘗試。
我們看到很多趨勢,從技術(shù)突破到商業(yè)化創(chuàng)新,這個周期似乎更短。在最近參加的一些論壇里面,我發(fā)現(xiàn)大多數(shù)人都在講,想要做一個什么樣的大模型,模型有多大,有多厲害,要拿這個模型做什么事情,在某些特定場景下去打造一個超級新的 APP,等等。在中國現(xiàn)在還沒有任何一個大模型得到政府監(jiān)管正式 API 許可的情況下,在最近兩個月的時間內(nèi)就有這樣一個很大的擴張變化。
所以我覺得這是一個更值得我們?nèi)リP(guān)注的現(xiàn)象,我們看到這輪大模型的商業(yè)化進程更快,為什么會產(chǎn)生這樣的效果?很重要的一點是我們看到很多新技術(shù),可以做更多 C 端應(yīng)用,與此同時,可以天然形成數(shù)據(jù)積累閉環(huán),這比起過去技術(shù)性創(chuàng)業(yè)更加容易建立起商業(yè)壁壘。我覺得這是我們看到的最近幾個月在產(chǎn)業(yè)方面的趨勢。
商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁 楊帆
第二,是我們今天做大模型技術(shù)背后的東西。大家有一個共識,不管是大模型,還是回顧過去 10 年,整個人工智能產(chǎn)業(yè)發(fā)展變遷,基本上都是一個暴力美學(xué)的成功,包括人工智能的傳統(tǒng)三要素:數(shù)據(jù)、算力、算法。算法,大家可以理解成模型結(jié)構(gòu),今天我們所謂的這些大模型,或者技術(shù)上取得更新成績的模型,幾乎所有的模型在每個領(lǐng)域不管是數(shù)據(jù)集尺度所使用的算力規(guī)模,還是算法本身的結(jié)構(gòu),以及模型的參數(shù)量,其實都保持著非常高的增速,Transformer 這個模型非常穩(wěn)定,效果非常好,可以解決很多領(lǐng)域問題,并能得到很好的結(jié)果。當(dāng)我們發(fā)現(xiàn)數(shù)據(jù)量足夠多,可以拿到很好泛化性的結(jié)果時,其實在某種意義上,也更加驗證了人工智能技術(shù)的進步大方向就是暴力出奇跡,把更多資源整合起來就可以拿到更好的結(jié)果。
但是,光有這樣一個資源,其實是遠遠不夠的,我們?nèi)タ磳?yīng)的三要素,每個要素在形成好的結(jié)果之前,在每個領(lǐng)域都要做大量的專業(yè)工程實踐。
其實剛才嘉賓的演講就解釋了在算力領(lǐng)域,為什么我們需要大算力,這些大算力怎么連起來?如果今天有 1000 塊卡,我們是不是能讓它們發(fā)揮出好的性價比,是不是有效利用率能做到 60%、80%,甚至 90%?再或者,如果我們今天連了 1000 塊,2000 塊、4000 塊卡,又會是什么樣的效果?OpenAI 之前連了一萬塊 V100,目前國內(nèi)還沒有人可以把一萬塊卡連在一起去跑同一個訓(xùn)練任務(wù),并使有效資源利用率達到 50%、60% 以上,現(xiàn)在可能有些人正在做,但還沒有這樣的成績,為什么?其背后就是非常復(fù)雜的工程事件。比如:一個千億參數(shù)量的模型,在訓(xùn)練時需要做大量數(shù)據(jù)交互和中間梯度信息交互,當(dāng)你把分在成千上萬塊 GPU 卡上的大量傳輸數(shù)據(jù)和運算結(jié)果傳輸之間形成有效平衡,很多時候模型是在點對點之間進行,在網(wǎng)絡(luò)結(jié)構(gòu)上要做兩兩傳輸。我們把成千上萬塊卡連在一起時,效果有一個怎樣的可接受狀態(tài),這背后其實也不復(fù)雜,就是大量的工程實踐,就像你干過這件事,你踩過足夠多的坑,就會比別人調(diào)的更好,這個事情就是很重要的經(jīng)驗問題。
算法也一樣,今天的算法結(jié)構(gòu)設(shè)計可以比原來成本更低。結(jié)構(gòu)設(shè)計的好,用更少量參數(shù)、更小數(shù)據(jù)就可以達到類似一個設(shè)計不做特別優(yōu)化的最終算法效果,這中間也存有大量專家知識,數(shù)據(jù)就更不用說了。
OpenAI 做 ChatGPT4 的時候,最后在收集到的數(shù)據(jù)中只取了中間可能不到 10% 的很小一部分做訓(xùn)練,這對于資源節(jié)省和全量訓(xùn)練的差距非常大,互聯(lián)網(wǎng)量數(shù)據(jù)非常大,到底哪些數(shù)據(jù)更加有效,哪些數(shù)據(jù)有更高蘊含價值?我們在做訓(xùn)練的時候,先丟哪些數(shù)據(jù),后丟哪些方式,這個中間其實也都有大量試錯。為什么算力這么緊缺,大家需要拿更多算力?因為做大模型的很多人在試錯,可能同時分三四個小組,在不同方向上試錯,然后再逐步做迭代優(yōu)化,暴力美學(xué)或者規(guī)模化資源聚集是今天能夠讓 AI 技術(shù)、AI 算法能夠持續(xù)取得的原因。
更重要原因,是我們在每一個環(huán)節(jié)上,需要一些專家的經(jīng)驗知識和系統(tǒng)的工程能力,其實是一個綜合系統(tǒng)工程。這也是看到 OpenAI 讓最優(yōu)秀的科學(xué)家去做數(shù)據(jù)工程,而不是去做算法,這極大的超出了我們以往對于領(lǐng)域的認知,在未來,這可能會成為一個關(guān)鍵性的門檻,也會成為我們給市場提供服務(wù)的核心能力。
為什么在人工智能新技術(shù)出來以后,產(chǎn)業(yè)浪潮跟進的非常快,我們看到模型服務(wù)天然符合很多領(lǐng)域,互聯(lián)網(wǎng)圈的人非常激動,投資人覺得它會像互聯(lián)網(wǎng)一樣飛速增長。大模型在商業(yè)化的門檻和壁壘上能夠有一些更新的機會,當(dāng)然這些機會的獲得取決于不同的差距和特色特長。無論如何,相比過去 10 年,如今的人工智能產(chǎn)業(yè)化會有非常大的優(yōu)勢,因為不是單一技術(shù)壁壘,今天的技術(shù)優(yōu)勢是有可能轉(zhuǎn)化成數(shù)據(jù)壁壘和規(guī)模優(yōu)勢,我們相信在未來會有更多的產(chǎn)業(yè)應(yīng)用。
商湯從 2019 年開始做早期的大模型,在我們看來,整個 AI 模型其實一直處在越來越大的狀態(tài),所以我們內(nèi)部積累了大量能力,包括自研了一些 CV、NLP 的模型。在今年 4 月份,商湯把一些模型的 API 開放出來,給產(chǎn)業(yè)伙伴試用,包括一些大語言類的模型,在我們看來,這更多是核心基礎(chǔ)技術(shù)能力積累的最終體現(xiàn)。
我們今年發(fā)布了一系列的模型,為市場提供服務(wù)支撐的背后是我們的大裝置,我們覺得,人工智能整個產(chǎn)業(yè)往前走,需要有人提供這樣大規(guī)模的高效率的基礎(chǔ)設(shè)施,這基本是一個必然路徑。整個 AI 技術(shù)浪潮,未來如果變成越來越多資源消耗加專家經(jīng)驗累計的游戲的話,其實門檻極高,是不利于 AI 被產(chǎn)業(yè)大量快速應(yīng)用的,所以我們判斷勢必會形成分化,一定會有人提供基礎(chǔ)設(shè)施服務(wù),不管是調(diào)用模型 API 形式,還是在此基礎(chǔ)上做小模型的方式,再或者以其他的方式,都可以低門檻、低成本的快速使用 AI 基礎(chǔ)性的資源和能力,從而快速完善自己的商業(yè)模式閉環(huán)。
商湯大裝置的定位就是做 AI 基礎(chǔ)設(shè)施提供者,今天我們有全亞洲最大的人工智能的計算節(jié)點,我們擁有超過 5000P 的資源算力,也提供非常多的業(yè)界合作,讓合作伙伴們能夠使用他們的大模型在大裝置上做訓(xùn)練,這體現(xiàn)了商湯的深厚積累,不管是在資源層面還是在專家工程認知層面,我們的能力一部分可以標準化,變成軟件和服務(wù),不能標準化的部分,我們可以把它變成專業(yè)類型分類服務(wù),我們希望把這些能力打包提供給整個行業(yè),幫助客戶做好屬于自己的領(lǐng)域模型或模型應(yīng)用。
訓(xùn) AI 大模型,用商湯大裝置。
來源:36氪返回搜狐,查看更多
責(zé)任編輯:
標簽: