當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

與其造神,不如依靠群體的力量:這家公司走出了一條不同于OpenAI的AGI路線

 2024-09-30 11:40  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

看過劇版《三體》的讀者或許都記得一個名場面:來自三體的智子封鎖了人類科技,還向地球人發(fā)出了「你們是蟲子」的宣告。但沒有超能力的普通人史強卻在蝗群漫天飛舞的麥田中喊出:「把我們?nèi)祟惪闯墒窍x子的三體人,他們似乎忘了一個事實,那就是蟲子從來就沒有被真正地戰(zhàn)勝過」。

三體人看到的是單個蟲子脆弱的一面 —— 你可以輕松踩死一只螞蟻,打死一只蝗蟲、蜜蜂。但他們沒有看到的是,當(dāng)這些蟲子集結(jié)在一起時,它們可以涌現(xiàn)出遠(yuǎn)超個體簡單相加的力量。

科學(xué)家們很早就發(fā)現(xiàn)了這種力量,并將其命名為「群體智能」(Swarm Intelligence)。這種智能不是由某個中央大腦控制,而是通過個體間的簡單互動和信息交換自然形成的。它是一種集體智慧的體現(xiàn),是自然界中一種奇妙而高效的協(xié)作方式。

其實,從宏觀上說,人類社會的不斷發(fā)展和演化也是一種群體智能現(xiàn)象,絕大多數(shù)文明成果都是人類個體在長期群體化、社會化的生產(chǎn)生活中逐漸演化形成的產(chǎn)物。

那么,人工智能的發(fā)展能否借鑒這種模式?答案自然是「能」。但長期以來,由于機器的個體智能化程度較低等原因,「群體智能」遲遲難以涌現(xiàn)。

生成式 AI 的發(fā)展或許可以推動這些問題的解決,也讓「群體智能」獲得了新一輪的關(guān)注。

「這波生成式 AI 相當(dāng)于把個體的智能化水平提升上去了。而個體智能的提升,意味著群體的智能有望實現(xiàn)指數(shù)級增長。」在近期的一次訪談中,RockAI CEO 劉凡平向機器之心表達(dá)了這樣的觀點。

RockAI 是一家成立于 2023 年 6 月的 AI 初創(chuàng),他們自研了國內(nèi)首個非 Attention 機制的 Yan 架構(gòu)通用大模型,并將這個大模型部署在了手機、PC、無人機、機器人等多種端側(cè)設(shè)備上,還嘗試讓自己的大模型在這些設(shè)備上實現(xiàn)「自主學(xué)習(xí)」能力。

而這一切均服務(wù)于一個宏大的目標(biāo) —— 讓每一臺設(shè)備都擁有自己的智能,而且是可以像人類一樣實時學(xué)習(xí)、個性化自主進化的系統(tǒng)。劉凡平認(rèn)為,當(dāng)這些擁有不同能力、不同個性的智能單元得以協(xié)同,即可完成數(shù)據(jù)共享、任務(wù)分配和策略協(xié)調(diào),涌現(xiàn)出更為宏大、多元的群體智能,最終實現(xiàn)個性化與群體智能的和諧統(tǒng)一,開啟人與機器的智能新時代。

那這一切怎么去實現(xiàn)呢?在訪談中,劉凡平和鄒佳思(RockAI 聯(lián)合創(chuàng)始人)向機器之心分享了他們的路線圖和最新進展。

一條不同于 OpenAI 的 AGI 路線

前面提到,「群體智能」的研究進展受限于單個個體的智能化程度,所以研究者們首先要解決的問題就是讓單個個體變得足夠聰明。

要說「聰明」,OpenAI 的模型可以說是出類拔萃。但從目前的情況來看,他們似乎更側(cè)重于訓(xùn)練出擁有超級智能的單個大模型。而且,這條路線走起來并不容易,因為它高度依賴海量的數(shù)據(jù)和計算資源,這在能源、數(shù)據(jù)和成本上都帶來了可持續(xù)性的問題。

此外,通過一個超級智能模型來處理所有任務(wù)是一種高度中心化的模式,這在實踐中容易出現(xiàn)智能增長的瓶頸,因為單一模型缺乏靈活的適應(yīng)能力和協(xié)作效應(yīng),導(dǎo)致其智能提升速度受到限制。

那么,OpenAI 未來有沒有可能也走群體智能的路線?這個問題目前還沒有明確答案。但可以看到的一點是,以該公司和其他大部分公司當(dāng)前采用的 Transformer 架構(gòu)去構(gòu)建群體智能的單個個體可能會遇到一些障礙。

首先是高算力需求的障礙。以 Attention 機制為基礎(chǔ)的 Transformer 架構(gòu)對計算資源的需求非常高,其計算復(fù)雜度為 O (n^2)(n 為序列長度)。這意味著隨著輸入序列的增長,計算成本急劇增加。在構(gòu)建群體智能時,我們需要多個單元大模型協(xié)同工作,而這些單元大模型往往部署在低算力的設(shè)備上(如無人機、手機、機器人等)。如果不經(jīng)過量化、裁剪等操作,Transformer 架構(gòu)的模型很難在低算力設(shè)備上直接部署。所以我們看到,很多公司都是通過這些操作讓模型成功在端側(cè)跑起來。

但對于群體智能來說,光讓模型跑起來還不夠,還要讓它們具備自主學(xué)習(xí)的能力。在劉凡平看來,這一點至關(guān)重要。

他解釋說,在一個沒有自主學(xué)習(xí)的群體中,最聰明的個體會主導(dǎo)其他智能體的決策,其他智能體只能跟隨它的指引。這種情況下,群體智能的上限就是最聰明個體的水平,無法超越。但通過自主學(xué)習(xí),每個智能體都可以獨立提升自身的智能水平,并逐漸接近最聰明的個體。而且,自主學(xué)習(xí)促進了知識共享,類似于人類的知識傳承。這樣,群體中的所有智能體都會變得更聰明,群體整體的智能水平有望實現(xiàn)指數(shù)級增長,遠(yuǎn)遠(yuǎn)超出簡單的個體累加。

而量化、裁剪等操作最致命的問題,就是破壞了模型的這種自主學(xué)習(xí)能力?!府?dāng)一個模型被壓縮、量化、裁剪之后,這個模型就不再具備再學(xué)習(xí)的能力了,因為它的權(quán)重已經(jīng)發(fā)生了變化,這種變化基本是不可逆的。這就像我們把一個螺絲釘釘入墻中,如果在敲入的過程中螺絲釘受到損壞,那么想要把它取出來重新使用就變得很困難,讓它變得更鋒利就變得不可能?!箘⒎财浇忉屨f。

講到這里,實現(xiàn)群體智能的路線其實就已經(jīng)非常清晰了:

首先,你要在架構(gòu)層面做出改變,研發(fā)出一種可以克服 Transformer 缺陷的新架構(gòu)。

然后,你要將基于這個架構(gòu)的模型部署到各種端側(cè)設(shè)備上,讓模型和這些設(shè)備高度適配。

接下來,更重要的一點是,這個架構(gòu)的模型要能夠在各種端側(cè)設(shè)備上自主學(xué)習(xí),不斷進化。

最后,這些模型與端側(cè)設(shè)備結(jié)合成的智能體要能夠自主協(xié)作,共同完成任務(wù)。

這其中的每個階段都不簡單:

在第一階段,新架構(gòu)不止要具備低算力、部署到端側(cè)原生無損的特點,還要具備可以媲美 Transformer 架構(gòu)的性能,保證單個個體足夠聰明且可以自主學(xué)習(xí)。

在第二階段,「大腦和身體」的高度適配涉及感知層面和數(shù)據(jù)處理的不同模態(tài),每種設(shè)備有著不同的需求,這增加了模型和設(shè)備適配的復(fù)雜性。

在第三階段,讓模型部署之后還可以學(xué)習(xí)就意味著要挑戰(zhàn)現(xiàn)有的訓(xùn)練、推理完全分離的機制,讓模型參數(shù)在端側(cè)也可以調(diào)整,且調(diào)整足夠快、代價足夠小。這就涉及到對傳統(tǒng)反向傳播機制的挑戰(zhàn),需要的創(chuàng)新非常底層。

在第四階段,主要挑戰(zhàn)是如何實現(xiàn)智能體之間的有效協(xié)作。這個過程要求智能體自主發(fā)現(xiàn)并形成完成任務(wù)的最佳方案,而不是依賴于人為設(shè)定或程序預(yù)設(shè)的方案。智能體需要根據(jù)自己的智能水平來決定協(xié)作的方式。

這些難點就決定了,RockAI 必須走一條不同于 OpenAI 的路線,挑戰(zhàn)一些傳統(tǒng)的已經(jīng)成為「共識」的方法。

劉凡平提到,在前兩個階段,他們已經(jīng)做出了一些成果,針對第三、四個階段也有了一些實驗和構(gòu)想。

群體智能的單元大模型 ——Yan 1.3

第一階段的標(biāo)志性進展是一個采用 Yan 架構(gòu)(而非 Transformer 架構(gòu)或其變體)的大模型。這個模型的 1.0 版本發(fā)布于今年的 1 月份,為非 Attention 機制的通用自然語言大模型。據(jù)了解,該模型有相較于同等參數(shù) Transformer 的 7 倍訓(xùn)練效率、5 倍推理吞吐和 3 倍記憶能力。而且,這一模型 100% 支持私有化部署應(yīng)用,不經(jīng)裁剪和壓縮即可在主流消費級 CPU 等端側(cè)設(shè)備上無損運行。

經(jīng)過半年多的攻關(guān),這一模型剛剛迎來了最新版本 ——Yan 1.3。

Yan 1.3 是一個 3B 參數(shù)的多模態(tài)模型,能夠處理文本、語音、視覺等多種輸入,并輸出文本和語音,實現(xiàn)了多模態(tài)的模擬人類交互。

盡管參數(shù)量較小,但其效果已超越 Llama 3 8B 的模型。而且,它所用的訓(xùn)練語料比 Llama 3 要少,訓(xùn)練、推理算力也比 Llama 3 低很多。這在眾多非 Transformer 架構(gòu)的模型中是一個非常領(lǐng)先的成績,其訓(xùn)練、推理的低成本也讓它比其他架構(gòu)更加貼近工業(yè)化和商業(yè)化。

這些出色的性能得益于高效的架構(gòu)設(shè)計和算法創(chuàng)新。

在架構(gòu)層面,RockAI 用一個名叫 MCSD(multi-channel slope and decay)的模塊替換了 Transformer 中的 Attention 機制,同時保留 Attention 機制中 token 之間的關(guān)聯(lián)性。在信息傳遞過程中,MCSD 強調(diào)了有效信息的傳遞,確保只有最重要的信息被傳遞給后續(xù)步驟,而且是以 O (n) 的復(fù)雜度往下傳,這樣可以提高整體效率。在驗證特征有效性和 token 之間的關(guān)聯(lián)性方面,MCSD 表現(xiàn)優(yōu)秀。

在算法層面,RockAI 提出了一種類腦激活機制。這是一種分區(qū)激活的機制,就像人開車和寫字會分別激活腦部的視覺區(qū)域和閱讀區(qū)域一樣,Yan 1.3 會根據(jù)學(xué)習(xí)的類型和知識范圍來自適應(yīng)調(diào)整部分神經(jīng)元,而不是讓全量的參數(shù)參與訓(xùn)練。推理時也是如此。具體有哪些神經(jīng)元來參與運算是由仿生神經(jīng)元驅(qū)動的算法來決定的。

在今年的 GTC 大會上,Transformer 論文作者之一 Illia Polosukhin 提到,像 2+2 這樣的簡單問題可能會使用大模型的萬億參數(shù)資源。他認(rèn)為自適應(yīng)計算是接下來必須出現(xiàn)的事情之一,我們需要知道在特定問題上應(yīng)該花費多少計算資源。RcokAI 的類腦激活機制是自適應(yīng)計算的一種實現(xiàn)思路。

這或許聽起來和 MoE 有點像。但劉凡平解釋說,類腦激活機制和 MoE 有著本質(zhì)的區(qū)別。MoE 是通過「專家」投票來決定任務(wù)分配,每個「專家」的網(wǎng)絡(luò)結(jié)構(gòu)都是固定的,其結(jié)果是可預(yù)測的。而類腦激活機制沒有「專家」,也沒有「專家」投票的過程,取而代之的是神經(jīng)元的選擇過程。其中的每個神經(jīng)元都是有價值的,選擇的過程也是一個自學(xué)習(xí)的過程。

這種分區(qū)激活機制在 MCSD 的基礎(chǔ)上進一步降低了 Yan 架構(gòu)模型的訓(xùn)練、推理計算復(fù)雜度和計算量。

「這也符合人類大腦的運行方式。人腦的功耗只有二十幾瓦,如果全部的 860 億個神經(jīng)元每次都參與運算,大腦產(chǎn)生的生物電信號肯定是不夠用的?!箘⒎财秸f道。目前,他們的類腦激活機制已經(jīng)得到了腦科學(xué)團隊的理論支持和實際論證,也申請到了相關(guān)專利。

以端側(cè)設(shè)備為載體,邁向群體智能

在 Yan 1.3 的發(fā)布現(xiàn)場,我們看到了該模型在 PC、手機、機器人、無人機等端側(cè)設(shè)備的部署情況。鑒于 Yan 1.2 發(fā)布時甚至能在樹莓派上運行,這樣的端側(cè)部署進展并不令我們感到意外。

那么,為什么一定要把模型部署在端側(cè)呢?云端的模型不行嗎?鄒佳思提到,這是因為模型要跟機器本體做高度適配。以機器人為例,設(shè)備的很多參數(shù)是難以與云端大模型融合。端側(cè)大模型更容易讓機器人肢體協(xié)調(diào)、大小腦協(xié)同工作。

而且我們知道,這些端側(cè)智能體的潛力才剛剛顯露。畢竟,以上創(chuàng)新的目標(biāo)不只是讓模型能夠在端側(cè)跑起來(當(dāng)前很多模型都能做到這一點),而是使其具備自主學(xué)習(xí)的能力,作為「群體智能的單元大模型」持續(xù)進化。無論是 Yan 架構(gòu)的「0 壓縮、0 裁剪」無損部署,還是分區(qū)激活的高效計算,都是服務(wù)于這一目標(biāo)。這是 RockAI 和其他專注于端側(cè) AI 的公司的一個本質(zhì)區(qū)別。

「如果我們拿一個 10 歲的孩子和一個 30 歲的博士來比,那肯定 30 歲的博士知識面更廣。但是,我們不能說這個 10 歲的孩子在未來無法達(dá)到甚至超越這位博士的成就。因為如果這個 10 歲的孩子自我學(xué)習(xí)能力足夠高,他的未來成長速度可能比 30 歲的博士還要快。所以我們認(rèn)為,自主學(xué)習(xí)能力才是衡量一個模型智能化程度的重要標(biāo)志?!箘⒎财秸f道。可以說,這種自主學(xué)習(xí)能力才是 RockAI 追求的「scaling law」。

為了實現(xiàn)這種自主學(xué)習(xí)能力,RockAI 的團隊提出了一種「訓(xùn)推同步」機制,即讓模型可以在推理的同時,實時有效且持續(xù)性地進行知識更新和學(xué)習(xí),最終建立自己獨有的知識體系。這種「訓(xùn)推同步」的運行方式類似于人類在說話的同時還能傾聽并將其內(nèi)化為自己的知識,對底層技術(shù)的要求非常高。

為此,RockAI 的團隊正在尋找反向傳播的更優(yōu)解,方法也已經(jīng)有了一些原型,并且在世界人工智能大會上進行過展示。不過,他們的方法原型目前仍面臨一些挑戰(zhàn),比如延遲。在后續(xù) Yan 2.0 的發(fā)布中,我們有望見到原型升級版的演示。

那么,在每一臺設(shè)備都擁有了智能后,它們之間要怎么聯(lián)結(jié)、交互,從而涌現(xiàn)出群體智能?對此,劉凡平已經(jīng)有了一些初步構(gòu)想。

首先,它們會組成一個去中心化的動態(tài)系統(tǒng)。在系統(tǒng)中,每臺設(shè)備都擁有自主學(xué)習(xí)和決策的能力,而不需要依賴一個中央智能來控制全局。同時,它們之間又可以共享局部數(shù)據(jù)或經(jīng)驗,并通過快速的通信網(wǎng)絡(luò)互相傳遞信息,從而在需要時發(fā)起合作,并利用其他智能體的知識和資源來提升任務(wù)完成的效率。

路線「小眾」,挑戰(zhàn)與機遇并存

縱觀國內(nèi) AI 領(lǐng)域,RockAI 走的路可以說非?!感”姟?因為里面涉及到非常底層的創(chuàng)新。在硅谷,有不少人在做類似的底層研究,就連「神經(jīng)網(wǎng)絡(luò)之父」Hinton 也對反向傳播的一些限制表示過擔(dān)憂,特別是它與大腦的生物學(xué)機制不符。不過,大家目前都還沒有找到特別有效的方法,因此這一方向還沒有出現(xiàn)明顯的技術(shù)代差。對于 RockAI 這樣的國內(nèi)企業(yè)來說,這既是挑戰(zhàn),也是機遇。

對于群體智能,劉凡平相信,這是一條邁向更廣泛的通用人工智能的路線,因為它的理論基礎(chǔ)是非常堅實的,「如果沒有群體智能,就沒有人類社會的文明,更不會有科技的發(fā)展」。

而且,劉凡平認(rèn)為,群體智能所能帶來的生產(chǎn)力變革比擁有超級智能的單個大模型所能帶來的更全面、更多樣。隨著自主架構(gòu)大模型的研發(fā)成功和多元化硬件生態(tài)的構(gòu)建,他們相信自己正在逐漸接近這一目標(biāo)。

我們也期待看到這家公司的后續(xù)進展。

 

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦