一場還不入局就會被淘汰的游戲,已經在全球拉開帷幕。
去年底,自ChatGPT這個略顯拗口的名字在全球引爆對話式風潮,微軟、亞馬遜、谷歌等大廠入局其中的消息,就像接連丟進水中的石子,不斷在科技領域激起浪花。
其中,微軟作為ChatGPT背后母公司的投資人最早押下重注,于本周宣布在所有產品線內集成ChatGPT能力。而當ChatGPT將取代搜索引擎的論調甚囂塵上,谷歌也坐不住了,于北京時間2月7日宣布將推出自己的對話式機器人"Bard"(吟游詩人)。
就在同天,百度官宣將基于自家的文心大模型,推出類ChatGPT的產品"文心一言"。當日下午,國內搜索引擎市場的第二名360緊隨其后,披露自家已在內部使用這類產品,同樣計劃盡快推出類ChatGPT的Demo版產品。消息發出兩小時后,其股價應聲漲停。
新消息還在持續。北京時間2月8日凌晨,微軟在媒體發布會上宣布開放ChatGPT支持的搜索引擎Bing。
而在官宣消息紛飛的背后,不難發現幾乎每個追趕ChatGPT的大廠,都在提及"大模型"的概念。
百度在短短數行的官宣中,專門花去一段介紹自家的AI四層架構布局,并重點提及文心大模型。谷歌CEO桑達爾·皮查伊也表示,自家的AI對話式機器人"Bard"(吟游詩人),由大模型LaMDA提供支持。
360的披露十分坦率,表示自家布局ChatGPT類產品的優勢在于數據和語料,在預訓練大模型方面還存在短板。
ChatGPT和大模型是一體兩面的關系。表面看,ChatGPT是一個具備聊天、咨詢、撰寫詩詞作文等能力的對話式機器人。但本質上,它是基于AI大模型而產生的應用——如果沒有大模型的能力支撐,如今引爆全球的ChatGPT或將不會誕生。
ChatGPT能達到如今"上知天文、下知地理"的效果,離不開基于海量數據而生的大模型——是大模型,讓它理解并使用人類語言,并近乎真實地進行對話和互動。
海量數據是大模型的基礎。顧名思義,這是一種通過億級的語料或者圖像進行知識抽取、學習,進而產生的億級參數模型。而ChatGPT,是OpenAI GPT-3模型調整后的產物。在參數量上,GPT-3模型擁有1750億參數。
這帶來超乎想象的突破——基于大量文本數據(包括網頁、書籍、新聞等等),ChatGPT獲得了對不同類型的話題進行回答的能力。再加上學習方法的差異性,ChatGPT能夠發散式地解答問題。
大模型不是新鮮事物,在2015年左右業內已有討論。但在大模型出現的背后,其實蘊藏著一場人工智能落地模式的變革。
作為人工智能最重要的組成部分之一,機器學習的落地長期依賴數據模型。它需要大量的數據來訓練模型,以便讓計算機系統得以從數據中進行學習。
簡單從效果總結,當數據量越大,機器學習得以學習的基礎越多,讓效果更精準、更智能的可能性就越高。
這也意味著,在數據量不夠大的過去,機器學習的發展會受到阻礙。而伴隨著PC和移動互聯的進展,機器學習生存的基礎——數據量也呈幾何式增長。由此產生的一個現象是,從1950年到2018年,模型參數增長了7個數量級。而在2018年之后的4年內,模型參數增長了5個數量級,從數億個達到超千億水平。
也就是說,當數據量充足,機器學習就具備進一步升級的可能,而這個可能性在2018年已經存在。
但是,僅有數據還不夠,伴隨著數據使用而來的,還有遞增的成本——機器學習環節中使用的數據量越大,所需的數據標注、數據清洗、人工調參等成本也就越高。高質量的標注數據難以獲得,讓整件事的投入產出比打了折。
為了解決這個問題,機器學習的落地方式也發生變化。
如今,機器學習主要分為監督學習、無監督學習和半監督學習三種學習方法。大模型,與無監督學習、半監督學習息息相關。
早前,構建機器學習的主流方法是監督學習。也就是先收集數據,再通過強人工干預/監督的方式,喂給模型一套經過人工校驗的輸入和輸出組合,讓模型通過模仿,完成學習。
“在完成標注、清洗環節后,我會給機器輸入一組數據,并反饋學習結果的正確或者錯誤,讓它找到參數之間的關聯并進行優化?!币晃辉鴧⑴c過算法調優的產品經理表示。
而無監督學習不需要打標,而且在訓練數據中,只給定輸入,沒有人工給出正確的輸出,目的是讓模型開放式地、自己學習數據之間的關系。
半監督學習則處于兩者之間。在這種學習方式中,模型會嘗試從未標記的數據中提取信息來改進它的預測能力,同時也會使用已標記的數據來驗證它的預測結果。
也就是說,相比過去的監督學習,無監督學習和半監督學習節省了更多成本,降低了對高質量標注數據的依賴。
“如果沒有無監督學習,大模型很可能是訓練不出來的?!币晃粰M跨學術、商業兩界的AI專家不久前告訴36氪。
當然,ChatGPT能橫空出世,降低數據處理成本并不是最重要的。
在監督學習的模式下,人工"調教"的數據經常來自于一些屬于特定領域、整體數量不大的數據集。這會導致,一旦某個領域的模型要應用到其他領域,就會出現難以適應的情況,也就是所謂的"模型泛化能力不佳"。
舉個例子,在問答數據集上表現不錯的模型,用到閱讀理解上很可能產生不盡如人意的結果。
而大模型的誕生,能夠相對解決"泛化能力"不佳的問題,也就是變得更通用,這才是大家對此躍躍欲試的原因。
能做到這一效果也是因為,大模型基于互聯網公開的海量數據進行訓練,沒有以特定的小數量數據作為基礎。這種方式,更可能訓練出一套適用多個場景的通用基礎模型——這同樣是ChatGPT能回答各種五花八門問題的重要原因。
總而言之,大模型的落地是機器學習的一個里程碑,也是打開ChatGPT魔盒的關鍵鑰匙。
回顧ChatGPT的迭代,可以看到一部大模型自我升級的歷史。在這個過程里,OpenAI至少進行了三次技術路線的"自我革命"。
前文提到,ChatGPT基于OpenAI的第三代大模型GPT-3升級而來,也就是在GPT3.5上進行微調而誕生。
從名稱也能看出,OpenAI此前還發布了GPT-1、GPT-2和GPT-3。這幾代GPT的落地方式不盡相同。
第一代生成式預訓練模型GPT-1于2018年被推出。GPT-1的學習方式是半監督學習,也就是先用無監督學習的方式,在8個GPU上花費1個月從大量未標注數據中學習,然后再進行有監督的微調。
這樣做的好處是,只需要微調,就可以增強模型的能力,減少對資源和標注數據的需求。
但問題在于,GPT-1的數據較少,和如今的動輒千億對比,當時1億多的參數量似乎少的可憐。這使得,GPT-1模型整體對世界的認識不夠全面和準確,并且泛化性依然不足,在一些任務中的性能表現不佳。
在GPT-1推出一年后,GPT-2正式面世。這一代的GPT在底層架構上和"前輩"沒有差別,但在數據集方面,GPT-2有著40GB的文本數據、800萬個文檔,參數量也大幅突破到了15億個。
有研究顯示,參數量爆發的GPT-2,生成的文本幾乎與《紐約時報》的真實文章一樣令人信服。這也讓更多人意識到無監督學習下,大模型的價值所在。
伴隨著每年一更新的頻率,2020年,GPT-3如約而至。這次的GPT-3,在模型參數上達到了1750億個,類型上也包含了更多的主題文本。相對GPT-2,這次的新版本已經可以完成答題、寫論文、文本摘要、語言翻譯和生成計算機代碼等任務。
需要指出的是,此時的GPT-3依然走的是無監督學習、大參數量的路線,而到了2022年,情況發生了不小的變化。
這一年,在GPT-3的基礎上,OpenAI推出了InstructGPT。OpenAI表示,InstructGPT 是 GPT3 的微調版本,在效果上降低了有害的、不真實的和有偏差的輸入。而ChatGPT與InstructGPT除卻訓練模型的數據量不同,并無太大差異。
問題來了,為什么InstructGPT和ChatGPT可以進一步提升智能性,優化人們的交互體感?
背后原因在于,OpenAI在2022年發布的這兩個模型,從技術路線上又開始看重人工標注數據和強化學習——也就是從人類反饋(RLHF) 中強化學習。據介紹,這一次OpenAI使用一小部分人工標記的數據來構建獎勵模型。
粗看下來,無監督學習下的大模型路線特點在于數據量大,和降低數據標注和人工依賴——這是GPT-2和GPT-3的核心。
而InstructGPT和ChatGPT的路線,則像是階段性重回了人工路線。
這種變化看似劇烈,但其實是為了讓AI產品更好用而產生的調整。拆解背后邏輯,ChatGPT的訓練離不開大模型基礎,但其中引入的人工標注數據和強化學習,則可以讓大模型更理解信息的含義,并進行自我判斷——也就是更貼近理想中的人工智能效果。
也就是說,之前的無監督學習給定輸入,不給出正確的輸出,讓模型得以在海量數據的基礎上"自由發展",具備人工智能的基本素質。
但此時加入人類對大模型學習結果的反饋,會讓模型更理解輸入自身的信息和自身輸出的信息,變得更好用。落在具體場景中,經過人類反饋的ChatGPT,可以提升判斷用戶提問意圖(即輸入)和自身答案質量(即輸出)的能力。
為了達成更好的效果,有信息顯示,OpenAI招聘了40個博士來進行人工反饋工作。
對人工智能中的人力工作先拋棄再撿回,這看似前后矛盾的做法,也得到不少行業人士肯定。
比如,京東集團副總裁、IEEE Fellow何曉冬不久前對媒體表示,相較之前大量使用無監督深度學習算法,ChatGPT模型背后的算法和訓練過程更加新穎。如果沒有人的數據甄選,模型參數即便大十幾倍,也很難達到如今效果。
“在某種意義上,這其實是對過去一味追求(參數)大和追求無監督學習的一個路線修正?!焙螘远偨Y。
當然,即使重新重視人工反饋,也不意味著OpenAI完全放棄此前的堅持。有分析指出,ChatGPT的訓練主要分為了三個階段,前兩個階段人工反饋非常重要,但在最后一公里上,ChatGPT只需要學習在第二階段訓練好的反饋模型,并不需要強人工參與。
從GPT-1、2、3到InstructGPT和ChatGPT,OpenAI這五年的模型迭代之路似乎也是一場自我改革。
這同樣說明,把某類技術推演到極致,并不是這家公司的堅持——不論是無監督學習、自監督學習還是半監督學習,從來不是為了煉就大模型,而是想讓AI更智能。
即便大模型的能力隨著ChatGPT的爆紅而走向臺前,但業界的爭議依舊無法掩飾。
從商業模式來看,當大模型變得更通用,更多企業可以依賴大模型的基礎,進行更偏自身業務屬性的微調。這樣做在理論上的好處是,不少企業可以省去很多訓練模型的成本,而推出大模型的公司,可以向前者收取調取大模型的費用。
但36氪發現,這一思路當前也在被一些產業人士"吐槽"。
一家AIGC公司的創始人告訴36氪,這件事不僅是錢和成本的問題,重點是調用第三方大模型存在很多限制,會對自家業務造成影響。
"比如,你很難針對一些應用場景來做優化。"他舉例,如果想做聲音模擬和形象模擬的綜合型需求,需要模型提供方提供綜合能力,而一旦有一個技術點不到位,就會導致產品效果不佳。
吐槽效果之外,36氪還了解到業內有公司在通過算法優化的方式,期望降低大模型落地的成本。
但本質上,大模型無疑是一個天生適合巨頭的生意——這從其成本投入上可見一斑。
從流程上拆解,構建一個大模型至少需要足夠的數據處理、計算和網絡能力。
拿流程上游的數據處理來說,無監督學習能解決一部分數據標注的成本,但此前的數據收集、數據清洗成本依然難以降低。而且這些工作經常需要依賴人工,難以完全工具化,
再看計算和網絡,大模型的訓練任務場景動輒需要幾百甚至幾千張GPU卡的算力。這意味著在算力之外,當服務器節點眾多,跨服務器通信需求大,網絡帶寬性能亦成為GPU集群瓶頸,高性能計算網絡也隨之成為一個話題。
具體的數字更具說服力。有報道指出,Stability AI此前僅計算就需要花費約2000萬美元。而如果僅拿大模型去做微調和推理,本地也需要好幾千GB的內存。潞晨科技創始人尤洋也曾提及,想把大模型部署到生產線,若一個企業從零開始自己做會需要70人左右的人力。而在歐美地區光是養活70個人,成本就需要2000萬美金。
大廠對大模型的高價入場券并不諱言。去年年底,一位國內頭部互聯網公司的數據部門負責人對36氪直言,如果中型公司想要復刻大模型之路,在他看來是一個十分不經濟、不理性的行為。他進一步表示,就算是這家市值早超百億美元的公司,做大模型的初衷也是為服務自身內部的業務——也就是讓需要AI能力的各業務部門擁有統一的能力支撐,避免多重內耗。
所以,大廠收割底層大模型,中小公司選取更適合自己業務特點的大模型,并基于此建立起行業應用,是相對合理的路線。換言之,AI領域會重現國內云計算的格局。
大廠熱情勃發,帶來另一個有趣現象,就是自2020年起,中國的大模型數量驟增。根據統計,僅在2020年到2021年,中國大模型數量就從2個增至21個,和美國量級同等,大幅領先于其他國家。
來源:IDC
即便剔除大廠的勁頭,這一現象的出現也有著國情合理性。首先,大模型底層更依賴工程能力,再加上中國作為人口和移動互聯大國,數據量天然眾多。這兩個前提,讓中國天生具備打造大模型的優勢。
然而不論是國內還是國外,大模型都同時面臨著一個靈魂拷問——當數據量越疊越大,底層算力又無法承載時,大模型之路是否還能走通?這一問題對中國來說更需重視,畢竟國內對底層硬件能力的突破,還處于漫漫征途中。
或許對中國的從業者而言,這次ChatGPT的爆紅只是一個表面現象,更深的啟示在于看到OpenAI對大模型落地的"自我迭代"。
畢竟,這家公司已用至少五年的自我博弈過程告訴所有人,一味"煉"就大模型不是目的,讓AI真正可用好用,才是終章。
網站建設咨詢
在線溝通,請點我在線咨詢
建站咨詢熱線:
0543-3212760
售后電話:
0543-3212760