我們正在經(jīng)歷一場(chǎng)聲勢(shì)浩大的 AI 新基建大潮。
(資料圖片)
半年之內(nèi),大模型從小范圍共識(shí)迅速擴(kuò)散。中信所發(fā)布的報(bào)告顯示,目前已發(fā)布的參數(shù)模型超過(guò) 10 億的大模型數(shù)量已經(jīng)接近 80 個(gè),一半來(lái)自企業(yè),一半來(lái)自科研機(jī)構(gòu)。
國(guó)內(nèi)大模型生態(tài)逐漸形成的過(guò)程中,也開(kāi)始剝離對(duì) OpenAI 的追隨逐漸尋找適合自己的道路。衡量大模型成功與否的標(biāo)準(zhǔn),也從硬橋硬馬的參數(shù)競(jìng)賽,來(lái)到了真刀真槍的解決問(wèn)題上。
商湯科技在今年 4 月首次公布了 " 日日新 SenseNova" 的大模型體系,發(fā)布了包括自研中文大語(yǔ)言模型 " 商量 SenseChat" 在內(nèi)的多個(gè) AI 大模型及應(yīng)用。近日在世界人工智能大會(huì)上,商湯科技宣布了 " 日日新 SenseNova 大模型 " 體系的第一次重大迭代。大語(yǔ)言模型 " 商量 " 升級(jí)到 2.0 版本。
它更強(qiáng)了。在整個(gè)商湯科技大模型布局體系中,它的作用也愈發(fā)明顯。
更強(qiáng)的 " 商量 2.0"
怎么直觀體現(xiàn) " 商量 2.0" 的能力提升? 商湯科技董事長(zhǎng)兼 CEO 徐立在現(xiàn)場(chǎng)演示了老子與孔子之間的一場(chǎng)并不存在的對(duì)話(huà)。
" 商量 2.0" 的回答圍繞 " 道 " 來(lái)進(jìn)行。孔子向老子問(wèn)道,老子雖然已經(jīng)悟道,但無(wú)法與孔子言說(shuō),只是拂袖而去。這一場(chǎng)演繹出的對(duì)話(huà)行云流水。" 商量 2.0" 甚至在文中加了一個(gè)玩笑:孔子曰:" 吾聞夫子大名,今日得一見(jiàn),實(shí)乃三生有幸!"
老子笑道:" 非也,吾與汝同道而行,何來(lái)‘三生’?"
并且依據(jù)問(wèn)題,整個(gè)對(duì)話(huà)以文言形式出現(xiàn)。并且為了避免混淆," 商量 2.0" 也在回答的第一句話(huà)寫(xiě)明了 " 這只是虛構(gòu)之作,不應(yīng)被視為歷史的真實(shí)記錄 " 這樣的前提。
" 商量 1.0" 首次推出時(shí),現(xiàn)場(chǎng)的演示已經(jīng)展現(xiàn)了它優(yōu)秀的多輪對(duì)話(huà)以及人機(jī)共創(chuàng)能力。三個(gè)月后," 商量 2.0" 在知識(shí)信息準(zhǔn)確性、邏輯判斷能力、上下文理解能力、創(chuàng)作性等方面都有了更多提升。
比如用 " 商量 2.0" 來(lái)做旅行規(guī)劃,并且吩咐它做成表格:
或者來(lái)考驗(yàn)考驗(yàn)關(guān)于 " 女朋友說(shuō)的都對(duì) " 的事:甚至不只是能讀懂女朋友," 商量 2.0" 還能讀出點(diǎn)反諷或者陰陽(yáng)怪氣的語(yǔ)氣了:這三個(gè)月 " 商量 2.0" 到底經(jīng)歷了什么,其實(shí)看看幾場(chǎng)考試結(jié)果就知道了。在全球范圍內(nèi)的三個(gè)權(quán)威大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)(MMLU、AGIEval、C-Eval)的測(cè)評(píng)結(jié)果中," 商量 2.0" 的表現(xiàn)都超過(guò)了 ChatGPT。除此之外,可能有一些人在前面老子與孔子對(duì)話(huà)的演示照片中注意到了 " 商量 2.0" 出現(xiàn)了 XL 和 S 兩個(gè)版本的分屏演示,這是 " 商量 2.0" 在升級(jí)后增加了更多不同參數(shù)尺寸的大模型以供客戶(hù)選擇,其中最小參數(shù)的模型版本甚至可以跑在手機(jī)終端上。在語(yǔ)言上 " 商量 2.0" 新增了阿拉伯語(yǔ)和粵語(yǔ)等新語(yǔ)種。支持簡(jiǎn)體中文、繁體中文以及英語(yǔ)等多語(yǔ)言之間的交互。并且 " 商量 2.0" 對(duì)超長(zhǎng)文本的支持,也從 2k 提升到 32k,能夠更加充分理解上下文。
對(duì)于商湯科技這樣核心面向 ToB 的大模型廠商來(lái)說(shuō),大模型本身的素質(zhì)只是起點(diǎn),企業(yè)客戶(hù)如何以自己的需求給大模型定義出具體輪廓,后者如何實(shí)現(xiàn)穩(wěn)定的迭代流程并一步步逼近真實(shí)的痛點(diǎn),是最終分勝負(fù)的地方。
開(kāi)放知識(shí)庫(kù)融合能力
商湯科技訓(xùn)練出一個(gè)具備超強(qiáng)的理解、對(duì)話(huà)、推理等能力的 " 商量 2.0" 后,企業(yè)客戶(hù)還可以用自己沉淀下來(lái)的企業(yè)知識(shí)讓大模型變成能夠服務(wù)好自己企業(yè)的 " 專(zhuān)業(yè)人才 "。
如何高效解決這些工程問(wèn)題非常重要。
商湯科技此次推出的 " 商量 2.0" 新增了知識(shí)庫(kù)融合接口,讓企業(yè)可以無(wú)需等待基礎(chǔ)大模型的迭代升級(jí),快速擁有專(zhuān)業(yè)知識(shí)和能力。融合了知識(shí)庫(kù)后,可以增強(qiáng)模型對(duì)知識(shí)更新理解的能力,加強(qiáng)知識(shí)的快速理解和獲取,同時(shí)客戶(hù)訓(xùn)練模型的成本會(huì)大幅降低。商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示:" 有了知識(shí)庫(kù),不需要進(jìn)入到我們的模型本身,就可以比較簡(jiǎn)單、方便地將這個(gè)領(lǐng)域的相應(yīng)知識(shí)總結(jié)在一起 ",并且因?yàn)樾畔⒏訙?zhǔn)確,也解決了幻覺(jué)的問(wèn)題。
作為效率工具的數(shù)字人
" 商量 2.0" 的全面升級(jí)的同時(shí)," 日日新 SenseNova 大模型 " 體系內(nèi) AIGC 平臺(tái)能力也在不斷突破,并且在融合語(yǔ)言大模型能力后,實(shí)現(xiàn)了跨越式提升。
比如前面提到的文生圖創(chuàng)作平臺(tái) " 秒畫(huà) " 此次升級(jí)到了 3.0 版本,模型參數(shù)提升到了 70 億量級(jí),生成圖片的細(xì)節(jié)刻畫(huà)達(dá)到專(zhuān)業(yè)攝影級(jí)別。而在提示詞這個(gè)頭疼問(wèn)題上," 商量 2.0" 為 " 秒畫(huà) 3.0" 提供了提示詞的自動(dòng)擴(kuò)展能力。這意味著用戶(hù)只需要少量簡(jiǎn)單的提示詞就可以達(dá)到一張細(xì)節(jié)豐富的圖像結(jié)果。
而在數(shù)字人領(lǐng)域,此次商湯科技的數(shù)字人視頻生成平臺(tái) " 如影 " 也升級(jí)到了 2.0 版本," 如影 2.0" 的語(yǔ)音和口型流暢度的提升超過(guò) 30%,并且可以實(shí)現(xiàn) 4K 視頻效果。發(fā)布會(huì)上,經(jīng)濟(jì)學(xué)家任澤平、延參法師以及徐立本人的數(shù)字人形象現(xiàn)身,效果足以亂真。
在大模型的落地場(chǎng)景中,數(shù)字人是一個(gè)非常重要的承載方式,近日十分火熱的數(shù)字人直播帶貨就是一個(gè)典型場(chǎng)景。而直播帶貨包括短視頻也是 " 如影 2.0" 在 3 個(gè)月內(nèi)測(cè)和公測(cè)中間,客戶(hù)最聚焦的場(chǎng)景之一。
商湯科技數(shù)字文娛事業(yè)部總經(jīng)理欒青表示,在 AIGC 這個(gè)大框架內(nèi)," 商量 2.0" 可以承擔(dān)短視頻直播的文案和劇本創(chuàng)作。而 " 如影 2.0" 如何在交流上能夠緊跟潮流,也要依靠 " 商量 2.0" 的語(yǔ)言大模型能力去學(xué)習(xí)時(shí)新的短視頻語(yǔ)料。
短視頻和直播場(chǎng)景之外," 如影 2.0" 正在加速進(jìn)入各行各業(yè)。
比如保險(xiǎn)行業(yè),每一個(gè)保險(xiǎn)專(zhuān)員都有為客戶(hù)宣傳新產(chǎn)品或是其他個(gè)性化的服務(wù)型內(nèi)容輸出需求," 如影 2.0" 可以在客戶(hù)的生日或某個(gè)理財(cái)產(chǎn)品發(fā)布的節(jié)點(diǎn)去代替保險(xiǎn)專(zhuān)員做個(gè)性化的內(nèi)容和服務(wù);在教育行業(yè)," 如影 2.0" 已經(jīng)開(kāi)始協(xié)助國(guó)內(nèi)頭部職業(yè)教育平臺(tái)的教師制作教育素材,解決內(nèi)部對(duì)視頻制作的需求。
" 數(shù)字人是一個(gè)很典型的企業(yè)內(nèi)部的效率工具。" 欒青表示。
如影作為一個(gè) AIGC 創(chuàng)作平臺(tái)未來(lái)會(huì)繼續(xù)在視頻生成領(lǐng)域做深,欒青認(rèn)為這是由于內(nèi)容創(chuàng)作正在經(jīng)歷一個(gè)從文字、圖片到視頻的維度變化。
邁向多模態(tài)
由于圖片與視頻信息在真實(shí)世界中的占比極大,遠(yuǎn)超語(yǔ)言信息,對(duì)于真實(shí)世界的理解需求讓基礎(chǔ)大模型的未來(lái)一定會(huì)走向多模態(tài),這一點(diǎn)透過(guò) " 商量 2.0" 已經(jīng)初見(jiàn)端倪。
除了文字," 商量 2.0" 擁有了對(duì)圖片和視頻內(nèi)容的分析能力。
比如,如上圖展示," 商量 2.0" 可以在一張雜亂的辦公桌照片中識(shí)別出具體物件之后,結(jié)合每個(gè)物品的特性來(lái)回答 " 當(dāng)你感覺(jué)熱時(shí),你會(huì)做什么 " 這樣接近流程設(shè)計(jì)的開(kāi)放問(wèn)題;或者在看到一張菜單照片后,幫助用戶(hù)在一個(gè)限定價(jià)格區(qū)間內(nèi)給出點(diǎn)菜方案。最初從計(jì)算機(jī)視覺(jué)的研究切入 AI 領(lǐng)域,已經(jīng)跨過(guò)一次 AI 浪潮的商湯科技更確信這一次大模型拉起的浪潮會(huì)是一次真正的機(jī)會(huì)。現(xiàn)在的大模型研究都是基于 transformer 網(wǎng)絡(luò)架構(gòu)。" 商湯從 2019 年開(kāi)始從事大模型研究,那時(shí)候做視覺(jué)走的就是這條路線(xiàn) ",在商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛看來(lái),今天一些視覺(jué)標(biāo)準(zhǔn)和自然語(yǔ)言標(biāo)準(zhǔn)正在逐漸趨向融合," 我們往多模態(tài)方向發(fā)展的時(shí)候,語(yǔ)言、視覺(jué)開(kāi)始有更加深度的融合,就體現(xiàn)出比較強(qiáng)的這方面的積累和能力。"
我們現(xiàn)實(shí)生活當(dāng)中遇到的很多應(yīng)用場(chǎng)景,如在自動(dòng)駕駛、機(jī)器人等等一系列領(lǐng)域,都要運(yùn)用到多模態(tài)。" 但是多模態(tài)的數(shù)據(jù)和一些任務(wù),往往不容易獲取,需要有很深的行業(yè)積累,這方面也是商湯的優(yōu)勢(shì)所在。" 王曉剛介紹到。
在今年世界人工智能大會(huì),首次公開(kāi)亮相三個(gè)月后,商湯 " 日日新 SenseNova 大模型 " 體系以全面升級(jí)的姿態(tài)對(duì)企業(yè)級(jí)用戶(hù)開(kāi)放。同時(shí)許多人沒(méi)有注意到,商湯還聯(lián)合上海人工智能實(shí)驗(yàn)室一起發(fā)布了書(shū)生多模態(tài)大模型。未來(lái),商湯是否能率先找到?jīng)Q勝多模態(tài)之路的鑰匙,很值得期待。
關(guān)鍵詞: