長江日報大武漢客戶端5月15日訊(記者李佳 通訊員涂興佩)許多軟件已實(shí)現(xiàn)“以臉?biāo)褕D”功能,通過臉部識別,找到相冊里同一個人的照片,但你試過“以文搜圖”,向計算機(jī)發(fā)出文字指令找尋特定圖片嗎?計算機(jī)能“以文生視頻”,根據(jù)劇本的文字,就自動生成畫面和場景嗎?計算機(jī)能根據(jù)唐詩宋詞“以文生音”、創(chuàng)作出原創(chuàng)歌曲,讓你擁有千人千曲的“經(jīng)典詠流傳”嗎?
能!在武漢,多模態(tài)大模型就能幫助人工智能像人類大腦一樣發(fā)動所有“感官”去“感受”并輸出。
近期,武漢人工智能研究院宣布,聯(lián)合中科院自動化所、華為正在打造“紫東太初”2.0全模態(tài)大模型。該大模型是在全球首個千億參數(shù)三模態(tài)大模型“紫東太初”1.0基礎(chǔ)上升級打造的2.0版本,未來可實(shí)現(xiàn)文本、圖片、音頻、視頻、3D等不同模態(tài)的統(tǒng)一表征和學(xué)習(xí)。這為武漢發(fā)展人工智能應(yīng)用,提供了無限的想象空間。
去年,武漢獲國家支持創(chuàng)建“國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)”。今年年初,《武漢建設(shè)國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)實(shí)施方案(2023-2025年)(征求意見稿)中,就旗幟鮮明提出,武漢要“構(gòu)筑大模型應(yīng)用創(chuàng)新高地”,并提出“形成全球領(lǐng)先的跨模態(tài)理解與生成能力”。
到底啥叫“大模型”?如今大熱的ChatGPT便是建立在OpenAI的GPT-3.5系列大型語言模型之上的。基于大模型的AI應(yīng)用改變了用戶使用數(shù)據(jù)的方式,未來,無論企業(yè)還是個人所產(chǎn)生的任何數(shù)據(jù),都可以被用來訓(xùn)練大模型的產(chǎn)品,從而為企業(yè)帶來相關(guān)的價值。
據(jù)不完全統(tǒng)計,截至目前中國已有超過40家公司、機(jī)構(gòu)發(fā)布了大模型產(chǎn)品或公布了大模型計劃。而在這些公司里,不乏百度、阿里巴巴、字節(jié)跳動、華為、小米等頭部企業(yè),多在北京、深圳、上海、杭州等地。
武漢在這一版圖上也占有一席。2022世界人工智能大會最高獎“卓越人工智能引領(lǐng)者獎”獲得者、全球首個三模態(tài)大模型“紫東太初”,就是中國科學(xué)院自動化研究所和華為在漢聯(lián)合開發(fā)的,這一大模型應(yīng)用了武漢人工智能計算中心的算力,并在漢孕育武漢人工智能研究院。
中科院自動化所“紫東太初”大模型研究中心常務(wù)副主任、武漢人工智能研究院院長王金橋介紹,武漢提出,基于大模型支持工業(yè)質(zhì)檢、影視創(chuàng)作、智慧醫(yī)療、互聯(lián)網(wǎng)推薦、智能駕駛等場景應(yīng)用,構(gòu)建產(chǎn)業(yè)創(chuàng)新生態(tài),而這正是“紫東太初”大模型擅長的。
例如在工業(yè)檢測領(lǐng)域,以往通過人工檢測存在主觀性,工作效率低,無法實(shí)時監(jiān)測,利用AI檢測算法可增強(qiáng)檢測的客觀性,提高檢測效率,實(shí)時檢測促使實(shí)時糾正。在法律案件分析上,通過“紫東太初”多模態(tài)大模型,一個交通事故的案例分析,包括事件的提取、責(zé)任的判定只需要0.5秒左右,可以使相關(guān)法律案件研判的效率提升100倍左右,目前也已經(jīng)應(yīng)用在武漢相關(guān)法律企業(yè)。再如智慧交通領(lǐng)域,利用多模態(tài)感知數(shù)據(jù)以及各個路口控制的信號,可以實(shí)現(xiàn)路網(wǎng)三模態(tài)數(shù)據(jù)的優(yōu)化和決策,使道路通用率提升30%,助力武漢智慧交通再升級。
王金橋介紹,產(chǎn)業(yè)應(yīng)用層面,圍繞多模態(tài)大模型技術(shù)及應(yīng)用,武智院聯(lián)合中科院自動化所打造的多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體已陸續(xù)吸納產(chǎn)學(xué)研各界近70家成員單位,共同探索通用人工智能產(chǎn)業(yè)化路徑。