www.woniucheng.cn-中文字幕精品久久久久人妻,国产成人无码A区在线观看导航,亚洲欧美日韩专区一,午夜人性色福利无码视频在线观看

AI技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn)

來源：豐采網(wǎng)??作者：豐采網(wǎng) ??2023-07-20 閱讀：479

如同人類的“五感”互相連通密不可分，人工智能（AI）的視覺、語言、音頻等模態(tài)間的邊界也在日漸融合。隨著人工智能感知、交互和生成能力

的快速發(fā)展，多模態(tài)大模型正推動人工智能邁進(jìn)“通感”時代。

??記者昨天從上海人工智能實(shí)驗(yàn)室獲悉，該實(shí)驗(yàn)室發(fā)布的書生多模態(tài)大模型在全球80多種多模態(tài)和視覺評測任務(wù)中性能領(lǐng)先，超過谷歌、微軟、

OpenAI等研發(fā)的同類模型。

??書生多模態(tài)大模型包含200億個參數(shù)，由80億個海量多模態(tài)樣本訓(xùn)練而成，支持350萬語義標(biāo)簽的識別和理解，覆蓋開放世界常見的類別和概

念，已具備開放世界理解、跨模態(tài)生成、多模態(tài)交互3方面核心能力。

??當(dāng)ChatGPT橫空出世，專家就預(yù)言它將改變?nèi)藱C(jī)交互的“接口”。當(dāng)下，多模態(tài)理解、生成和交互能力正成為大模型新一輪演化的重要方向，

一個人人都能用語音“指揮”AI的低門檻時代或許已近在咫尺。

??從預(yù)定義任務(wù)到開放任務(wù)，解鎖真實(shí)世界理解力

??在快速增長的各類應(yīng)用場景需求下，傳統(tǒng)計(jì)算機(jī)視覺已無法處理真實(shí)世界中數(shù)不勝數(shù)的特定任務(wù)和場景需求，迫切需要一種具備通用場景感知

和復(fù)雜問題處理能力的高級視覺系統(tǒng)。書生多模態(tài)大模型融合了視覺、語言及多任務(wù)建模三大模型能力，即通用視覺大模型、用于文本理解的超大

語言預(yù)訓(xùn)練模型（LLM）和用于多任務(wù)的兼容解碼建模大模型，這使它能夠更接近人類的感知和認(rèn)知能力。

??在人工智能研究中，“開放世界”是指非預(yù)設(shè)、非學(xué)術(shù)集或封閉集定義的真實(shí)世界。傳統(tǒng)研究中，AI僅能完成預(yù)定義任務(wù)，即學(xué)術(shù)集或封閉集

定義的任務(wù)，而這種任務(wù)范圍與真實(shí)的開放世界存在很大差距。例如，ImageNet-1K學(xué)術(shù)集包含1000種物體，其中約有兩種花、48種鳥和21種魚；

而在真實(shí)世界中，花、鳥、魚的種類分別約為45萬、1萬和2萬。

??在開放世界中，書生多模態(tài)大模型正通過不斷學(xué)習(xí)，獲得更接近人類的感知和認(rèn)知能力。在語義開放方面，它可以識別和理解開放世界中超過

350萬種語義，覆蓋日常生活中常見的物體類別、物體動作和光學(xué)字符等，完成了從解決預(yù)定義任務(wù)到執(zhí)行開放任務(wù)的蛻變，為未來多模態(tài)通用人

工智能（AGI）模型研究提供了有力支持。

??看圖寫詩，跨模態(tài)生成同時給出“創(chuàng)作思路”

??眼下，AI技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn)。如在自動駕駛場景下，需準(zhǔn)確輔助車輛判斷交通燈狀態(tài)、道路標(biāo)志牌等信息，為車輛的

決策規(guī)劃提供有效信息輸入。

??看圖寫作是一種經(jīng)典的模態(tài)轉(zhuǎn)換能力。在“欣賞”了張大千的《湖山清夏圖》后，書生多模態(tài)大模型根據(jù)要求創(chuàng)作了一首七言絕句，詩篇如下

：“山峰高聳入云天，云霧繚繞自成煙。忘身物外心自適，靜聽松濤入畫眠。”上海人工智能實(shí)驗(yàn)室表示，書生多模態(tài)大模型已經(jīng)具備了由圖像到

文本的跨模態(tài)生成能力，最后一句還借鑒了唐代詩人韋莊的名句“春水碧于天，畫船聽雨眠”，體現(xiàn)出一定文化積累。

??生成文本的同時，書生大模型還給出了“創(chuàng)作思路”：首先確定圖片中描繪的元素；其次，從畫面中尋找能夠表達(dá)出詩人思想情感的元素，如

山峰高聳、云霧繚繞、松濤等；第三，根據(jù)元素構(gòu)思詩句；最后，根據(jù)詩句的韻律和格律完善表達(dá)。

??將圖像視為新語言，多模態(tài)交互降低使用門檻

??當(dāng)人工智能邁入“通感”時代，對人們最近的影響是什么？上海人工智能實(shí)驗(yàn)室有關(guān)專家表示，書生多模態(tài)大模型可以將圖像視為一種新的語

言，用戶可利用自然語言指令，靈活定義和管理任意視覺任務(wù)。

??打個比方，當(dāng)你輸入一張照片，并用語音“指揮”AI將其轉(zhuǎn)換成一段文字并發(fā)送給父母時，它能立即理解并完成指令。多模態(tài)交互功能降低了

AI任務(wù)的門檻，使AI有望成為萬千大眾都能使用的生產(chǎn)工具。

??也就是說，人機(jī)交互的“接口”即將改變。過去，我們在不同場景中借助不同軟件與虛擬世界相連，這意味著我們還處于圖形界面用戶時代；

未來，多模態(tài)大模型將把我們帶入自然語言對話界面時代，如鋼鐵俠擁有了AI助手賈維斯。

標(biāo)簽: 豐采網(wǎng) 愛采購營銷

免責(zé)聲明：
本站部份內(nèi)容系網(wǎng)友自發(fā)上傳與轉(zhuǎn)載，不代表本網(wǎng)贊同其觀點(diǎn)；
如涉及內(nèi)容、版權(quán)等問題，請?jiān)?0日內(nèi)聯(lián)系，我們將在第一時間刪除內(nèi)容！

相關(guān)愛采購資訊

更多推薦愛采購資訊

更多最新愛采購資訊

豐采網(wǎng)（www.woniucheng.cn）版權(quán)所有平臺客服電話：400-9977-076
豐采網(wǎng),是以百度愛采購競價(jià)推廣方式為展現(xiàn)形式,以競價(jià)愛采購為收費(fèi)模式。為企業(yè)帶來更多有效果的百度愛采購商機(jī)以及靠譜的B2B行業(yè)信息線索的商務(wù)信息平臺網(wǎng)站。
同時豐采網(wǎng)提供百度愛采購競價(jià)代理服務(wù)，為廣大B2B企業(yè)平臺提供了廣泛的技術(shù)支持。豐采網(wǎng)擁有完整的平臺產(chǎn)權(quán)與商標(biāo)注冊權(quán)。
讓買家快速便捷的找到優(yōu)質(zhì)貨源，為賣家提供更匹配的詢價(jià)信息，搭建信任橋梁，實(shí)現(xiàn)快速成交。
豐采網(wǎng)核心功能是提升企業(yè)在愛采購排名方面的競爭力，不提供在線交易功能，非電商平臺！
免責(zé)聲明：本網(wǎng)站所展現(xiàn)的公司信息、產(chǎn)品信息及其他相關(guān)信息，均來源于其對應(yīng)的企業(yè)與商鋪，信息的真實(shí)性、準(zhǔn)確性和合法性由該信息來源企業(yè)商鋪的所屬發(fā)布者完全負(fù)責(zé)，
豐采網(wǎng)對此不承擔(dān)任何法律責(zé)任。建議您在購買相關(guān)產(chǎn)品前務(wù)必確認(rèn)供應(yīng)商資質(zhì)及產(chǎn)品質(zhì)量，過低的價(jià)格有可能是虛假信息，請謹(jǐn)慎對待，謹(jǐn)防欺詐行為。
買賣好貨源，做出好生意，豐采網(wǎng)一直在行動！

魯ICP備19057629號