近日,ICCV2023 細粒度行為檢測挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結束,云從科技在行為分類賽道(以下簡稱OpenFAD23-ICCV23)中斬獲冠軍。
挑戰(zhàn)賽中,云從從容大模型展示了對多種模態(tài)信息的優(yōu)秀理解和處理能力,從早稻田大學、軟銀等國內外多家知名企業(yè)、科研機構中脫穎而出,刷新世界紀錄,再次展示了云從科技在多模態(tài)大模型領域的技術實力。
表1: 云從科技在OpenFAD23-ICCV23數(shù)據(jù)集上的表現(xiàn)
專注領先技術研發(fā) 推動視覺大模型落地應用
3D行為識別技術相比2D圖像識別增加了時間維度的建模,是以人為中心的感知任務的重要組成部分,一直是人工智能領域的研究熱點。
大模型具有強大的表征能力,并且在多模態(tài)(如語言、音頻、圖像、視頻、視覺語言)上得到驗證,云從結合實際業(yè)務落地需求研發(fā)了基于時空建模的3D行為識別基礎大模型。
該模型基于Vision Transformer結構進行設計,通過自注意力機制將空間維度和時間維度的信息進行充分關聯(lián)。
在預訓練階段,采用掩碼重建的方式進行自監(jiān)督學習,為了讓模型同時學到場景語義和時序動作,采用偏場景的多模態(tài)語義特征和偏時序的動作特征同時做為教練模型(teacher)進行多分支特征蒸餾,使得模型同時具有場景語義和時序動作理解能力。
基于大模型預訓練獲得的基礎時空特征,能夠廣泛用于視頻檢索、視頻問答、3D行為識別、行為關鍵幀檢測等下游任務中。在下游任務微調(fine-tune)階段,通過幀間信息互補的方式自適應去除模型冗余的部分,極大提升了下游任務的訓練和推理速度。
表2:云從科技在3D行為識別領域權威數(shù)據(jù)集Something-Something V2上的表現(xiàn)
本次OpenFAD23-ICCV23數(shù)據(jù)集包含491個日常生活中的人類行為,部分行為之間只有極其微小的差別,需要從視頻中抽取多幀畫面并采用3D時空建模算法進行分析。
云從科技從容大模型憑借在視覺領域的深厚積累,在OpenFAD23-ICCV23數(shù)據(jù)集粗粒度(coarse)行為類別上精度達到93.87%,在細粒度(fine-grain)行為類別上精度達到91.96%,識別精度相比上一屆OpenFAD22的冠軍方案高出4%以上。
準確率的大幅提升表明大模型在時空關系特征建模上的優(yōu)勢,意味著3D行為識別算法已經(jīng)邁入多模態(tài)大模型時代,將極大提升該技術的商業(yè)應用價值。目前,該技術已在金融、安防等領域得到了廣泛應用,例如人員動作合規(guī)識別,打架、跌倒等行為檢測。
多次刷新紀錄 構建多模態(tài)大模型技術閉環(huán)
今年以來,云從科技多次在多模態(tài)領域實現(xiàn)技術突破。
6月
云從在CVPR 2023提出視覺大模型自監(jiān)督學習方法,僅需過往1%的數(shù)據(jù)量或者無需真實數(shù)據(jù)便可以達到相同的效果;
7月
云從行人基礎大模型在PA-100K、RAP V2、PETA、HICO-DET四個數(shù)據(jù)集成為世界第一,商品基礎大模型在MUGE、Product1M 兩個規(guī)模最大的開源中文多模態(tài)商品檢索數(shù)據(jù)集上刷新世界紀錄;
8月
云從視覺-語言跟蹤大一統(tǒng)模型在4個富有挑戰(zhàn)性的跨模態(tài)數(shù)據(jù)集(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)上刷新了四項世界紀錄;
這使得從容大模型能夠以更好的交互性能,應用于金融、安防、政務、交通、能源、教育、醫(yī)療、文娛等行業(yè)領域。
那么多模態(tài)到底意味著什么?
當你輸入一張照片,并用語音或文字“指揮”AI將其部分摳圖修改,并發(fā)送給朋友時,它能立即理解并完成指令。
多模態(tài)交互降低了AI使用的門檻,使AI有望成為萬千大眾都能使用的生產(chǎn)工具和個人助理。
如今,多模態(tài)大模型已成為大模型邁向通用人工智能(AGI)目標的下一個前沿焦點,云從科技持續(xù)專注多模態(tài)技術研發(fā)與儲備,推動視覺、語言、音頻等技術的邊界融合,為更多行業(yè)帶來創(chuàng)新與變革。
云從科技及聯(lián)合研究團隊的論文《PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos》(基于掩碼預測的點云視頻自監(jiān)督學習)成功入選。
近日,云從科技與重慶大學大數(shù)據(jù)與軟件學院聯(lián)合研發(fā)的編程智能體——CoSEFA(Code SEcurity and Fix Agent)被軟件工程領域頂尖會議ACM SIGSOFT軟件工程基礎國際會議(FSE 2025)正式錄用。
周一到周五9:30-18:00(北京時間)
商務合作:business@cloudwalk.com
媒體合作:Media@cloudwalk.com
渠道合作:business_partner@cloudwalk.com
人才招聘:zhaopin@cloudwalk.com