近日,云從科技在視覺大模型上取得重要進展,行人基礎大模型在PA-100K、RAP V2、PETA、HICO-DET四個數據集上從阿里巴巴、日立等多家知名高校、企業與研究機構脫穎而出,刷新了世界紀錄。
其中最高在PA100K上的Fine-tuning準確率達到92.89%,比SOTA高出5.2個點,四個數據集所涉及的范圍覆蓋人體全局屬性(性別、年齡),局部屬性(穿戴風格、配飾),攜帶屬性(手機、刀棍、手提包等)、人-物交互HOI(抽煙,持刀棍,手機拍屏幕)等。
表1:云從科技在PA-100K、RAP V2、PETA行人屬性數據集上的表現
作為“六感”之首的視覺,占據了人類吸收外部信息的70%以上。對于人工智能也一樣,行人基礎大模型讓人工智能如何識別關于人的一切信息,準確率的提高具有非常高的實用價值,本次突破意味著該技術首次達到大規模商用水平,也意味著計算機視覺已經邁入「大模型時代」。
多模態結合自監督學習 打造全球領先核心技術
以人為中心的感知任務,一直是人工智能領域研究的熱點,大模型具有強大的表征能力,并且在多種數據模態(如語言、音頻、圖像、視頻、視覺語言)上得到驗證。行人基礎大模型已經發展成為視覺大模型基礎,云從科技結合實際業務落地需求,研發以人為中心的預訓練大模型,專注于以人為中心的各類下游任務,實踐和貫徹“人機協同”理念。
表2:云從科技在HICO-DET人-物交互數據集上的表現
云從行人基礎大模型,使用了超過20億的數據,包括大量無標簽數據集以及圖文多模態數據集,數據集的豐富多樣使得模型能夠提取到非常穩健的特征,輕松應用于多種行人任務。
基于自監督學習范式,云從科技充分結合了對比學習和掩碼學習的優點,使得模型包含豐富的語義信息,同時具有豐富的紋理細節提取能力。為了讓模型學習擁有更加豐富的行人語義信息,結合多模態繼續使用弱監督訓練范式,進一步提升模型的效果。
在實際應用場景中,大模型與針對單一任務的專用模型相比,表現出很強的泛化性,可以大大節約對真實數據的需求,甚至不需要額外收集真實數據,極大節省了在下游任務上的遷移成本,可快速將大模型能力遷移到新的應用場景之中,并且可廣泛應用于能源、交通、制造、金融等行業領域,并為這些行業打造專屬的行業大模型,深度賦能。
基于基礎預訓練模型 大幅降低研發成本
傳統的行人檢測和分析存在諸多難點,包括缺乏對場景的理解,只能檢測出所有目標;其次行人的某些特征非常細微,需要模型具有細粒度的識別能力,各種大姿態和環境干擾容易造成影響;最后,對行人的檢測分析需求多變,層出不窮,大部分需要定制化開發。如何能夠降低開發成本,在技術產業化的過程中非常關鍵。
基于從容大模型平臺,開發者可以大幅降低對數據的依賴和提升訓練效率,僅需要1%的數據量即可達到與原場景定制化開發模型相接近的效果,適合獲取真實樣本代價非常高的特殊行業。
目前,該技術已廣泛應用于礦山、建筑工地以及特殊場所的安全布控,監控作業人員穿戴合規,姿態行為等異常和違規行為。
此前,云從科技跨鏡追蹤技術于2018-2020連續三年三次打破世界紀錄,行人基礎大模型的突破,表明云從從容大模型已經整合西部算力中心、聯合研發中心、行業數據等資源,打造出了更優秀的人工智能視覺大模型,為實現人機協同操作系統和行業專用大模型在行業智能化升級領域的大規模實踐打下了堅實的基礎。
云從科技與上海交通大學聯合研究團隊的《基于擴散模型的音頻驅動說話人生成》成功入選會議論文,并于大會進行現場宣講,獲得多方高度關注。
云從視覺基礎大模型表現出很強的泛化性能,大大降低了下游任務所需的數據依賴與開發成本,同時zero-shot大幅提高了訓練開發效率,使得廣泛應用和快速部署成為可能。
云從科技及聯合研究團隊的論文《PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos》(基于掩碼預測的點云視頻自監督學習)成功入選。
周一到周五9:30-18:00(北京時間)
商務合作:business@cloudwalk.com
媒體合作:Media@cloudwalk.com
渠道合作:business_partner@cloudwalk.com
人才招聘:zhaopin@cloudwalk.com