沈樵综合在线,一区二区三区乱码,免费资源一区二区三区,91超碰碰,av极品一线天,日韩免费高清一区二区,国产蜜尤福利在线,嗯啊91在线观看,精品一区二三

行業(yè)資訊行業(yè)財報市場標準研發(fā)新品會議盤點政策本站速遞
摘要針對現(xiàn)有大模型無法準確區(qū)分細粒度類別的問題,北京大學團隊研發(fā)并開源了首個細粒度多模態(tài)大模型Finedefics。

  【儀表網(wǎng) 研發(fā)快訊】多模態(tài)大模型在通用任務(wù)上表現(xiàn)出色,但缺乏細粒度感知能力,如何做到又廣(開域泛化能力)又深(細粒度感知能力),是推動大模型從聊天助手到自動駕駛、具身智能、醫(yī)療影像、工業(yè)制造等實際應(yīng)用中急需解決的關(guān)鍵問題。針對上述問題,北京大學王選計算機研究所彭宇新教授團隊近期取得了一系列重要進展,包括研發(fā)并開源了首個細粒度多模態(tài)大模型Finedefics、發(fā)表首篇細粒度多模態(tài)大模型綜述論文等。相關(guān)成果發(fā)表于IEEE TPAMI、CVPR、ICLR等人工智能領(lǐng)域國際頂級期刊和會議,包括CVPR的口頭報告論文(接收率3.3%)和亮點論文(接收率13.5%)。
 
圖1. 細粒度多模態(tài)大模型Finedefics
 
  針對現(xiàn)有大模型無法準確區(qū)分細粒度類別的問題,團隊研發(fā)并開源了首個細粒度多模態(tài)大模型Finedefics,首先通過與大模型的多輪交互構(gòu)建細粒度子類別的屬性知識,然后通過判別-生成統(tǒng)一的指令微調(diào)將屬性知識分別與細粒度子類別的圖像與文本對齊,實現(xiàn)數(shù)據(jù)-知識協(xié)同訓練,提高了多模態(tài)大模型的細粒度圖像分類能力,準確率達到76.84%,相比阿里的通義千問大模型(QwenVL-Chat)提高了9.43%,相比HuggingFace的Idefics2大模型提高了10.89%。本工作發(fā)表于人工智能領(lǐng)域國際頂級會議ICLR 2025。
 
圖2. 細粒度視覺推理算法DyFo
 
  針對現(xiàn)有大模型無法準確識別圖像中微小目標的問題,團隊提出了細粒度視覺推理算法DyFo,通過視覺專家模型與多模態(tài)大模型的協(xié)同,在無需額外訓練的前提下,模擬人類視覺搜索行為逐步聚焦圖像關(guān)鍵區(qū)域,提高了多模態(tài)大模型的細粒度視覺識別能力,準確率達到81.15%,相比阿里的通義千問大模型(Qwen2-VL)提高了8.90%。本工作發(fā)表于計算機視覺領(lǐng)域國際頂級會議CVPR 2025,入選大會亮點論文(接收率13.5%)。
 
圖3. 以人為中心的細粒度人體動作質(zhì)量評估方法Uni-FineParser
 
  針對運動視頻中人體動作難以分析的問題,團隊提出了以人為中心的細粒度人體動作質(zhì)量評估方法Uni-FineParser,通過聚焦前景目標動作區(qū)域,提取以人為中心的動作表征,然后通過細粒度對比回歸將動作過程分解為連續(xù)的動作步驟,量化每個動作步驟的質(zhì)量,綜合各步驟質(zhì)量差異預測最終動作質(zhì)量得分,動作得分的斯皮爾曼相關(guān)系數(shù)達到95.01%。本工作發(fā)表于人工智能領(lǐng)域國際頂級期刊IEEE TPAMI(影響因子18.6)。
 
圖4. 細粒度感知定義
 
  團隊根據(jù)在細粒度分析和多模態(tài)大模型領(lǐng)域的技術(shù)積累與前沿探索,發(fā)表了首篇細粒度多模態(tài)大模型綜述論文,剖析了當前多模態(tài)大模型的三大挑戰(zhàn):模型架構(gòu)在細粒度特征建模上的不足;高質(zhì)量細粒度標注數(shù)據(jù)稀缺;細粒度感知與計算效率之間的矛盾。論文從類別、空間、時間3個維度定義了細粒度感知,系統(tǒng)闡述了細粒度多模態(tài)大模型的最新研究進展,并深入探討了精度-泛化-效率權(quán)衡、知識增強策略、理解與生成統(tǒng)一、大規(guī)模評測基準、細粒度多模態(tài)推理等未來發(fā)展方向。本工作發(fā)表于CJE 2026。
 
  除上述代表論文外,團隊近期還取得了如下主要研究成果:團隊近期的4篇論文發(fā)表于人工智能領(lǐng)域國際頂級期刊IEEE TPAMI,一篇論文入選CVPR大會口頭報告(接收率3.3%),3篇論文入選CVPR大會亮點論文(接收率11.8%),兩篇論文入選2025年ESI高被引論文;構(gòu)建并開源了兩個細粒度人體運動分析數(shù)據(jù)集和評測基準FineDiving-HM和FineSports,已被斯坦福大學、英偉達等60多個研究機構(gòu)使用,團隊還研發(fā)了首個在國產(chǎn)昇騰處理器上完成訓練的生物領(lǐng)域細粒度多模態(tài)大模型,并發(fā)布到開源社區(qū);團隊研發(fā)了端側(cè)大模型輕量化、美學理解、大模型強化學習加速、電商廣告海報生成、電商短視頻生成、自動駕駛障礙物感知等系統(tǒng),應(yīng)用于華為、快手、阿里、騰訊、美團、蔚來、中國電信、中國鐵塔、中國航天科工三院等12家頭部企業(yè);參加CVPR 2025第一視角視頻檢測競賽、CVPR 2025多模態(tài)視覺問答競賽、ACM MM 2025視頻生成競賽,均獲第一名;彭宇新獲2025年青年科學基金項目A類(原國家杰青)延續(xù)資助(當年資助期滿的杰青項目中不超過20%獲延續(xù)資助),入選2026年度IEEE Fellow、2025年度CCF會士,當選中國圖象圖形學學會第九屆理事會副理事長,連續(xù)5年入選愛思唯爾“中國高被引學者”,主持2025年國家自然科學基金重點項目等。

我要評論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。

版權(quán)與免責聲明
  • 凡本網(wǎng)注明"來源:儀表網(wǎng)"的所有作品,版權(quán)均屬于儀表網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:儀表網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。
  • 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品來源,并自負版權(quán)等法律責任。
  • 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
  • 合作、投稿、轉(zhuǎn)載授權(quán)等相關(guān)事宜,請聯(lián)系本網(wǎng)。聯(lián)系電話:0571-87759945,QQ:1103027433。
廣告招商
今日換一換
新發(fā)產(chǎn)品更多+

客服熱線:0571-87759942

采購熱線:0571-87759942

媒體合作:0571-87759945

  • 儀表站APP
  • 微信公眾號
  • 儀表網(wǎng)小程序
  • 儀表網(wǎng)抖音號
Copyright ybzhan.cn    All Rights Reserved   法律顧問:浙江天冊律師事務(wù)所 賈熙明律師   儀表網(wǎng)-儀器儀表行業(yè)“互聯(lián)網(wǎng)+”服務(wù)平臺
意見反饋
我知道了
延津县| 富阳市| 陈巴尔虎旗| 苏尼特左旗| 桐梓县| 云霄县| 荔波县| 延寿县| 庄浪县| 武强县| 年辖:市辖区| 历史| 广丰县| 类乌齐县| 嵊州市| 丹棱县| 富川| 泾源县| 天等县| 石渠县| 微博| 海淀区| 文山县| 新源县| 云阳县| 凤凰县| 资兴市| 阿拉善右旗| 泰和县| 印江| 黑水县| 馆陶县| 项城市| 石嘴山市| 平原县| 蒲城县| 廊坊市| 通州市| 青川县| 海口市| 八宿县|