清華團(tuán)隊(duì)開(kāi)源 Video - R1 視頻推理模型,性能超越
在人工智能飛速發(fā)展的當(dāng)下,視頻推理領(lǐng)域迎來(lái)了重大突破。近日,清華大學(xué)團(tuán)隊(duì)開(kāi)源了一款名為 Video - R1 的視頻推理模型,該模型基于強(qiáng)化學(xué)習(xí)技術(shù),在 VSI - Bench 測(cè)試中展現(xiàn)出了優(yōu)越的性能,甚至超越了備受矚目的 GPT - 4o,引發(fā)了業(yè)內(nèi)的寬泛關(guān)注。
Video - R1 模型的誕生,是研究團(tuán)隊(duì)深入探索和創(chuàng)新的成果。它1111111111將強(qiáng)化學(xué)習(xí)中的 R1 范式應(yīng)用于視頻推理領(lǐng)域,為該領(lǐng)域的發(fā)展開(kāi)辟了新的道路。在技術(shù)實(shí)現(xiàn)上,研究人員對(duì)舊版 GRPO 算法進(jìn)行了升級(jí),開(kāi)發(fā)出了更懂時(shí)序的 T - GRPO 算法。這一算法的創(chuàng)新之處在于,它將 “考慮時(shí)序” 這一關(guān)鍵因素寫(xiě)入了模型的獎(jiǎng)勵(lì)邏輯中。具體而言,模型每次會(huì)接收兩組輸入,一組視頻幀隨機(jī)亂序,另一組則是順序的。只有當(dāng)模型在 “順序” 輸入上答對(duì)題的比例更高時(shí),才會(huì)獲得獎(jiǎng)勵(lì)。通過(guò)這種方式,模型逐漸明白視頻并非簡(jiǎn)單的 PPT 翻頁(yè),而是由一個(gè)個(gè)邏輯線(xiàn)索串聯(lián)起來(lái)的故事,從而學(xué)會(huì)了在推理過(guò)程中考慮前因后果。
為了進(jìn)一步提升模型的性能,研究人員還采用了圖像和視頻混合訓(xùn)練的策略,并構(gòu)建了兩個(gè)關(guān)鍵數(shù)據(jù)集。其中,Video - R1 - COT - 165k 是以圖像為主的數(shù)據(jù)集,主要用于冷啟動(dòng)模型思維,幫助 AI 打好 “邏輯底盤(pán)”,學(xué)會(huì)通用推理;而 Video - R1 - 260k 則是以高質(zhì)量視頻為中心的數(shù)據(jù)集,用于對(duì)模型進(jìn)行精調(diào)強(qiáng)化訓(xùn)練,促使模型理解時(shí)間邏輯和動(dòng)態(tài)變化。這種圖像與視頻混合訓(xùn)練的方式,不僅解決了視頻數(shù)據(jù)稀缺的問(wèn)題,還成功讓模型實(shí)現(xiàn)了從 “看圖說(shuō)話(huà)” 到 “視頻深思” 的進(jìn)階跳躍,真正打通了多模態(tài)理解的任督二脈。
在實(shí)際測(cè)試中,Video - R1 模型的表現(xiàn)令人驚艷。在多個(gè)視頻推理測(cè)試基準(zhǔn)上,尤其是在李飛飛團(tuán)隊(duì)提出的 VSI - Bench 這一有名的圈內(nèi)人士評(píng)測(cè)中,Video - R1 - 7B 模型以 35.8% 的準(zhǔn)確率超越了閉源前列大模型 GPT - 4o。與其他模型相比,Video - R1 在幾乎所有場(chǎng)景中都能穩(wěn)定輸出,展現(xiàn)出了極強(qiáng)的泛化能力。此外,研究還發(fā)現(xiàn),幀數(shù)越多,模型的推理越準(zhǔn)確。當(dāng)輸入的視頻幀數(shù)從 16 增加到 32,再到 64 時(shí),測(cè)試表現(xiàn)也隨之提升。這充分說(shuō)明,對(duì)時(shí)間線(xiàn)的理解力是視頻推理模型的決勝點(diǎn),而 Video - R1 在這方面具有明顯的優(yōu)勢(shì)。
Video - R1 模型的開(kāi)源,為眾多領(lǐng)域帶來(lái)了新的發(fā)展機(jī)遇。在影視剪輯領(lǐng)域,它能夠幫助剪輯師更高效地篩選和處理視頻素材。以往,剪輯師需要耗費(fèi)大量時(shí)間和精力在海量的視頻片段中尋找合適的素材,而現(xiàn)在借助 Video - R1 模型,它可以快速理解視頻內(nèi)容,根據(jù)剪輯需求精細(xì)推薦相關(guān)素材,2222222222提高了剪輯效率。例如,在制作一部歷史紀(jì)錄片時(shí),剪輯師可以通過(guò)該模型快速定位到包含特定歷史事件、人物或場(chǎng)景的視頻片段,從而節(jié)省大量的篩選時(shí)間,將更多精力投入到創(chuàng)意剪輯中。
在安防監(jiān)控領(lǐng)域,Video - R1 模型同樣具有巨大的應(yīng)用潛力。它能夠?qū)崟r(shí)分析監(jiān)控視頻,準(zhǔn)確識(shí)別異常行為,如入侵、斗毆、火災(zāi)等。傳統(tǒng)的安防監(jiān)控系統(tǒng)往往只能進(jìn)行簡(jiǎn)單的運(yùn)動(dòng)檢測(cè),對(duì)于復(fù)雜的行為模式難以準(zhǔn)確判斷。而 Video - R1 模型憑借其強(qiáng)大的視頻推理能力,可以對(duì)監(jiān)控視頻中的人物動(dòng)作、行為軌跡等進(jìn)行深入分析,及時(shí)發(fā)現(xiàn)潛在的安全威脅,并向安保人員發(fā)出預(yù)警。例如,在一個(gè)大型商場(chǎng)的監(jiān)控系統(tǒng)中,該模型可以實(shí)時(shí)監(jiān)測(cè)人員流動(dòng)情況,一旦發(fā)現(xiàn)有人在某個(gè)區(qū)域長(zhǎng)時(shí)間停留且行為異常,或者出現(xiàn)人群聚集、奔跑等情況,就能立即發(fā)出警報(bào),為安保人員及時(shí)處理突發(fā)事件提供有力支持。
此外,Video - R1 模型在教育、醫(yī)療、自動(dòng)駕駛等領(lǐng)域也有著廣闊的應(yīng)用前景。在教育領(lǐng)域,它可以用于智能教學(xué)系統(tǒng),對(duì)學(xué)生的課堂表現(xiàn)進(jìn)行分析,為教師提供教學(xué)反饋;在醫(yī)療領(lǐng)域,它可以輔助醫(yī)生分析醫(yī)學(xué)影像視頻,幫助診斷疾病;在自動(dòng)駕駛領(lǐng)域,它可以提升車(chē)輛對(duì)周?chē)h(huán)境的理解和判斷能力,提高駕駛安全性。
清華團(tuán)隊(duì)開(kāi)源的 Video - R1 視頻推理模型憑借其創(chuàng)新的技術(shù)和優(yōu)越的性能,為視頻推理領(lǐng)域帶來(lái)了新的活力。它的出現(xiàn)不僅推動(dòng)了人工智能技術(shù)的發(fā)展,更為眾多行業(yè)的智能化升級(jí)提供了有力的支持。隨著該模型在各個(gè)領(lǐng)域的廣泛應(yīng)用,我們有理由相信,它將為人們的生活和工作帶來(lái)更多的便利和創(chuàng)新。而這一成果也再次彰顯了我國(guó)在人工智能領(lǐng)域的強(qiáng)大科研實(shí)力和創(chuàng)新能力,激勵(lì)著更多的科研人員在該領(lǐng)域不斷探索前行。