国产精品自在自线亚洲,精品九九久久,国产无套免费网站,亚洲欧美一区二区三区在线观看,国产20页,制服丝袜中文字幕第一页,中文字幕制服

您的位置:首頁(yè)>

【速看料】人大與字節(jié)跳動(dòng)聯(lián)合突破:短鏈條思維顯著提升AI視覺(jué)推理

2026-01-07 16:29:53    來(lái)源:科技行者

由中國(guó)人民大學(xué)和字節(jié)跳動(dòng)種子團(tuán)隊(duì)聯(lián)合開(kāi)展的這項(xiàng)研究,于2025年11月發(fā)表在計(jì)算機(jī)視覺(jué)領(lǐng)域的重要期刊上,論文編號(hào)為arXiv:2511.22586v1。這項(xiàng)研究深入探討了不同思維鏈條訓(xùn)練方式如何影響視覺(jué)語(yǔ)言模型在視覺(jué)推理任務(wù)中的泛化能力,揭示了一個(gè)頗為意外的發(fā)現(xiàn):在訓(xùn)練AI進(jìn)行視覺(jué)推理時(shí),"短而精"的思維鏈條往往比"長(zhǎng)而詳"的推理過(guò)程更有效。

想要理解這項(xiàng)研究的意義,可以把AI的視覺(jué)推理能力想象成學(xué)習(xí)解迷宮的過(guò)程。傳統(tǒng)觀念認(rèn)為,讓AI詳細(xì)描述每一步的思考過(guò)程——就像一個(gè)人在迷宮中邊走邊自言自語(yǔ)"現(xiàn)在我面前有三條路,左邊看起來(lái)是死胡同,右邊可能通向出口"——這樣的詳細(xì)推理應(yīng)該讓AI學(xué)得更好。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)潔而直接的思維訓(xùn)練方式,就像只告訴AI關(guān)鍵的轉(zhuǎn)彎點(diǎn)和最終路徑,反而能讓它在面對(duì)新迷宮時(shí)表現(xiàn)得更出色。


(資料圖片僅供參考)

這項(xiàng)研究的核心創(chuàng)新在于系統(tǒng)性地比較了三種不同的思維鏈條訓(xùn)練方法:語(yǔ)言思維鏈(用文字描述推理過(guò)程)、定位思維鏈(用坐標(biāo)標(biāo)記關(guān)鍵位置)和視覺(jué)思維鏈(直接在圖像上做標(biāo)記)。更重要的是,他們還發(fā)現(xiàn)了"最少定位信息"的訓(xùn)練方式——只保留最關(guān)鍵的空間信息——竟然能達(dá)到最好的泛化效果。這就好比教孩子騎自行車時(shí),與其詳細(xì)解釋每個(gè)動(dòng)作的原理和細(xì)節(jié),不如直接展示幾個(gè)關(guān)鍵姿勢(shì),讓孩子自己摸索出平衡感。

研究團(tuán)隊(duì)選擇了迷宮導(dǎo)航這個(gè)經(jīng)典的視覺(jué)推理任務(wù)作為實(shí)驗(yàn)平臺(tái),這個(gè)選擇頗具匠心。迷宮任務(wù)完全依賴視覺(jué)信息進(jìn)行推理,不受外部知識(shí)干擾,難度可以通過(guò)調(diào)整迷宮大小精確控制,而且目前的視覺(jué)語(yǔ)言模型在這類任務(wù)上表現(xiàn)還比較薄弱,為研究提供了理想的測(cè)試環(huán)境。他們使用了目前性能優(yōu)秀的Qwen2.5-VL-7B模型作為基礎(chǔ),采用了先進(jìn)行監(jiān)督學(xué)習(xí)再用強(qiáng)化學(xué)習(xí)優(yōu)化的訓(xùn)練策略。

一、三種思維鏈條的較量:誰(shuí)是真正的贏家

在這場(chǎng)思維方式的比較中,研究團(tuán)隊(duì)精心設(shè)計(jì)了三種截然不同的訓(xùn)練方法。第一種是語(yǔ)言思維鏈,就像我們平時(shí)思考問(wèn)題時(shí)的內(nèi)心獨(dú)白,AI會(huì)用文字詳細(xì)描述自己的推理過(guò)程。比如在解迷宮時(shí),它會(huì)說(shuō)"從起點(diǎn)開(kāi)始,我只能向西走,然后我有兩個(gè)選擇:繼續(xù)向西還是向南,考慮到目標(biāo)在下方,向南可能是更好的選擇"。這種方法的優(yōu)勢(shì)在于推理過(guò)程清晰透明,就像一位老師在黑板上一步步演示解題過(guò)程。

第二種是定位思維鏈,它將推理過(guò)程轉(zhuǎn)化為空間坐標(biāo)的序列。在迷宮任務(wù)中,這種方法會(huì)將每個(gè)關(guān)鍵位置用具體的坐標(biāo)表示,比如"從起點(diǎn)[452,59]出發(fā),下一步移動(dòng)到[359,59]"。這種方法的獨(dú)特之處在于它將抽象的推理過(guò)程轉(zhuǎn)化為具體的空間信息,讓AI能夠建立起語(yǔ)言推理和視覺(jué)空間之間的直接聯(lián)系。

第三種是視覺(jué)思維鏈,這是最接近人類直覺(jué)思維的方法。AI不僅會(huì)生成推理文本,還會(huì)在圖像上直接進(jìn)行操作——畫(huà)線標(biāo)記路徑、圈出重要區(qū)域、裁剪關(guān)鍵部分。這就像我們?cè)诘貓D上用筆畫(huà)出路線一樣,將思維過(guò)程直接體現(xiàn)在視覺(jué)空間中。這種方法最大的特點(diǎn)是實(shí)現(xiàn)了真正的多模態(tài)推理,思考過(guò)程在文字和圖像之間來(lái)回切換。

然而,實(shí)驗(yàn)結(jié)果卻出人意料。雖然視覺(jué)思維鏈在訓(xùn)練初期確實(shí)展現(xiàn)出更快的收斂速度,仿佛有了"開(kāi)掛"的優(yōu)勢(shì),但最終的性能天花板卻并沒(méi)有比其他方法高出多少。這就像三個(gè)學(xué)生用不同方法學(xué)數(shù)學(xué),雖然有人起步更快,但最終的考試成績(jī)卻相差不大。更令人驚訝的是,當(dāng)研究團(tuán)隊(duì)深入分析訓(xùn)練動(dòng)態(tài)時(shí)發(fā)現(xiàn),視覺(jué)思維鏈的優(yōu)勢(shì)主要體現(xiàn)在訓(xùn)練效率上——它能讓模型更快地掌握任務(wù)要領(lǐng),但并不能突破性能的根本限制。

二、"短而精"的意外勝利

在進(jìn)一步的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)更加令人驚喜的現(xiàn)象。他們?cè)O(shè)計(jì)了一種"最少定位信息"的訓(xùn)練方式,這種方法幾乎完全去掉了詳細(xì)的推理解釋,只保留最終的路徑坐標(biāo)序列。換句話說(shuō),就像教授駕駛技巧時(shí),不解釋每個(gè)動(dòng)作的理論依據(jù),而是直接展示最優(yōu)路線。

這種極簡(jiǎn)方法的表現(xiàn)讓研究人員大吃一驚。不僅訓(xùn)練收斂速度更快,最終的泛化能力也最強(qiáng)。當(dāng)模型需要處理更大規(guī)模的迷宮時(shí),用"最少定位信息"訓(xùn)練的AI表現(xiàn)得最為穩(wěn)定和可靠。這個(gè)發(fā)現(xiàn)顛覆了"解釋越詳細(xì),學(xué)習(xí)效果越好"的直覺(jué)認(rèn)知。

為了理解這個(gè)現(xiàn)象,可以用學(xué)習(xí)駕駛來(lái)類比。一個(gè)教練可以選擇詳細(xì)解釋每個(gè)操作的原理——"現(xiàn)在踩離合器是因?yàn)樾枰袛喟l(fā)動(dòng)機(jī)動(dòng)力傳輸,然后移動(dòng)擋位桿是為了改變齒輪組合比例"——也可以選擇簡(jiǎn)潔直接的指導(dǎo)——"先踩離合,再掛檔,然后松離合加油門"。雖然詳細(xì)解釋看起來(lái)更有教育價(jià)值,但簡(jiǎn)潔指導(dǎo)往往能讓學(xué)員更快掌握核心技能,并且在面對(duì)各種不同路況時(shí)適應(yīng)性更強(qiáng)。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證實(shí)了這個(gè)"短即是長(zhǎng)"的效應(yīng)。他們發(fā)現(xiàn),當(dāng)AI的定位能力得到適當(dāng)訓(xùn)練和對(duì)齊后,它完全可以依靠?jī)?nèi)在的空間表征進(jìn)行有效推理,而不需要依賴外部提供的詳細(xì)坐標(biāo)系統(tǒng)。這就像一個(gè)熟練的司機(jī),即使在沒(méi)有GPS詳細(xì)導(dǎo)航的情況下,也能憑借對(duì)道路網(wǎng)絡(luò)的內(nèi)在理解找到目的地。

三、泛化能力的真正考驗(yàn)

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的泛化測(cè)試來(lái)驗(yàn)證各種訓(xùn)練方法的真實(shí)效果。第一種是單尺度泛化測(cè)試,就像讓只在小型練習(xí)場(chǎng)學(xué)過(guò)車的新手去駕駛稍大一些的車輛。具體來(lái)說(shuō),他們?cè)?×6規(guī)模的迷宮上訓(xùn)練模型,然后測(cè)試其在7×7迷宮上的表現(xiàn)。第二種是跨尺度泛化測(cè)試,相當(dāng)于讓在多種車型上都練習(xí)過(guò)的司機(jī)去駕駛完全不同規(guī)格的車輛,即在4×4到6×6的多種尺寸迷宮上訓(xùn)練,然后在10×10的大型迷宮上測(cè)試。

結(jié)果再次證實(shí)了"最少定位信息"方法的優(yōu)勢(shì)。在兩種測(cè)試情況下,這種簡(jiǎn)潔訓(xùn)練方法都展現(xiàn)出了最強(qiáng)的泛化能力。更有趣的是,視覺(jué)思維鏈方法雖然在訓(xùn)練階段表現(xiàn)不錯(cuò),但在面對(duì)全新尺寸的迷宮時(shí),其性能提升很快就遇到了瓶頸,而簡(jiǎn)潔方法訓(xùn)練的模型卻能持續(xù)保持高水準(zhǔn)的表現(xiàn)。

這種現(xiàn)象背后的原理可以這樣理解:詳細(xì)的思維鏈條訓(xùn)練雖然提供了豐富的信息,但也可能導(dǎo)致模型過(guò)度依賴特定的推理模式和視覺(jué)線索,就像一個(gè)總是依賴特定地標(biāo)的司機(jī),一旦環(huán)境發(fā)生變化就容易迷路。相反,簡(jiǎn)潔訓(xùn)練方法迫使模型學(xué)習(xí)更加本質(zhì)和通用的推理規(guī)律,就像培養(yǎng)司機(jī)的方向感和路況判斷能力,使其能在各種環(huán)境中都游刃有余。

研究還發(fā)現(xiàn),當(dāng)模型的定位能力得到充分訓(xùn)練后,它能夠內(nèi)化并運(yùn)用自己的潛在空間表征,而不再需要依賴外部明確指定的坐標(biāo)系統(tǒng)。這種能力使得模型在面對(duì)新的視覺(jué)環(huán)境時(shí),能夠快速建立起內(nèi)在的空間理解框架,從而實(shí)現(xiàn)更好的適應(yīng)和泛化。

四、驗(yàn)證發(fā)現(xiàn):從迷宮到現(xiàn)實(shí)世界

為了驗(yàn)證這些發(fā)現(xiàn)是否具有普遍適用性,研究團(tuán)隊(duì)將實(shí)驗(yàn)擴(kuò)展到了其他視覺(jué)推理任務(wù)。他們選擇了兩個(gè)經(jīng)典的視覺(jué)游戲:冰湖游戲和拼圖游戲。在冰湖游戲中,AI需要在避開(kāi)陷阱的同時(shí)找到通向目標(biāo)的路徑,而在拼圖游戲中,AI需要將九塊混亂的圖片重新組合成完整的圖像。

實(shí)驗(yàn)結(jié)果令人鼓舞。在這些完全不同的任務(wù)中,"最少定位信息"的訓(xùn)練方法同樣展現(xiàn)出了顯著優(yōu)勢(shì)。特別是在拼圖任務(wù)中,這種方法將模型的成功率從幾乎為零提升到了超過(guò)70%,這種巨大的性能躍升充分證明了簡(jiǎn)潔訓(xùn)練方法的威力。

研究團(tuán)隊(duì)還在真實(shí)世界的視覺(jué)問(wèn)答任務(wù)上驗(yàn)證了他們的發(fā)現(xiàn)。在V*基準(zhǔn)測(cè)試和HR-Bench等標(biāo)準(zhǔn)數(shù)據(jù)集上,采用簡(jiǎn)潔方法訓(xùn)練的模型在所有子任務(wù)中都達(dá)到了最佳性能,進(jìn)一步證實(shí)了"短即是長(zhǎng)"效應(yīng)的普遍性和實(shí)用性。

這些跨任務(wù)的驗(yàn)證結(jié)果表明,簡(jiǎn)潔而精準(zhǔn)的訓(xùn)練方式能夠幫助AI學(xué)習(xí)到更加本質(zhì)和可遷移的視覺(jué)推理能力。就像學(xué)習(xí)音樂(lè)時(shí),掌握了基本的音階和節(jié)拍規(guī)律,就能演奏各種不同風(fēng)格的曲目一樣,AI通過(guò)簡(jiǎn)潔訓(xùn)練獲得的核心推理能力,能夠靈活應(yīng)用到各種不同的視覺(jué)任務(wù)中。

五、理論洞察:為什么少即是多

這項(xiàng)研究最重要的理論貢獻(xiàn)在于揭示了視覺(jué)推理學(xué)習(xí)中的一個(gè)根本機(jī)制:當(dāng)AI的定位能力得到充分訓(xùn)練后,它主要依賴這種內(nèi)在的空間理解能力進(jìn)行推理,而過(guò)多的外部監(jiān)督信息反而可能成為干擾因素。

這個(gè)發(fā)現(xiàn)可以用"學(xué)自行車?yán)碚?來(lái)解釋。當(dāng)我們教孩子騎自行車時(shí),如果過(guò)分關(guān)注每個(gè)細(xì)節(jié)——"現(xiàn)在左腳用力,右手稍微向左轉(zhuǎn),身體重心前移2度"——孩子反而會(huì)被這些復(fù)雜指令搞糊涂。相反,如果我們只提供幾個(gè)關(guān)鍵指導(dǎo)點(diǎn)——"保持前進(jìn),感受平衡"——孩子更容易建立起內(nèi)在的平衡感,這種直覺(jué)一旦形成,就能適應(yīng)各種不同的騎行環(huán)境。

研究團(tuán)隊(duì)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)在這個(gè)過(guò)程中扮演了關(guān)鍵角色。在初始的監(jiān)督學(xué)習(xí)階段,不同的思維鏈條方法確實(shí)會(huì)產(chǎn)生不同的效果,但經(jīng)過(guò)強(qiáng)化學(xué)習(xí)的進(jìn)一步優(yōu)化后,模型主要加強(qiáng)的是其已有的定位和推理能力,而不是依賴于復(fù)雜的外部推理鏈條。這就解釋了為什么簡(jiǎn)潔方法最終能夠勝出——它從一開(kāi)始就專注于培養(yǎng)模型的核心能力,而不是讓模型依賴輔助工具。

更深層次的理解是,視覺(jué)推理任務(wù)的本質(zhì)在于空間關(guān)系的理解和操作,而不在于語(yǔ)言描述的詳細(xì)程度。當(dāng)AI真正掌握了空間推理的核心技能后,它就像一個(gè)經(jīng)驗(yàn)豐富的建筑師,能夠在腦海中清晰地構(gòu)建和操作三維模型,而不需要詳細(xì)的文字描述來(lái)輔助思考。

六、實(shí)際應(yīng)用與未來(lái)展望

這項(xiàng)研究的實(shí)際意義遠(yuǎn)超學(xué)術(shù)范疇,它為AI視覺(jué)推理系統(tǒng)的訓(xùn)練提供了全新的設(shè)計(jì)思路。在實(shí)際應(yīng)用中,這意味著我們可以用更少的標(biāo)注成本獲得更好的模型性能。傳統(tǒng)方法需要大量人工標(biāo)注詳細(xì)的推理過(guò)程,不僅成本高昂,還容易引入人為偏差。而簡(jiǎn)潔訓(xùn)練方法只需要標(biāo)注關(guān)鍵的結(jié)果信息,大大降低了數(shù)據(jù)準(zhǔn)備的復(fù)雜度和成本。

在自動(dòng)駕駛領(lǐng)域,這個(gè)發(fā)現(xiàn)尤其具有價(jià)值。當(dāng)前的自動(dòng)駕駛系統(tǒng)往往需要復(fù)雜的決策解釋機(jī)制,但這項(xiàng)研究表明,專注于培養(yǎng)系統(tǒng)的核心空間理解能力,可能比構(gòu)建復(fù)雜的推理解釋系統(tǒng)更加有效。這就像培養(yǎng)一個(gè)優(yōu)秀的司機(jī),關(guān)鍵在于建立良好的路況感知和反應(yīng)能力,而不是讓司機(jī)在每次轉(zhuǎn)彎時(shí)都詳細(xì)解釋選擇這個(gè)角度的理論依據(jù)。

在機(jī)器人導(dǎo)航和操作任務(wù)中,簡(jiǎn)潔訓(xùn)練方法同樣能發(fā)揮重要作用。研究表明,讓機(jī)器人專注于學(xué)習(xí)環(huán)境中的關(guān)鍵空間標(biāo)記和導(dǎo)航要點(diǎn),比讓它學(xué)習(xí)詳細(xì)的環(huán)境描述和決策過(guò)程更加有效。這種方法不僅能提高機(jī)器人在熟悉環(huán)境中的表現(xiàn),更重要的是能增強(qiáng)其在新環(huán)境中的適應(yīng)能力。

研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。他們的實(shí)驗(yàn)主要集中在相對(duì)簡(jiǎn)單的視覺(jué)推理任務(wù)上,雖然已經(jīng)擴(kuò)展到了一些真實(shí)世界的應(yīng)用場(chǎng)景,但還需要在更廣泛的任務(wù)類型上驗(yàn)證這些發(fā)現(xiàn)的普適性。此外,"最少信息原則"的具體應(yīng)用方式可能因任務(wù)而異,需要進(jìn)一步研究如何為不同類型的視覺(jué)推理任務(wù)設(shè)計(jì)最優(yōu)的簡(jiǎn)潔訓(xùn)練策略。

展望未來(lái),這項(xiàng)研究開(kāi)啟了AI訓(xùn)練方法論的新思路。它提示我們,在追求AI系統(tǒng)性能提升時(shí),也許應(yīng)該更多地關(guān)注如何培養(yǎng)AI的內(nèi)在能力,而不是僅僅依賴外部信息的堆砌。這種"少即是多"的訓(xùn)練哲學(xué),可能在其他AI領(lǐng)域也有廣闊的應(yīng)用前景,值得研究者們進(jìn)一步探索和發(fā)展。

說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:有時(shí)候,最有效的學(xué)習(xí)方式不是記住所有細(xì)節(jié),而是掌握核心要領(lǐng)。就像武俠小說(shuō)中常說(shuō)的"大道至簡(jiǎn)",AI的視覺(jué)推理能力提升也許并不需要復(fù)雜華麗的技巧,而是需要扎實(shí)的基本功和對(duì)本質(zhì)規(guī)律的深度理解。這個(gè)發(fā)現(xiàn)不僅為AI研究者提供了新的方向,也讓我們對(duì)人工智能的學(xué)習(xí)機(jī)制有了更深入的認(rèn)識(shí)。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以查閱原論文arXiv:2511.22586v1獲取完整的研究?jī)?nèi)容。

Q&A

Q1:什么是思維鏈條訓(xùn)練方法?

A:思維鏈條訓(xùn)練是讓AI在解決問(wèn)題時(shí)生成中間推理步驟的方法,就像人類思考時(shí)的"自言自語(yǔ)"。研究比較了三種方式:用文字描述推理過(guò)程的語(yǔ)言思維鏈、用坐標(biāo)標(biāo)記位置的定位思維鏈,以及直接在圖像上做標(biāo)記的視覺(jué)思維鏈。

Q2:為什么簡(jiǎn)潔的訓(xùn)練方法比詳細(xì)的更有效?

A:研究發(fā)現(xiàn),過(guò)多的詳細(xì)解釋可能讓AI過(guò)度依賴特定模式,就像總是依賴地標(biāo)的司機(jī)在新環(huán)境中容易迷路。簡(jiǎn)潔方法迫使AI學(xué)習(xí)更本質(zhì)的推理規(guī)律,培養(yǎng)內(nèi)在的空間理解能力,從而在面對(duì)新任務(wù)時(shí)適應(yīng)性更強(qiáng)。

Q3:這個(gè)發(fā)現(xiàn)對(duì)實(shí)際AI應(yīng)用有什么意義?

A:這項(xiàng)研究大大降低了AI訓(xùn)練成本,因?yàn)橹恍铇?biāo)注關(guān)鍵結(jié)果而非詳細(xì)過(guò)程。在自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域,專注培養(yǎng)核心空間理解能力比構(gòu)建復(fù)雜推理解釋系統(tǒng)更有效,能讓AI在新環(huán)境中表現(xiàn)更好。

關(guān)鍵詞: 原理 機(jī)器人 字節(jié)跳動(dòng) 視覺(jué)推理 知名企業(yè)

相關(guān)閱讀

高平市| 寻甸| 敦煌市| 潮州市| 正安县| 宁河县| 沁水县| 清涧县| 澄城县| 甘谷县| 府谷县| 崇阳县| 郧西县| 含山县| 阿拉善盟| 东港市| 靖安县| 鄂托克前旗| 德安县| 中阳县| 准格尔旗| 崇明县| 台北市| 安吉县| 成都市| 尼勒克县| 南召县| 乌恰县| 克什克腾旗| 焦作市| 榕江县| 子长县| 蓬溪县| 潞西市| 冕宁县| 中方县| 曲靖市| 中西区| 湘潭市| 吉安市| 隆化县|