如果說大模型的上半場是以互聯網大數據預訓練為代表的數字AI;而下半場,是以機器人、世界模型等為代表的物理AI。汽車可能正好處于兩者之間的分水嶺上。
在杭州云棲小鎮的會場,今年云棲大會,無論是會場外的天氣熱度,和會場內的人群熱度,都達到了一個相當高的程度。
每一個我遇見的新老朋友都會說,今年大家對AI的關注度明顯提高了,討論的問題也都非常的實際。
而我這次對大會的關注點,是汽車。因為這個產業,是觀察AI未來發展脈絡一個非常好的切入點。
在云棲大會的汽車峰會開場詞里,有這樣一段話:
1886年,卡爾本茨發明了第一輛汽車。人類突破了肌肉的限制。139年后的今天,我們正在突破認知(智能)的邊界。汽車成為了移動的計算平臺,駕駛成為了人機協作的藝術,速度由數據的流轉效率重新定義物理,實現擁抱數字智能,數字智能融入實體產業,汽車恰好站在這個交匯點上,成為虛實融合的最佳載體。
我的理解是:如果說大模型的上半場是以互聯網大數據預訓練為代表的數字AI;而下半場,是以機器人、世界模型等為代表的物理AI。
汽車可能正好處于兩者之間的分水嶺上,承上啟下。重要性如何形容都不為過。
不過,分量既然重,難度系數也高。
一方面,是面向汽車智能化,所需要的資金資源,都在指數級增長;另一方面,消費者雖然喜歡中國車企所創造的智能體驗,但要真金白銀買單,或許還不到火候。
汽車的“卷”字,大概也就從中而來。這是一個投入和收益的剪刀差時刻。
此情此景之下,汽車產業成員在思考什么?阿里云,作為一個云和AI的基礎設施提供者,有什么解決之道?就特別值得探究。
一、當汽車學會"看"與"想"
智能駕駛,無疑是汽車智能化下半場最激昂的旋律。
因為無論將其推向L4、L5有多難,其不是選修課,而是決定一家車企生死的必修課,是不爭的事實,這也是所有我這次云棲大會期間所訪談的汽車人士的共識。
而談到智能駕駛,又必然談到VLA。
云棲大會汽車峰會的圓桌討論環節,元戎啟行創始人兼CEO周光說了一句讓人深思的話:"自動駕駛分級的定義太早了,是30年前的定義。當時定義L4就是基于高精度地圖、基于SLAM的定義,有個地圖能在里面跑就叫L4。"
這個觀察切中要害。30年前,當美國汽車工程師學會(SAE)制定智能駕駛分級標準時,人工智能還處于"專家系統"時代。那時的工程師們想象的智能駕駛,是一臺遵循預設規則的精密機器——如果看到紅燈就停車,如果前方有障礙物就繞行,如果車道線向左彎就轉動方向盤。
VLA的出現,改變了游戲規則。
VLA(Vision-Language-Action)是一種新一代AI架構,它不僅能“看懂”圖像、“讀懂”語言,還能基于理解直接驅動決策與動作,被視為大模型從“會說”走向“會做”的關鍵拐點。

理想汽車自動駕駛研發高級副總裁郎咸朋在圓桌上分享了一個生動的案例:"有用戶發了個'十連繞'場景的視頻——經過施工路段,隔一段就有井蓋或路障,車輛繞來繞去都成功通過。用戶第一天繞了不信,但第二天又試,還是能繞過去。"
他特別強調:"我們并沒有定義'連續繞十次井蓋'這個場景。這就是能力涌現,我們做的是能力而不是功能。"
所謂能力與功能的區別,我想就像音樂家與音樂盒的區別。音樂盒只能播放固定的曲目,每個音符都是預設的;而音樂家理解音樂的本質,可以即興創作,可以根據現場氛圍調整演奏。當自動駕駛從"功能定義"進化到"能力涌現",汽車就從機器進化成了某種新的存在。

廣汽集團自動駕駛首席科學家周寅在圓桌討論中,也從技術層面解釋了VLA為什么如此特別:"VLA利用了VLM(Vision-Language Model)的預訓練,利用互聯網海量知識讓模型具有常識(common sense)。然后通過自動駕駛數據喚醒激活,能夠處理長尾案例,實現零樣本遷移(zero-shot transfer)。"
他列舉了幾個具體的能力涌現案例:"道路施工自動避讓、復雜交通標識識別、潮汐車道處理,以及對紙箱、小動物等未訓練過的物體識別。"
郎咸朋進一步解釋了VLA中"L"(Language)的深層含義:"它并不是大家想象的對話或文字。它背后是人類長時序的思考、邏輯推理能力的體現。有人問我,不會說話的人就沒有思維能力嗎?不是的,他們也會看書、看文字,這些都是人類知識高度濃縮和壓縮的過程,表達了長時間思維能力。"
這個解釋讓我想起了維特根斯坦的名言:"語言的界限就是世界的界限。"當我們給機器賦予語言能力,我們實際上是在擴展它理解世界的邊界。
但這種認知能力的獲得是有代價的,是巨大的代價。

元戎啟行CEO周光直言不諱地談到了智駕成本結構的變化:"以前可能97%