當下各大科技巨頭競爭最為激烈的AI賽道再傳強音。
3月31日,新一期百度AI DAY上,百度方面官宣,「文小言」完成品牌煥新與功能升級,升級後的「文小言」除品牌視覺形象煥新外,「文小言」整合百度自研的文心X1、文心4.5等頂尖模型,並接入DeepSeek-R1、可靈等第三方優質模型,實現了多模型間的智能協同。
多模型融合:打造AI「超級大腦」 重新定義用戶體驗
「文小言」此次升級的核心亮點在於「多模型融合調度」。通過整合百度自研的文心X1、文心4.5等頂尖模型,並接入DeepSeek-R1、可靈等第三方優質模型,「文小言」實現了多模型間的智能協同。用戶只需選擇「自動模式」,即可一鍵調用最優模型組合,或根據需求靈活選擇單一模型完成特定任務,大幅提升響應速度與任務處理能力。
以「設計三種風格的南偏東客廳效果圖」為例,「文小言」能夠精準解析裝修風格差異,調用文心X1完成深度推理,生成三幅風格迥異但視角一致的裝修效果圖;隨手拍攝一張茅臺鎮的照片,「文小言」就可以調用文心4.5的多模態分析能力,精準識別出地理位置、當地產業、建築風格等詳細信息。
百度AI產品創新業務負責人薛蘇強調:「AI的未來不再是單純的技術參數比拼,而是如何通過多模型協同,真正為用戶創造價值。「文小言」希望通過開放生態,整合頂尖模型能力,做出更強大、更簡單的AI產品。」 支持多模型融合調度,升級全新語音大模型、圖片問答、AI生圖生視頻等多項能力,為用戶帶來更智能、更高效的AI體驗。
功能升級:全新語音大模型、圖片問答 解鎖AI應用新場景
圖片問答功能非常吸睛
此次功能升級,「文小言」進一步提升了全新語音大模型、圖片問答、AI生圖生視頻等能力,全面優化用戶體驗。
全新語音大模型支持方言對話、複雜知識問答及隨時打斷等場景,用戶可進行語音知識問答或趣味角色扮演。
百度語音首席架構師賈磊透露,該模型是百度在業界首個推出、基於全新互相關注意力(Cross-Attention)的端到端語音語言大模型。在語音場景滿足一定交互指標下,大模型調用成本比行業平均降低50%-90%,推理響應速度極快,將語音交互等待時間壓縮至1秒左右,極大提升了交互流暢性。同時,在大模型加持下,實現了流式逐字的LLM驅動的多情感語音合成,情感飽滿、逼真、擬人,交互聽感也得到極大提升。
圖片問答功能讓用戶可以通過拍攝或上傳圖片,以文字或語音提問直接獲取深度解析。例如,拍攝一道數學題可實時生成解題思路與視頻解析;上傳多款商品圖可對比參數、價格,輔助購物決策;拍攝杯子設計圖後,AI可自動解析風格並生成同款手機殼、支架等周邊產品。
值得一提的是,新增的「圖個冷知識」功能更富趣味性,用戶可預設「歷史學者」「科技達人」等人設視角,為同一圖片賦予多維解讀。例如,當用戶詢問「貓窗探秘,為何貓愛窗邊的科學真相?」,「文小言」能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。(記者 楊凌雲)
頂圖:百度AI DAY現場