發表時間:2024-10-29 09:55:22
文章作者:小編
瀏覽次數:
經過一年多的搖旗吶喊,AI手機終于還是在2024年完成了對智能手機的替代。
至少在概念上,幾大主流手機廠商今年在傳播口徑上都已經陸續完成了向AI手機的轉變,就連蘋果也高調選擇了與OpenAI聯姻。
即便如此,對于大多數消費者來說,依然沒有弄明白「AI手機」和「智能手機」究竟有何不同。
關于AI手機,我今年看到最多、也是最直接的AI功能是「AI讀屏」:
手機搭載的智能體像人類一樣識別出手機屏幕上的內容,然后一步一步按人類的思維邏輯完成常見的諸如線上購物、朋友圈點贊評論等功能。
與智能手機中的AI不同的是:
這樣的AI有了明顯的“思維鏈”,實現邏輯更為復雜。
與智能手機時代的功能設計邏輯不同的是:
這次,「AI讀屏」功能的后臺執行邏輯,被手機廠商在手機屏幕上完整呈現了出來。
對于大多數普通消費者來說,人工智能的自動化能力第一次被具象化,帶來的是最直接的視覺沖擊。
?那么,這樣的“讀屏術”在技術上是如何實現的?
01 微軟谷歌神仙過招,端側AI雛形初顯
大模型炸場后,微軟和谷歌的往來過招,成了這場曠世之爭的看點,AI手機的“讀屏術”正是在這樣的神仙過招中逐漸成形。
2023年2月8日,微軟New Bing(Bing AI)發布,這是微軟與OpenAI聯手后,借生成式AI面向搜索引擎發起的新一輪沖擊,New Bing在ChatGPT加持下,曾斬獲不小市場熱度,也一度把谷歌嚇得不輕。
面對被視為ChatGPT版的New Bing,谷歌隨后祭出了自己的Bard。
Bard是由谷歌內部早在2021年就已經對外發布、同樣是基于Transformer架構的LaMDA提供支持,但當時還是一個實驗性的聊天機器人。
這是谷歌和微軟在生成式AI領域第一次正面較量,雙方的這次較量,讓搜索引擎這一互聯網老產品,有了一些Chat新花樣。
不過,此時的生成式AI,還沒有對端側造成直接沖擊。
真正的沖擊,是在微軟Copilot發布后。
2023年3月16日,微軟對外官宣,正式為Microsoft 365應用加持Copilot服務(Microsoft 365 Copilot),在將生成式AI疊加到辦公軟件后,真正的內容生成魔力開始成為生產力工具的一部分。
大模型由此也在企業辦公軟件領域形成了一股潮流,開啟了搶灘登陸模式。
就谷歌和微軟兩大科技巨頭而言,為了做出生成式AI技術模式下的殺手級應用,他們動用了生態力量——分別將Windows生態和安卓生態面向大模型全面打開。
這之后,二者的大模型之爭開始下沉到端側。
經過大概半年試錯和打磨后,谷歌和微軟分別在端側拿出了自己的“關鍵作品”:
谷歌是在2023年10月發布的pixel 8系列手機上增加了一個名為Circle to Search的功能。
有了這一功能,只要你對著手機屏幕上的圖片圈出你想了解的產品,谷歌AI就可以自動搜索出這一產品的相關信息和出處。
這一功能后來也被三星拿去作為Galaxy AI的主打功能,對外宣傳推廣。
實際上,在這一功能出現之前谷歌對Bard進行過一次升級,更新后的Bard可以從Gmail、Docs、谷歌地圖、YouTube等應用中總結信息,也是在那時,個人本地知識庫開始被谷歌用于深度檢索(也就是RAG),并由此衍生出為用戶提供出行建議、日程安排等功能的個人助理。
Circle to Search自然是承襲了這一能力。
微軟則是在2024年5月20日AI PC發布會上官宣發布了Recall功能。
這一功能是通過微軟Copilot,幫助用戶根據記憶點或時間線來跳回到此前某個時間點電腦上顯示的原始內容。
實際上,除了這兩位AI大佬外,當初為了拿下蘋果的大模型訂單并獲得新一輪融資,OpenAI發布了GPT-4o,并秀了一波視覺識別的功能。
通過手機攝像頭,讓GPT-4o解寫在紙上的數學題,甚至識別出現在鏡頭前用戶的情緒。
檢索增強生成(RAG)和包括語言、視覺在內的多模態大模型技術的成熟,以及大模型在端側的下沉和應用,讓AI讀屏功能在手機上出現成了順理成章。
02「AI讀屏」工作流
2024年的手機圈,AI讀屏功能正在迅速成為標配。
僅以上周手機圈密集的發布會上對外公布的信息來看:
先有華為在鴻蒙發布會上對外發布的小藝圈選功能(類似谷歌的Circle to Search),又有榮耀在更新新系統時對外發布演示的“一句話點咖啡”功能。
在OPPO Find X8系列發布會上,OPPO更為直接地上新了「一鍵問屏」功能。
或許是因為是針對手機系統的發布會,榮耀雖然請了沈騰作為公司的AI大使,還做了主題為“AI就是一句話的事兒”廣告,但并沒有針對這一功能給出明確的諸如「AI讀屏」或「一鍵問屏」這樣的命名。
不過,榮耀CEO趙明倒是在發布會上講明白了「AI讀屏」功能的具體工作流。
在趙明的介紹中,AI讀屏的工作流可以分為三步(以“幫我點杯喝的吧,我有些困了”語音指令為例):
第一步,模糊意圖理解。
手機內置的智能體將語音指令進行拆分理解,分析用戶意圖是“困了”想點杯解困的“喝的”,篩選出可能選項(咖啡、綠茶、涼茶等)。
第二步,復雜任務規劃。
首先智能體根據手機時間信息、定位信息,識別出最終配送地址;
然后智能體根據手機已有的本地個人知識庫中收集到的你的日常飲食習慣,得出你希望點單的咖啡的品牌、甜度、是否加冰等信息(如果是新手機,這一步會卡殼,就需要用戶手動點選);
最終智能體確認具體的點單信息并自動填充配送地址。
第三步,任務自動執行。
首先智能體識別出手機屏幕上的本地生活服務APP(例如美團),并搜索咖啡品牌(例如瑞幸);
其次識別并理解屏幕上的關鍵信息,進入外賣點單頁面(例如瑞幸的幸運送);
然后根據已經規劃出的用戶點單內容(例如大杯少冰正常糖拿鐵),在屏幕上一步一步進行類人的點選操作;
最后進入到結算頁面,用戶接管,由用戶并選擇是否用優惠券、是否確認下單。
如果說ChatGPT在全球形成的熱潮讓大家意識到了生成式AI、大模型的顛覆性,那么作為一個更聰明的聊天機器人,它首先帶來的是又一次交互模式的改變。
AI讀屏就是人類和手機交互模式改變的一個重要體現。
03 當AI開始接管你的手機
如果結合微軟、谷歌大模型之爭來看,AI讀屏背后的技術邏輯,和微軟的Recall、谷歌的Circle to Search,以及OpenAI的GPT-4o有著諸多相似之處。
從技術實現原理上來看,包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini、阿里通義千問在內的所有主流大模型,都能做出AI讀屏功能。
實際上,就在手機圈紛紛押注AI讀屏功能時,在上周與三星中國官宣了戰略合作的智譜AI在2024中國計算機大會(CNCC 2024)上發布了AutoGLM。
什么是AutoGLM?
智譜AI的大模型是以GLM做得命名,AutoGLM也就是擁有自主能力的大模型,有媒體將它解讀為是學會了使用工具的大模型,但本質上就是在手機上實現了AI讀屏功能。
從官方公布的信息來看,這一模型目前是以App中的一個功能模塊對外呈現(只支持安卓手機,現在還在內測階段),并沒有與手機底層系統強關聯,也不挑手機品牌。
如果說在這套流程中,手機廠商的地位有何獨特之處的話,那應該是平臺和數據了。
作為手機這一超級硬件的主導者,手機廠商不僅掌握著平臺入口,更有強大的系統集成能力。
這就意味著決定端側智能體智能程度的本地個人知識庫,以及端側智能體的微調、優化能力,對幾大手機廠商的軟件團隊有很強的依賴性。
實際上,早在10月22日,OpenAI的頭號死敵Anthropic就對外官宣發布了Claude 3.5 Sonnet,在這次版本更新中,Anthropic加入了一個獨特的功能是”computer use“。
這個computer use,其實就是PC版本的AI讀屏,它可以讀取你PC的屏幕,并根據你給出的一段話的任務指令,自動完成諸如搜旅游攻略、寫程序代碼等功能。
不過,在Anthropic官方的描述中,在OSWorld(評估 AI 模型像人類一樣使用計算機的能力)上,Claude 3.5 Sonnet的得分為14.9%,遠未達到人類平均水平,人類平均得分是70%-75%。
要想提高模型準確度,本地個人知識庫也就成了必須。
在過去這短短一周里,這么多AI巨頭和手機廠商都瞄準了AI讀屏功能在猛攻,顯然是將這一功能視為了AI手機的殺手級應用。
AI讀屏,確實最能體現AI手機的“AI”與智能手機的“AI”的本質區別,也是各大手機廠商的機會。
對于像我們這樣的普通消費者來說,未來,AI不只會接管你的手機,甚至還會接管你的PC,乃至更多電子設備。
而這樣的UI Agent,其實還不是端側智能體的終極形態。
關注多享有數,持續為您分享行業熱點要聞!
四川多享信息技術有限公司是一家專注于數字化服務、系統開發、新媒體營銷、農村電商的專業互聯網公司,公司位于成都高新區天府二街,成立16年,擁有豐富開發經驗,至今已助力5000+中小企業實現數字化轉型升級。
研發了B2C商城系統、私域電商系統、分銷商城系統、S2B2b2C供應鏈電商系統、小程序商城系統等,支持中臺云倉、供應商、自營商城、直播、短視頻、分銷、零售商管理、運營商管理、營銷工具、數據分析、會員儲值、積分商城等功能,幫助企業實現數字化轉型,助力降本增效,獲取更多收益!
- 01-132025的生意增長,必須看到的機遇
- 01-09淘寶推出「送禮物」功能:領取時限24小時,春節「送禮大戰」愈演愈烈
- 01-07抖音電商投入數億元成立“小商家幫扶基金”
- 01-06如何構建數據產品:2025年數據行業開啟的新技能
- 01-02工信部:推動“5G+工業互聯網”創新發展
- 12-31豆包定價一元的野心:字節跳動打響AI突圍戰
- 12-27直播內容卷出新高度,行業還有紅利嗎?
- 12-26十年一輪回,微信“送禮物”能否復制紅包奇跡?
- 12-26《2025全球消費者趨勢》,消費者更深思熟慮了
- 12-252024 AI大模型年度十大關鍵詞發布
- 12-25政企辦公應用「鴻蒙化」勢頭正勁
- 12-242025年7個令人關注的數據治理趨勢
- 12-24從 OpenAI 12 天發布會里,我們看到了行業的四個關鍵問題
- 12-23互聯網入口不再屬于瀏覽器,未來是對話式AI的
- 12-23人工智能時代的數據戰略
- 12-20第三季度我國上市互聯網企業市值大漲 環比上升25.4%
- 12-20政策春風助力零售業,AI+SaaS引領數字化轉型與增長新機遇
- 12-19微信小店灰測“送禮物”功能
- 12-192024年十大科技進步,除了AI還有這九個
- 12-18私域運營深度解析:6大策略提升客戶生命周期價值
