發(fā)表時間:2024-11-01 10:58:35
文章作者:小編
瀏覽次數(shù):
AI解放碳基生物雙手,甚至能讓你的手機(jī)自己玩自己!
你沒聽錯——這其實就是移動任務(wù)自動化。
在AI飛速發(fā)展下,這逐漸成為一個新興的熱門研究領(lǐng)域。
移動任務(wù)自動化利用AI精準(zhǔn)捕捉并解析人類意圖,進(jìn)而在移動設(shè)備(手機(jī)、平板電腦、車機(jī)終端)上高效執(zhí)行多樣化任務(wù),為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。
- 幫助視障人群用戶完成導(dǎo)航、閱讀或網(wǎng)上購物
- 輔助老年人使用手機(jī),跨越數(shù)字鴻溝
- 幫助車主在駕駛過程中完成發(fā)送短信或調(diào)節(jié)車內(nèi)環(huán)境
- 替用戶完成日常生活中普遍存在的重復(fù)性任務(wù)
- ……
媽媽再也不嫌重復(fù)設(shè)置多個日歷事項會心煩了。
最近,來自西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點實驗室 (MOE KLINNS Lab)的蔡忠閩教授、宋云鵬副教授團(tuán)隊(團(tuán)隊主要研究方向為智能人機(jī)交互、混合增強(qiáng)智能、電力系統(tǒng)智能化等),基于團(tuán)隊最新AI研究成果,創(chuàng)新性提出了基于視覺的移動設(shè)備任務(wù)自動化方案VisionTasker。
這項研究不僅為普通用戶提供了更智能的移動設(shè)備使用體驗,也展現(xiàn)出了對特殊需求群體的關(guān)懷與賦能。
基于視覺的移動設(shè)備任務(wù)自動化方案
團(tuán)隊提出了VisionTasker,一個結(jié)合基于視覺的UI理解和LLM任務(wù)規(guī)劃的兩階段框架,用于逐步實現(xiàn)移動任務(wù)自動化。
該方案有效消除了表示UI對視圖層次結(jié)構(gòu)的依賴,提高了對不同應(yīng)用界面的適應(yīng)性。
值得注意的是,利用VisionTasker無需大量數(shù)據(jù)訓(xùn)練大模型。
VisionTasker從用戶以自然語言提出任務(wù)需求開始工作, Agent開始理解并執(zhí)行指令。
具體實現(xiàn)如下:
1、用戶界面理解
VisionTasker通過視覺的方法做UI理解來解析和解釋用戶界面。
首先Agent識別并分析用戶界面上的元素及布局,如按鈕、文本框、文字標(biāo)簽等。
然后,將這些識別到的視覺信息轉(zhuǎn)換成自然語言描述,用于解釋界面內(nèi)容。
2、任務(wù)規(guī)劃與執(zhí)行
接下來,Agent利用大語言模型導(dǎo)航,根據(jù)用戶的指令和界面描述信息做任務(wù)規(guī)劃。
將用戶任務(wù)拆解為可執(zhí)行的步驟,如點擊或滑動操作,以自動推進(jìn)任務(wù)的完成。
3、持續(xù)迭代以上過程
每一步完成后,Agent都會根據(jù)最新界面和歷史動作更新其對話和任務(wù)規(guī)劃,確保每一步的決策都是基于當(dāng)前上下文的。
這是個迭代的過程,將持續(xù)進(jìn)行直到判斷任務(wù)完成或達(dá)到預(yù)設(shè)的限制。
用戶不僅能從交互中解放雙手,還可以通過可見提示監(jiān)控任務(wù)進(jìn)度,并隨時中斷任務(wù),保持對整個流程的控制。
首先是識別界面中的小部件和文本,檢測按鈕、文本框等元素及其位置。
對于沒有文本標(biāo)簽的按鈕,利用 CLIP 模型基于視覺設(shè)計來推斷其可能功能。
隨后,系統(tǒng)根據(jù) UI 布局的視覺信息進(jìn)行區(qū)塊劃分,將界面分割成多個具有不同功能的區(qū)塊,并對每個區(qū)塊生成自然語言描述。
這個過程還包括文本與小部件的匹配,確保正確理解每個元素的功能。
最終,所有這些信息被轉(zhuǎn)化為自然語言描述,為大語言模型提供清晰、語義豐富的界面信息,使其能夠有效地進(jìn)行任務(wù)規(guī)劃和自動化操作。
實驗評估
實驗評估部分,該項目提供了對三種UI理解的比較分析,分別是:
- GPT-4V
- VH(視圖層級)
- VisionTasker方法
△
對比顯示,VisionTasker在多個維度上比其他方法有顯著優(yōu)勢。
此外,在處理跨語言應(yīng)用時也表現(xiàn)出了良好的泛化能力。
△
表明VisionTasker的以視覺為基礎(chǔ)的UI理解方法在理解和解釋UI方面具有明顯優(yōu)勢,尤其是在面對多樣化和復(fù)雜的用戶界面時尤為明顯。
△
文章還進(jìn)行了單步預(yù)測實驗,根據(jù)當(dāng)前的任務(wù)狀態(tài)和用戶界面,預(yù)測接下來應(yīng)該執(zhí)行的動作或操作。
結(jié)果顯示,VisionTasker在所有數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到了67%,比基線方法提高了15%以上。
真實世界任務(wù):VisionTasker vs 人類
實驗過程中,研究人員設(shè)計了147個真實的多步驟任務(wù)來測試VisionTasker的表現(xiàn),這些任務(wù)涵蓋了國內(nèi)常用的42個應(yīng)用程序。
與此同時,團(tuán)隊還設(shè)置了人類對比測試,由12名人類評估者手動執(zhí)行這些任務(wù),然后VisionTasker的結(jié)果進(jìn)行比較。
結(jié)果顯示,VisionTasker在大多數(shù)任務(wù)中能達(dá)到與人類相當(dāng)?shù)耐瓿陕剩⑶以谀承┎皇煜さ娜蝿?wù)中表現(xiàn)優(yōu)于人類。
△實際任務(wù)自動化實驗的結(jié)果 “Ours-qwen”是指使用開源Qwen實現(xiàn)VisionTasker框架,”O(jiān)urs”表示使用文心一言作為LLM
團(tuán)隊還評估了VisionTasker在不同條件下的表現(xiàn),包括使用不同的大語言模型(LLM)和編程演示(PBD)機(jī)制。
VisionTasker 在大多數(shù)直觀任務(wù)中達(dá)到了與人類相當(dāng)?shù)耐瓿陕剩谑煜と蝿?wù)中略低于人類但在不熟悉任務(wù)中優(yōu)于人類。
△
結(jié)論
作為一個基于視覺和大模型的移動任務(wù)自動化框架,VisionTasker克服了現(xiàn)階段移動任務(wù)自動化對視圖層級結(jié)構(gòu)的依賴。
通過一系列對比實驗,證明其在用戶界面表現(xiàn)上超越了傳統(tǒng)的編程演示和視圖層級結(jié)構(gòu)方法。
它在4個不同的數(shù)據(jù)集上都展示了高效的UI表示能力,表現(xiàn)出更廣泛的應(yīng)用性;并在Android手機(jī)上的147個真實世界任務(wù)中,特別是在復(fù)雜任務(wù)的處理上,表現(xiàn)了出超越人類的任務(wù)完成能力。
此外,通過集成編程演示(PBD)機(jī)制,VisionTasker在任務(wù)自動化方面有顯著的性能提升。
目前,該工作已以正式論文的形式發(fā)表于2024年10月13-16日在美國匹茲堡舉行的人機(jī)交互頂級會議UIST(The ACM Symposium on User Interface Software and Technology)。
UIST是人機(jī)交互領(lǐng)域?qū)W⒂谌藱C(jī)界面軟件和技術(shù)創(chuàng)新的CCF A類頂級學(xué)術(shù)會議。
關(guān)注多享有數(shù),持續(xù)為您分享行業(yè)熱點要聞!
四川多享信息技術(shù)有限公司是一家專注于數(shù)字化服務(wù)、系統(tǒng)開發(fā)、新媒體營銷、農(nóng)村電商的專業(yè)互聯(lián)網(wǎng)公司,公司位于成都高新區(qū)天府二街,成立16年,擁有豐富開發(fā)經(jīng)驗,至今已助力5000+中小企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型升級。
研發(fā)了B2C商城系統(tǒng)、私域電商系統(tǒng)、分銷商城系統(tǒng)、S2B2b2C供應(yīng)鏈電商系統(tǒng)、小程序商城系統(tǒng)等,支持中臺云倉、供應(yīng)商、自營商城、直播、短視頻、分銷、零售商管理、運營商管理、營銷工具、數(shù)據(jù)分析、會員儲值、積分商城等功能,幫助企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型,助力降本增效,獲取更多收益!
- 01-132025的生意增長,必須看到的機(jī)遇
- 01-09淘寶推出「送禮物」功能:領(lǐng)取時限24小時,春節(jié)「送禮大戰(zhàn)」愈演愈烈
- 01-06如何構(gòu)建數(shù)據(jù)產(chǎn)品:2025年數(shù)據(jù)行業(yè)開啟的新技能
- 01-02工信部:推動“5G+工業(yè)互聯(lián)網(wǎng)”創(chuàng)新發(fā)展
- 12-31豆包定價一元的野心:字節(jié)跳動打響AI突圍戰(zhàn)
- 12-27直播內(nèi)容卷出新高度,行業(yè)還有紅利嗎?
- 12-26十年一輪回,微信“送禮物”能否復(fù)制紅包奇跡?
- 12-26《2025全球消費者趨勢》,消費者更深思熟慮了
- 12-252024 AI大模型年度十大關(guān)鍵詞發(fā)布
- 12-25政企辦公應(yīng)用「鴻蒙化」勢頭正勁
- 12-242025年7個令人關(guān)注的數(shù)據(jù)治理趨勢
- 12-24從 OpenAI 12 天發(fā)布會里,我們看到了行業(yè)的四個關(guān)鍵問題
- 12-23互聯(lián)網(wǎng)入口不再屬于瀏覽器,未來是對話式AI的
- 12-23人工智能時代的數(shù)據(jù)戰(zhàn)略
- 12-20第三季度我國上市互聯(lián)網(wǎng)企業(yè)市值大漲 環(huán)比上升25.4%
- 12-20政策春風(fēng)助力零售業(yè),AI+SaaS引領(lǐng)數(shù)字化轉(zhuǎn)型與增長新機(jī)遇
- 12-19微信小店灰測“送禮物”功能
- 12-192024年十大科技進(jìn)步,除了AI還有這九個
- 12-18私域運營深度解析:6大策略提升客戶生命周期價值
