人機(jī)交互系統(tǒng)
人機(jī)交互系統(tǒng)(HCI),又稱交互系統(tǒng)、用戶界面、人機(jī)界面、人機(jī)接口等。,是一門研究人、計(jì)算機(jī)和其他設(shè)備之間的通信以最大程度地為人們完成信息管理、服務(wù)和處理的技術(shù)科學(xué),可以使計(jì)算機(jī)和其他設(shè)備真正成為人們工作、學(xué)習(xí)和生活的助手。人機(jī)交互系統(tǒng)具有魯棒性、友好性、靈活性和透明性的特點(diǎn)。
人機(jī)交互系統(tǒng)是以計(jì)算機(jī)為基礎(chǔ)的系統(tǒng),由軟件系統(tǒng)和硬件系統(tǒng)組成。其中,軟件是人機(jī)交互系統(tǒng)的核心,相應(yīng)的硬件系統(tǒng)設(shè)備為軟件的正常運(yùn)行提供了基礎(chǔ)保障和運(yùn)行環(huán)境。人機(jī)交互系統(tǒng)的工作原理是將事物的信息轉(zhuǎn)換為數(shù)字信息,然后通過人與人之間的交互獲得人與物之間的聯(lián)系。人機(jī)交互系統(tǒng)的關(guān)鍵技術(shù)包括觸摸屏技術(shù)、語音處理技術(shù)和體感動作識別技術(shù)。到2024年,人機(jī)交互的主要類型是語音交互、視覺交互、可穿戴交互、腦電交互和觸覺交互。未來,研究如何實(shí)現(xiàn)自然、便捷和無處不在的人機(jī)交互是現(xiàn)代信息技術(shù)和人工智能技術(shù)研究的最高目標(biāo),也是數(shù)學(xué)、信息科學(xué)、智能科學(xué)、神經(jīng)科學(xué)、生理學(xué)和心理學(xué)的新交叉領(lǐng)域,將引導(dǎo)21世紀(jì)初信息和計(jì)算機(jī)研究的熱點(diǎn)方向。
人機(jī)交互系統(tǒng)的發(fā)展與計(jì)算機(jī)的發(fā)展基本同步,主要經(jīng)歷人工操作與命令行交互、圖形用戶界面交互和自然人機(jī)交互三個階段。1946年,第一臺通用計(jì)算機(jī)Eniac在美國賓夕法尼亞州誕生。操作員根據(jù)不同功能面板上的開關(guān)鍵輸入數(shù)據(jù)。
從20世紀(jì)60年代中期到80年代,計(jì)算機(jī)使用基于鍵盤的命令行界面。20世紀(jì)70年代,施樂公司首次在奧拓計(jì)算機(jī)中開發(fā)出位圖像的圖形顯示技術(shù),為第一代人機(jī)界面即WIMP界面奠定了基礎(chǔ)。
1984年,蘋果將WIMP技術(shù)引入微型計(jì)算機(jī)領(lǐng)域。次年,微軟推出了Windows操作系統(tǒng)。此后,直接操作界面和WIMP模式被廣泛使用。1995年,利諾伊斯大學(xué)開發(fā)了“洞穴”虛擬現(xiàn)實(shí)系統(tǒng),實(shí)現(xiàn)了身臨其境的體驗(yàn)。2006年,以色列PrimeSense公司推出了基于光編碼技術(shù)的3D傳感器PrimeSense。2011年,Tobii推出了一款具有眼球追蹤技術(shù)的產(chǎn)品,該技術(shù)允許用戶僅通過眼球運(yùn)動來控制系統(tǒng)。同年,Culus公司推出了體驗(yàn)良好的頭戴式顯示設(shè)備0cuusRi。從2015年到2022年,隨著大量虛擬現(xiàn)實(shí)產(chǎn)品的出現(xiàn),推動了VR技術(shù)的發(fā)展和創(chuàng)新,同時(shí)也在無形中促進(jìn)了用戶體驗(yàn)更好的產(chǎn)品的研發(fā),人機(jī)交互也進(jìn)入了自然人機(jī)交互階段。
發(fā)展歷史
1946年,第一臺通用計(jì)算機(jī)——電子數(shù)字積分器和計(jì)算器(ENIAC)在美國賓夕法尼亞州誕生。Eniac是一臺巨大的機(jī)器,有30多個控制臺。輸入是操作員手動打開或關(guān)閉計(jì)算機(jī)上的電路板,輸出是電路板上燈的亮度。Eniac中的每個功能儀表都有多個開關(guān),操作員可以根據(jù)不同功能面板上的開關(guān)鍵輸入數(shù)據(jù)。20世紀(jì)50年代,信息被記錄在穿孔卡片上,然后批量輸入計(jì)算機(jī)。當(dāng)計(jì)算機(jī)完成處理后,結(jié)果以字符終端結(jié)合指示燈的形式輸出給用戶。在計(jì)算機(jī)輸出最終結(jié)果之前,用戶不能中斷計(jì)算機(jī)的操作進(jìn)行任何其他形式的輸入,因此這種方法也稱為批處理。然而,這種方法由于速度慢、穩(wěn)定性差而逐漸被淘汰。
1956年,麻省理工學(xué)院開始使用鍵盤向計(jì)算機(jī)輸入數(shù)據(jù)。自20世紀(jì)60年代中期以來,大多數(shù)計(jì)算機(jī)都使用基于鍵盤的命令行界面。用戶在指令行界面上鍵入指令,界面接收指令并將其轉(zhuǎn)換為相應(yīng)的系統(tǒng)函數(shù)。從20世紀(jì)70年代到80年代,人們繼續(xù)采用這種互動模式。眾所周知,UNIX、微軟DOS和蘋果DOS都是通過命令行指令實(shí)現(xiàn)的。
20世紀(jì)60年代,圖形用戶界面的出現(xiàn)極大地改變了人機(jī)交互的方式。GUI簡單易學(xué),鍵盤操作少,不懂電腦的普通用戶也能熟練使用。這增加了用戶基礎(chǔ),并使計(jì)算機(jī)技術(shù)得到廣泛應(yīng)用。1963年,斯坦福研究所的科學(xué)家恩格爾巴特發(fā)明了鼠標(biāo)。此后,經(jīng)過不斷改進(jìn),該鼠標(biāo)已成功應(yīng)用于蘋果和微軟等公司的圖形界面系統(tǒng)中。鼠標(biāo)和鍵盤一起成為計(jì)算機(jī)系統(tǒng)中必不可少的輸入設(shè)備。自20世紀(jì)90年代以來,隨著全球網(wǎng)絡(luò)熱的升溫,鼠標(biāo)已成為必備的人機(jī)交互工具。
20世紀(jì)70年代,施樂首次在Alto computer中開發(fā)了位圖圖形顯示技術(shù),使開發(fā)重疊窗口、彈出菜單和菜單欄成為可能。這些工作奠定了圖形用戶界面的基礎(chǔ),并形成了基于窗口、圖標(biāo)、菜單和定點(diǎn)設(shè)備的第一代人機(jī)界面,即WIMP界面。1984年,蘋果公司模仿PARC技術(shù)開發(fā)了新的麥金塔個人電腦,并將WIMP技術(shù)引入微型計(jì)算機(jī)領(lǐng)域。這種基于鼠標(biāo)和下拉菜單的操作方式和直觀的圖形界面引發(fā)了微機(jī)人機(jī)界面的歷史性變革。1985年,微軟推出了Windows操作系統(tǒng)。此后,directmanipulation Interface(DM)和WIMP(窗口、圖標(biāo)、菜單和指針,即窗口、圖標(biāo)、菜單和指示器)得到了廣泛應(yīng)用。與此同時(shí),用戶界面管理開始從應(yīng)用程序功能中分離出來,人機(jī)交互的研究重點(diǎn)轉(zhuǎn)向用戶中心化設(shè)計(jì),所見即所得(WYSIWYC)的概念成為界面設(shè)計(jì)的流行指導(dǎo)原則。
1972年,諾蘭·布什內(nèi)爾發(fā)明了第一臺交互式電子游戲Pong,并首次將控制技術(shù)應(yīng)用于人機(jī)交互系統(tǒng)。1977年,托拉·德芬蒂和丹尼爾·桑丁開發(fā)了一種手套傳感器系統(tǒng)SayreClove。用戶只需要戴上這種特殊的手套就可以向計(jì)算機(jī)輸入特定的指令。1983年,格里姆斯設(shè)計(jì)了一種數(shù)據(jù)手套,可以讓計(jì)算機(jī)獲得手的位置和手指的伸展等信息,并最早獲得了“數(shù)據(jù)手套”的專利。1985年,美國國家航空航天局開發(fā)了一種LCD光學(xué)頭戴式顯示器,它結(jié)合了頭部和手部跟蹤功能,以實(shí)現(xiàn)更身臨其境的體驗(yàn)。它主要用于太空作戰(zhàn)的模擬訓(xùn)練。1995年,利諾伊斯大學(xué)開發(fā)了“洞穴”虛擬現(xiàn)實(shí)系統(tǒng),通過三面墻的投影空間和立體液晶快門眼鏡實(shí)現(xiàn)了身臨其境的體驗(yàn)。2002年,日本三洋電機(jī)開發(fā)了一種不戴眼鏡就能觀看立體圖像的顯示器,這種顯示器被稱為裸眼立體顯示器。2020年,MIT數(shù)據(jù)手套、5DT數(shù)據(jù)手套、CyberClove等數(shù)據(jù)手套進(jìn)入商用領(lǐng)域,并在電子游戲、體能訓(xùn)練和體能康復(fù)訓(xùn)練等各種場景中投入使用。
2005年,以色列的PrimeSense公司啟動了一個項(xiàng)目,開發(fā)能夠使數(shù)字設(shè)備獲得現(xiàn)實(shí)世界三維感知的技術(shù)。次年,該公司推出了基于光編碼技術(shù)的3D傳感器PrimeSense。2006年,任天堂開發(fā)了Wii遙控游戲機(jī),使用簡單的手持設(shè)備來檢測控制器在空間中的旋轉(zhuǎn)和移動,并通過這種方式讓玩家體驗(yàn)體感游戲中的交互方式。2007年,蘋果發(fā)布了第一代觸摸屏和顯示屏同屏的iPhone,標(biāo)志著人機(jī)交互第二次革命的開始。
2010年6月,微軟宣布與PrimeSense合作開發(fā)的體感交互設(shè)備Kinect,這樣體感交互就不需要任何手持或可穿戴設(shè)備,傳感器可以主動感知用戶的三維姿勢并理解用戶的交互意圖。這款設(shè)備一問世,就打破了消費(fèi)電子產(chǎn)品最快銷售的吉尼斯世界紀(jì)錄。2011年,Tobii推出了兩款具有眼球跟蹤技術(shù)(跟蹤眼球運(yùn)動)的產(chǎn)品,使用戶能夠僅使用眼球運(yùn)動來控制他們的系統(tǒng)。這種眼球追蹤技術(shù)最早出現(xiàn)在筆記本電腦上,后來它也被應(yīng)用到可以與PC連接的獨(dú)立設(shè)備上。這項(xiàng)技術(shù)已被納入更多的系統(tǒng)。
2013年2月,Leap公司發(fā)布的LeapMotion設(shè)備將手勢交互提升到了一個新的高度,并通過視覺處理識別徒手交互,推動了虛擬現(xiàn)實(shí)的發(fā)展速度。同年,Culus公司推出了體驗(yàn)良好的頭戴式顯示設(shè)備0cuusRi。2014年,F(xiàn)aeebook以20億美元的價(jià)格收購了0culus公司及其開發(fā)團(tuán)隊(duì),這讓VR再次升溫,虛擬現(xiàn)實(shí)技術(shù)迎來了爆發(fā)期。
從2015年到2022年,在0cuusRi問世后,HTC與Valve合作推出了Vive,微軟推出了HoloLens,谷歌投資了Magic Leap,索尼推出了Play Station VR。各大行業(yè)巨頭在虛擬現(xiàn)實(shí)行業(yè)的布局引發(fā)了其全球火爆的局面,國內(nèi)也出現(xiàn)了暴風(fēng)魔鏡、Idealense、3Class 3等一大批虛擬現(xiàn)實(shí)設(shè)備制造商和內(nèi)容提供商,推動了VR技術(shù)的發(fā)展和創(chuàng)新,但也在無形中促進(jìn)了它的發(fā)展。到2022年底,人類常用的自然交互方法研究取得重大成果,包括手寫識別、筆式交互、語音識別、語音合成和DigitalInk等。
基本原理
人機(jī)交互的原理是將事物的信息轉(zhuǎn)換為數(shù)字信息,然后通過人機(jī)交互獲得人與事物之間的聯(lián)系。人與計(jì)算機(jī)使用一定的對話語言,以一定的交互方式完成具有一定任務(wù)的人與計(jì)算機(jī)之間的信息交換過程。但是,對于事物之間的連接,它還沒有大規(guī)模部署。主要“瓶頸”在于構(gòu)建“物物連接”網(wǎng)絡(luò)的成本較高,技術(shù)有待進(jìn)一步研發(fā)。
基本組成
人機(jī)交互系統(tǒng)是一個基于計(jì)算機(jī)的系統(tǒng),由軟件系統(tǒng)和硬件系統(tǒng)組成。其中,軟件是人機(jī)交互系統(tǒng)的核心,相應(yīng)的硬件系統(tǒng)設(shè)備為軟件的正常運(yùn)行提供了基礎(chǔ)保障和運(yùn)行環(huán)境。此外,任何強(qiáng)大的人機(jī)交互系統(tǒng)都只是輔助工具,系統(tǒng)的運(yùn)行離不開系統(tǒng)使用者的創(chuàng)造性思維活動。因此,使用人機(jī)交互系統(tǒng)的技術(shù)人員也是系統(tǒng)的一部分。軟件、硬件和人的有效融合是發(fā)揮人機(jī)交互系統(tǒng)強(qiáng)大功能的前提。
硬件部分:人機(jī)交互的硬件系統(tǒng)通常是指用戶可以相互交互的獨(dú)立硬件環(huán)境。人機(jī)交互的硬件主要包括主機(jī)、輸入設(shè)備(鍵盤、鼠標(biāo)、掃描儀等。)、輸出設(shè)備(顯示器、繪圖儀、打印機(jī)等)。)、信息存儲設(shè)備(主要是外部存儲器,如硬盤、軟盤、光盤等。)、網(wǎng)絡(luò)設(shè)備和多媒體,如下圖所示。
軟件組成:人機(jī)交互系統(tǒng)的軟件分為三個層次,即系統(tǒng)軟件、支撐軟件和應(yīng)用軟件。系統(tǒng)軟件是與計(jì)算機(jī)硬件直接相關(guān)的軟件,一般由專業(yè)軟件開發(fā)商開發(fā)。它起到了擴(kuò)展計(jì)算機(jī)功能、合理調(diào)度和使用計(jì)算機(jī)的作用。系統(tǒng)軟件有兩個特點(diǎn):第一,它是公共的,它應(yīng)該用于任何應(yīng)用領(lǐng)域;二是基礎(chǔ)性,各種配套軟件和應(yīng)用軟件都需要在系統(tǒng)軟件的支持下運(yùn)行。
互動類型
人機(jī)交互系統(tǒng)的典型類型包括語音交互、視覺交互、可穿戴交互和腦電交互。
語音交互:語音交互是通過自然語音或機(jī)器合成語音與計(jì)算機(jī)進(jìn)行交互的綜合技術(shù)。通過識別和理解,機(jī)器將語音信號轉(zhuǎn)換為相應(yīng)的文本或命令,人們通過語音與機(jī)器進(jìn)行交流,使機(jī)器能夠理解用戶的交互意圖。語音交互是一種高效的交互方式,解放了人們的雙手,廣泛應(yīng)用于智能機(jī)器人、智能家居、駕駛導(dǎo)航等場合。語音交互的典型產(chǎn)品包括語音助手蘋果Siri、谷歌助手和微軟Cortana;語音音箱亞馬遜Echo、蘋果HomePod、谷歌Home、微軟Invoke和阿里天貓精靈。
視覺互動:視覺交互是通過拍攝或掃描物理世界中的人和物體來獲得數(shù)字圖像或圖像序列,并利用模式識別和機(jī)器學(xué)習(xí)技術(shù)來識別其物體的運(yùn)動。典型應(yīng)用包括生物識別、計(jì)算機(jī)視覺、手勢識別、人體跟蹤、字符識別等。視覺交互的典型產(chǎn)品是谷歌眼鏡,它通過智能語音交互功能解放用戶的雙手,其虛擬顯示屏為用戶帶來全新的視覺體驗(yàn)。
可穿戴交互:可穿戴交互是指可穿戴計(jì)算機(jī)是一種超微型、可穿戴的人機(jī)“最佳組合與協(xié)作”。可穿戴交互是通過附著在人體上的微型計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)的。該系統(tǒng)始終處于工作、待機(jī)和可訪問狀態(tài),增強(qiáng)了人的感知能力,主動感知佩戴者的情況、環(huán)境和需求,并獨(dú)立做出適當(dāng)?shù)捻憫?yīng),從而弱化“人操作機(jī)器”,強(qiáng)化“機(jī)器輔助人”。可穿戴交互主要包括智能眼鏡、智能手表、智能腕帶、智能跑鞋、智能戒指、智能臂帶、智能腰帶、智能頭盔和智能按鈕。
腦電圖相互作用:腦電交互基于腦電信號分析,可以提供人機(jī)交互的直接方式,即依靠人類的腦電波信號來識別并將其翻譯為機(jī)器的指令。腦電識別和腦電交互將對人機(jī)交互產(chǎn)生革命性的影響。腦電交互是人機(jī)交互的一個重要方向。在世界范圍內(nèi),對人腦和類腦的研究引起了極大的關(guān)注。2013年,《科學(xué)》雜志提出了六個值得關(guān)注的科學(xué)領(lǐng)域,人腦互聯(lián)項(xiàng)目就是其中之一。歐盟也啟動了人腦工程項(xiàng)目。2013年,歐盟公布了“未來和新興技術(shù)(FET)旗艦項(xiàng)目”競賽結(jié)果。石墨烯和人腦工程從21個候選項(xiàng)目中脫穎而出,獲得最終大獎,未來十年將分別獲得10億歐元的科研資助。
觸覺互動:觸覺交互是指用戶用手指或數(shù)字筆在觸摸屏、圖形板或手寫板上點(diǎn)擊或書寫,電子墨水形成的筆跡被識別為書寫內(nèi)容或手勢命令。
關(guān)鍵技術(shù)
觸摸屏技術(shù)
觸摸屏技術(shù)允許用戶通過觸摸屏幕輸入信息,包括電阻、電容、紅外、表面聲波等技術(shù)。目前,移動終端主要采用電容式技術(shù)觸摸屏。2018年底,電容技術(shù)成為主流。這項(xiàng)技術(shù)的歷史可以追溯到蘋果公司的第一臺PDA,它開啟了觸摸屏在移動終端中的應(yīng)用,尤其是iPhone的推出,徹底改變了觸摸屏技術(shù)的應(yīng)用范圍和用戶交互方式,使觸摸不再局限于簡單的點(diǎn)擊和滑動,也促進(jìn)了觸摸屏應(yīng)用的廣泛發(fā)展。觸摸屏技術(shù)不僅改變了設(shè)備的操作習(xí)慣,而且在軟件支持和人體工程學(xué)方面也有巨大的潛力有待開發(fā)。
語音處理技術(shù)
語音處理技術(shù)可以對移動終端接收到的語音信號進(jìn)行簡單處理,語音撥號和語音控制是移動終端的配置之一。典型的語音處理應(yīng)用是iPhone的Siri,它可以識別從移動終端接收的語音,并通過網(wǎng)絡(luò)將信息發(fā)送回計(jì)算中心進(jìn)行匹配處理,然后將其發(fā)送回移動終端以給用戶相應(yīng)的反饋。
體感動作識別技術(shù)
2009年,微軟發(fā)布了Xbox360的外設(shè)Kinect。Kinect可以在沒有任何控制器的情況下捕捉玩家在三維空間中的動作并完成指令輸入。Kinect使用連續(xù)光(近紅外)對測量空間的光斑進(jìn)行編碼,通過傳感器讀取編碼后的散射光,然后對其進(jìn)行解碼以生成具有深度的3D圖像。然后它對連續(xù)的3D圖像進(jìn)行分析,過濾掉干擾噪聲,提取人體模型,記錄人體動作,并通過機(jī)器學(xué)習(xí)理解用戶的肢體動作,最終生成具有20個關(guān)節(jié)的人體骨架,從而理解人體動作。體感運(yùn)動識別技術(shù)不僅用于運(yùn)動檢測,還可以在細(xì)化后解讀面部表情、肌肉和唇語,還可以與面部識別技術(shù)、虛擬現(xiàn)實(shí)結(jié)合甚至用于外部環(huán)境感知。盡管Kinect對于移動終端來說仍然功耗過大,暫時(shí)只能在筆記本中使用,但這并不妨礙它被納入移動終端的人機(jī)交互技術(shù)中,體感識別技術(shù)也將進(jìn)入移動終端領(lǐng)域。
行為模型
人機(jī)交互的簡化模型:人機(jī)交互的簡化模型如下圖所示。左邊的人和右邊的電腦在交互過程中形成了一個閉環(huán)。左邊的人通過特定的輸入設(shè)備向右邊的計(jì)算機(jī)輸入信息,右邊的計(jì)算機(jī)對輸入的信息進(jìn)行一定程度的處理和加工,然后通過特定的輸出設(shè)備將結(jié)果反饋給左邊的人。左邊的人根據(jù)從計(jì)算機(jī)接收到的信息判斷是否執(zhí)行下一個任務(wù)或操作。這個循環(huán)形成了一個閉環(huán)。
人機(jī)交互的心理模型:今天,人機(jī)交互主要是在占主導(dǎo)地位的圖形用戶界面的幫助下進(jìn)行的。細(xì)化后可以得到如下圖所示的人機(jī)交互心理模型。到2019年,圖形用戶界面是人機(jī)交互的主要媒介。用戶手動操作鼠標(biāo)或鍵盤,通過擊鍵或點(diǎn)擊向計(jì)算機(jī)輸入信息。計(jì)算機(jī)系統(tǒng)收到信息后進(jìn)行處理,并反饋和輸出不同形式的多媒體內(nèi)容,如文本、圖形、圖像、音頻、視頻、動畫等。通過界面上的窗口、圖標(biāo)、菜單等載體傳遞給用戶。用戶通過眼睛和耳朵等不同渠道感知計(jì)算機(jī)的輸出信息,并在大腦中對信息進(jìn)行加工和處理。
人機(jī)交互的信息流模型:人機(jī)交互的信息處理模型如下圖所示。在人機(jī)信息交換過程中,左邊的人和右邊的計(jì)算機(jī)構(gòu)成了兩個獨(dú)立的認(rèn)知主體,人機(jī)界面起到了媒介的作用。從仿生學(xué)的角度來看,右邊計(jì)算機(jī)的信息感知、認(rèn)知和處理過程實(shí)際上是在模擬左邊人的信息感知、認(rèn)知和處理過程。該人機(jī)交互信息流模型可用于指導(dǎo)人機(jī)交互系統(tǒng)和界面的設(shè)計(jì)。