心理系舉辦專題講座 探討人與機器的肢體語言解讀

日期 : 2025-12-02 單位 : 心理系

【心理系訊】

人與機器如何解讀肢體語言

本次演講探討主題是「人與機器如何解讀肢體情緒」。邀請到現任日本東北大學電氣通信研究所的程苗助理教授,帶領我們深入探討人類如何透過肢體語言辨識情緒、AI能否學習這種能力、以及文化如何塑造我們對肢體語言與情緒辨識。

肢體語言辨認情緒表達的「亞洲時差」

程教授首先指出當前全球情緒研究的問題:現在市面上的情緒資料庫,九成皆來自歐美文化的國家,且動作捕捉擷取方式大多簡單且標準化。然而,亞洲人的情緒表達方式與文化潛規則大不相同;細微的肢體動作可能承載了大量情緒意涵。為了補上情緒的「亞洲時差」之缺口,研究團隊動員了超過10位研究者與4個劇團合作,從日本與臺灣兩地,共召集了97位專業表演者。

10,767個動作,情境式演繹情緒

耗時兩年,研究團隊建立了龐大資料,亞洲多元跨文化肢體情緒表達資料庫(DIEM-A)。DIEM-A資料庫的獨特性在於它的細膩度與真實性:除了六大基本情緒 (喜、怒、哀、驚、厭惡、輕蔑),更收錄了社會性情緒 (如感激、自豪);將每種情緒分成低、中、高三個強度,捕捉完整的情緒光譜。

為了確保資料庫的真實性,研究團隊採用開放式情境,讓表演者以最能觸動自身的方式演繹情緒,並針對每位表演者進行深度事後訪談,以探究他們肢體動作的情緒來源、強度詮釋,以及是否有其他情緒混雜其中。最終,共蒐集10,767個多樣態肢體情緒樣本。成為亞洲首屈一指的肢體情緒資料庫。

我們如何透過肢體動作解碼人心

針對人類如何透過視覺線索解讀且辨識體現情緒 (Embodied Emotion),程教授分享了最新研究成果。該計畫透過六位灣演員與六位日本演員的肢體情緒表演,測試受試者的情緒辨識與維度評分。結果顯示,人類對中性情緒的辨識最為敏銳,其次為憤怒、恐懼等強烈情緒;反觀帶有複雜社會意涵的輕蔑與厭惡,則因肢體線索模糊,常導致受試者混淆,容易將其誤判為中性。

在跨文化與個體差異方面,研究數據呈現出有趣的對比:日本演員的「驚訝」較容易跨文化辨識,而灣演員的「輕蔑」與「快樂」更具辨識度。此外,情境與個別演員的演技對辨識度影響甚鉅,以「享受美食的快樂」為例,不同演員的辨識率竟從 1.3%到 73.1% ,落差極大。

從Valence-Arousal-Sociality看情緒結構

研究也透過三大維度來剖析情緒。研究數據顯示正負向(Valence)與喚醒度(Arousal)呈現V型關聯,亦即情緒越極端 (非常正向或非常負向)、喚醒度越高;而社交性(Sociality)維度彰顯了辨識情緒的指向性,人類傾向將感激與驕傲的肢體情緒視為高度他人指向,將恐懼與悲傷視為自我指向。

我們要怎麼訓練AI模型理解肢體情緒?

程教授舉例,當你感到尷尬時,可能臉上還掛著尬笑,但你的肢體可能已經微微畏縮,洩露了真實情緒。這就是為什麼我們需要教AI讀懂肢體語言,讓它能夠準確理解人類肢體動作背後的情緒。

然而,目前的AI只能識別動作本身,無法自動推理抽象的情緒。為了突破瓶頸,研究團隊引入 VLM (Vision-Language Model) 模型搭配情境提示(Contextual scenario),讓AI不只看動作時,也理解發生了什麼事。結果顯示:加入情境後,AI的辨識準確率大幅上升,尤其在悲傷與喜悅的判讀上進步顯著。

人類 vs AI:推理邏輯的根本差異

透過質性分析,研究人員發現人與機器在描述動作逐漸出現相似邏輯,但仍有本質差異。人類的推理會帶著共情,例如人在描述情境時會說:「多個彈跳的步伐看起來很興奮,他探頭的樣子讓我想到他在跟寵物玩,所以我覺得是喜悅。」而AI的推理則偏向結構化陳述:「0:03.300 到 0:05.400,雙臂展開飛翔姿勢,傳達出自由與興奮。」

人類的描述更有溫度、更有靈魂。而AI偏向冷靜的客觀判讀。

在人機協作中,我們更理解自己

人類判斷情緒很依賴直覺和文化敏感度,雖然偶爾會理解錯誤,但這種情境式的推理能力,目前還是難以被AI取代。雖然目前VLM模型整體仍不及人腦的情緒判斷,但只要多給它情境提示,AI的情緒辨識的準確度就會大幅提升。

程教授最後總結,人類無需過度擔憂AI能力太強,人類獨有的情境推理與直覺目前仍難以被取代。這項研究的目的並非要讓AI完美模仿人類,而是邀請大家運用DIEM-A資料庫且透過AI的全新視角,我們將更能理解人類如何感知世界,如何透過肢體情緒與他人建立情感連結。DIEM-A 資料庫將成為未來研究人類情緒的重要基礎,也象徵著亞洲文化在情緒科學中的新地位。

文字、攝影/高子耀、鍾凱茹、顏佑蓁