|
本帖最后由 twq19810302 于 2023-12-22 14:05 編輯 6 j3 P) L( f8 M) \3 U
: D5 r+ v6 v& W9 X& L1 T6 r5 S1 z" M# y讓GPT-4操縱人形機(jī)器人,事先不做任何編程or訓(xùn)練,能搞成啥樣兒?5 R4 Z% F6 m9 Z9 E. w
" F, K; | \2 ~- l
答案是:太 獵 奇 了!' C2 p/ q% Y1 V( a6 D
+ Z! j! i* N$ x- ^4 X& y1 s- N
這不,要求機(jī)器人表演“在昏暗電影院里狂炫爆米花,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的😅”。7 G3 [& N4 ?3 |( O( E4 ~+ N3 D+ [
7 T9 D, @2 \- b6 G8 `! w
在GPT-4的操縱下,機(jī)器人笑容凝固,“尷尬”得搖頭扶額后仰:
) a& a2 N x! }% O; _5 u) h# }% ]0 D$ B& ]+ [0 S* H
, s6 B+ A i0 u# U2 Y% S
) f0 r( f V! K, a; S$ y4 o 但在尷尬之余,竟然還不忘再抓一把塞嘴里???又像是要求機(jī)器人“彈吉他”。
& ~: ~" y" h3 N" {: i; e. B! T" p( K2 y" {1 c
GPT-4略思考一番,開始操控機(jī)器人活動(dòng)一番手指、隨后瘋狂甩頭,好像是有點(diǎn)搖滾內(nèi)味兒。但仔細(xì)一看,甩頭的時(shí)候,手指就完全不動(dòng)了……9 l. Z* w% I$ n8 H- @2 R) @
/ @: p- E& @3 o% Z* O$ t/ \/ F# n' Y: j ?) E) N X( P9 G
你要說這是神叨叨的地?cái)傁壬谄敢凰悖孟褚矝]什么不對(手動(dòng)狗頭)。+ n7 E5 t3 |7 r& ~( p, @
2 F! v+ D3 z. k4 l0 r8 p( x3 a
總結(jié)一系列動(dòng)作來看——
# z& [" U& U+ [* | q d: y' m% p8 q5 R8 V# Z2 q
相比波士頓動(dòng)力人形機(jī)器人,一舉一動(dòng)均由人為程序精細(xì)操縱,這個(gè)GPT-4直接操控的機(jī)器人,表情猙獰,動(dòng)作詭異,但一切行為又符合prompt的要求。
$ d# J- q! J: ~0 r; {1 W7 V/ M" X! N- n
: Z6 t, W/ g! t5 w% ~8 [ R
/ t- W9 b% Z) k2 C 這一連串GPT-4操控機(jī)器人的視頻po到網(wǎng)上后,不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”:
3 a" N6 X# Z5 a# Z0 l3 |7 D+ }- M- W) ]* }5 z
原來,這是首個(gè)由GPT-4驅(qū)動(dòng)人形機(jī)器人的研究,來自東京大學(xué)和日本Alternative Machine公司。 , Y/ H. n) ]/ @4 E* M* l) Z4 x
) g" `! C$ Q2 \8 A- q ^# m( s, f% d' S/ X* d' T
依靠這項(xiàng)研究,用戶無需事先給機(jī)器人編程,只需語言輸入、也就是動(dòng)動(dòng)嘴皮和GPT-4聊上一會(huì)兒,就能讓機(jī)器人根據(jù)指令完成行動(dòng)。! j4 M, {: B% I& T
& r. {4 z. c- s* K8 k# z2 ]
" M& @: [1 _! m/ z) |
l$ }+ k& E6 _; l6 b7 ] 來具體講講把GPT-4和Alter3集成到一起,是如何實(shí)現(xiàn)的。1 j) S W) l- ?' z, I
# o# r6 g8 Z6 K( ]大體可以分為兩個(gè)步驟:2 k6 S3 |7 S. T) g5 J6 \9 c W
" T1 y) h& A' V6 T9 q8 L" \
首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動(dòng)作,比如“咱來張自拍吧”“自拍的時(shí)候胳膊再舉高一點(diǎn)”。
/ p7 ?3 I$ H0 s9 I( N% y8 b! ?0 @; L
) z. E# ~% ?' t, j) y4 k4 e* N `接收到輸入的GPT-4會(huì)生成一系列的思考步驟,這些步驟詳細(xì)地闡述了要完成這個(gè)動(dòng)作,需要先后完成些啥。0 ^8 k' u2 H5 x- S8 e
% t6 d" ?/ B# I這個(gè)過程被研究團(tuán)隊(duì)稱為CoT的一部分,即將一個(gè)復(fù)雜任務(wù)分解為一串更簡單的思考步驟。
/ F* w5 I% O# Y4 }( N K& a7 t8 |
% A$ p3 D( X/ _% _8 |4 X# X然后,研究者們再祭出另一個(gè)prompt,把分解后的詳細(xì)步驟轉(zhuǎn)化為Alter3可以聽懂的動(dòng)作指令。$ t# S8 i: ]9 j" K, `. M' C
6 x& n& o1 u' Y1 _, P5 K( {2 N簡單理解就是把人們的指令描述轉(zhuǎn)化為Python代碼,這些代碼可以直接用來控制Alter3的各個(gè)身體部位的具體運(yùn)動(dòng)參數(shù)。# M: o8 @+ O% w& Q7 {1 i# C( v) f
; Y: q7 N& z8 P8 _" K' W- Q有了轉(zhuǎn)化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,想撇嘴就能撇嘴
3 ]6 A! j; b: d2 E2 K6 ^+ A6 k; R) P- M* D; L( Y
研究團(tuán)隊(duì)把這第二步也看成CoT的一部分,因?yàn)樗瓿傻氖恰鞍岩粋(gè)抽象描述轉(zhuǎn)化為具體操作”。9 @7 V" e" q6 z( s7 ^* w* V2 l
V! d7 C. O9 f+ a
6 ]# r- z% a; Q1 m M5 C, W/ l. X. B- [& ]" Q! e
團(tuán)隊(duì)表示,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復(fù)雜動(dòng)作,且不用額外的訓(xùn)練或者微調(diào)。" P9 D# c/ ~- e y+ q9 c8 Y! h
6 F: N/ \7 `1 h) V/ N# Q; y多說兩句,除了上述的兩個(gè)Prompt搞定機(jī)器人控制外,研究團(tuán)隊(duì)還順手完成了一些其它研究。$ E k+ M6 P1 J7 Z% H+ s0 s" K1 Q
; M" E) u& G; E' S1 I: v
比如掰開了看Alter3在對話中的行為,主要針對其對話軌跡和語義時(shí)間演化。
. X+ a! l! Y6 U( g1 B/ Y7 {1 @- u9 X$ V3 z3 w2 j p1 W
針對對話軌跡,研究團(tuán)隊(duì)使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法。團(tuán)隊(duì)把對話內(nèi)容嵌入二維空間,從而方便觀察這個(gè)簡化版的對話發(fā)展過程。
# @0 q; I! Y! ]
2 h$ x9 |4 h, F' a7 n; N! v他們發(fā)現(xiàn),當(dāng)對話順序固定時(shí),對話軌跡會(huì)呈現(xiàn)循環(huán)模式,也就是老在重復(fù)同樣的話題。4 M( S: F0 j# a+ {/ _9 J$ C
! W L5 D+ ]& Z
而當(dāng)對話順序隨機(jī)時(shí),對話內(nèi)容更有發(fā)散性or創(chuàng)造性。
N( T1 ]' `) n" a3 B& b2 k4 }
3 V: O! T% P# @* ?, D9 t- t+ L% c3 r) k賊有趣的一點(diǎn),研究發(fā)現(xiàn)GPT-4聊久了過后,會(huì)傾向于反復(fù)說“再見”。如果你不來點(diǎn)兒人為干預(yù),它就會(huì)沉迷于想辦法跟你說再見。9 P6 ~+ ?0 Y3 `) K% @: ~
+ w1 C6 ?; l# g9 s! t而做語義時(shí)間演化分析的過程中,團(tuán)隊(duì)觀察了隨著時(shí)間變化,聊天內(nèi)容的變化。% F: J! g, p: Q% f' `, P" |
% s: j+ U/ _/ m他們發(fā)現(xiàn),對話初期的一些關(guān)鍵詞,比如“藝術(shù)”或者“學(xué)習(xí)”啥的,會(huì)聊著聊著就被GPT-4忘了,取而代之的是諸如“文化”“人類”“抑制”之類的詞。, o# k9 ]1 X* B; d, E' X2 w
8 \0 x5 a! F6 B9 W4 T
這表明對話內(nèi)容是在逐漸發(fā)展變化的。' ]* u2 r' j K' W0 a% e" U
# O( j, ?# q6 h3 ^% j當(dāng)然,如果你開始跟GPT-4說“再見”,它就幾乎一心一意只想跟你說byebye~(doge)
2 _: E% A* W. `. p- H
1 H, k, E/ y, t6 ?; S這項(xiàng)火爆全網(wǎng)的研究,來自東京大學(xué)和日本Alternative Machine公司。! q4 o& \1 |) C: a: q; A; x
- ]+ A3 Q' I2 O6 j
一作Takahide Yoshida,來自東京大學(xué)通用系統(tǒng)科學(xué)系。& W$ ^* w% @, U" x6 |& D; d, s# R
5 D* s! ^" v, Y o$ j" [
另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在東京大學(xué),又屬于Alternative Machine公司。
" D1 U8 s3 {3 C; t, S( {+ M# A
8 T8 ?/ x/ { T
/ h. @) z/ K; S2 p
8 V( m7 A& w% f/ m- X9 {2 C" k 最后,不得不提到本次研究內(nèi)容的主人公Alter3,它的幕后研究者也來自東京大學(xué),由東京大學(xué)AI研究學(xué)者池上高志和日本“機(jī)器人之父”石黑浩聯(lián)袂打造。/ C8 S# n" o) E* P
( |% t9 u3 s: zAlter3出生于2020年,是同系列機(jī)器人第三代產(chǎn)品。- J, J) d+ h, Q; Q5 X/ T( w6 ~
2 M+ |/ N4 O: I( ]. I
據(jù)了解,Alter系列的兩次迭代都是在歌劇演唱中完成的。第3代的初亮相就是在東京新國立劇場指揮管弦樂隊(duì)并參加其他現(xiàn)場表演。1 @3 E6 A/ n+ v4 n2 u
6 H# E# l4 ]( ?- F6 a; }/ G( }
7 L( X7 S6 M, a6 _. \4 t8 b/ H; |4 i, ~5 v* M
那個(gè)時(shí)候它的特色是增強(qiáng)了傳感器,并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)。
+ f( L& }9 D: V, e: X: B$ {
4 v2 |( o( v8 J以及身體里那粒能夠最終驅(qū)動(dòng)43個(gè)氣動(dòng)裝置的CPG。
$ [/ I' F" K: @7 Q: z- h4 R% e
7 _; Y9 u. f. I0 a( k3 wCPG對數(shù)據(jù)的分析靈敏到什么程度呢?就是如果Alter3呆的房間里如果溫度驟降,Alter3會(huì)因此打個(gè)冷顫,表示自己有被冷到。
4 B% o1 W3 G- k6 S4 K7 `* x7 Z/ [' O; v# {. M6 H T% Q& {8 A
) O$ h+ o1 h- A( _這或許也為現(xiàn)在接入GPT-4當(dāng)腦子后的它,能夠活靈活現(xiàn)做表情、完成動(dòng)作提供了一些基礎(chǔ)吧。" V9 D3 y. v1 N7 Y! N7 L
7 Y ~5 I' s# Z2 M, k& i& G2 T' s3 S, d( O" ]1 _
|
|