那些密密麻麻的英文和天书般的数学公式,她肯定啃不动,但顾青让她看的是里面的图表、核心思路和实验是怎么设计的。
顾青站起来,溜达到隔间门口,斜靠在门框上。
“念念,那几篇讲‘注意力机制’的论文,看明白点了没?”
念念抬起小脸,上面还挂着琢磨事儿的认真劲儿:“顾叔叔,那个‘注意力’,是不是就跟咱们看东西似的?眼睛看到好多东西,但脑子会特别使劲儿去看我们想找的那个?”
“嗯,差不多这意思。”顾青应了一声,“信息太多的时候,让模型自己学,哪些信息更要紧,就多‘瞅’几眼,分量给足点。”
“那……”念念歪着小脑袋,小手指头隔空点了点顾青电脑屏幕上那些乱麻般的数据流示意图,“它们干嘛非得弄成一样的东西,再加一起呢?”
她努力想着词儿,小眉头都快拧成个疙瘩:“它们本来就不一样嘛。就、就像画画,红颜色跟蓝颜色倒一块儿,就变紫色了。可是,我们心里知道,那紫色里头,有红的,也有蓝的。能不能……不非把它们变成紫色?就让红的还是红的,蓝的还是蓝的,用得着的时候,再看看哪个颜色更顶用?”
顾青整个人顿住了。
不把它们硬变成紫色……
让红是红,蓝是蓝……
用得着的时候,再看哪个更顶用……
脑子里某个堵塞的地方,哗啦一下,通了!
对啊!
他妈的!
现在这些方法,都急着在最开始就把不同模态的数据往一个框子里硬塞,非要弄成一个所谓的“统一特征空间”。这不就是非把红和蓝搅和成紫色吗?这过程中,各自的“味儿”肯定就淡了,信息也丢了!
换个玩法呢?
不着急融合!
让每个模态的数据,先在自己的跑道上跑个够,把各自的特征挖深挖透,保持原汁原味!
等到了要做判断、做预测的关键节点,再弄个更聪明的“总调度”——比如升级版的注意力机制,或者更骚包的门控网络——让它根据任务和情况,自己判断:现在这一下,是图像信息(红)给力,还是文本信息(蓝)更关键?又或者,生理信号(绿