快速序列视觉呈现(RSVP)是一类心理学视觉刺激实验范式,要求受试者辨别在同一空间位置上连续呈现的由数字、字母、单词以及图片等组成的刺激流中的目标刺激,可以在短时间内辨别海量信息。而基于RSVP范式的脑-机接口(BCI)不仅能够广泛用于辅助交互、信息判读等场景,而且具有稳定、高效的优势,已经成为人-机智能融合的常用技术之一。近年来,RSVP-BCI研究主要集中在脑控拼写器、图像识别以及意念游戏等方向,因此,本文着重梳理了这三个领域中RSVP-BCI的范式设计和系统性能优化,展望了其生活娱乐、临床医疗、特种军事等前沿方向的潜在应用,以期为RSVP-BCI相关的研究提供参考和新思路。
引用本文: 孙静敏, 孟佳圆, 尤佳, 杨明明, 江京, 许敏鹏, 明东. 基于快速序列视觉呈现的脑-机接口应用范式研究进展. 生物医学工程学杂志, 2023, 40(6): 1235-1241, 1248. doi: 10.7507/1001-5515.202305061 复制
0 引言
脑-机接口(brain-computer interface,BCI)可以在不依赖外周神经或肌肉的条件下,实现人脑与外部设备之间的直接交互[1]。脑电图(electroencephalography,EEG)是测量并采集大脑活动产生信号的常用手段[2-3],而基于EEG的事件相关电位(event related potential,ERP)是一种特殊的脑诱发电位,能够根据人的认知行为反映大脑神经电生理变化,被广泛应用于认知神经科学研究和应用[4]。
快速序列视觉呈现(rapid serial visual presentation,RSVP)是研究大脑认知过程的常见范式,具有精准、灵活、高效的优势。RSVP范式将由数字、字母、单词以及图形等组成待检测序列在同一固定位置依次且连续地快速呈现,可由EEG解码视觉刺激的详细信息[5]。如图1所示,小概率目标刺激会诱发特定ERP成分,其中,P300通常发生在新奇刺激出现后300 ms左右,容易在极微弱的脑电信号中实现有效提取与分类[6],而非目标刺激诱发ERP主要是固定频率的刺激闪烁诱发的稳态视觉诱发电位(steady state visual evoked potential,SSVEP)。通过确定P300成分出现的时间就可以推测出受试者在关注哪个刺激物,从而间接实现对目标刺激的识别,最终实现用户与外界的信息交互。

RSVP-BCI系统主要包括编码和解码两个环节。其中,编码是将不同刺激信息转换为用于诱发相应脑电信号刺激特征的过程,其重点在于通过范式设计的优化来增强源信号强度、缩短决策时间。编码效果直接影响了视觉刺激下脑电信号的特征能否准确提取,是实现神经特征高效解码的重要基础,在RSVP-BCI研究与应用中意义重大。近年来,面向精度高、速度快的应用需求,研究者们从刺激种类、频率、视角等方面展开RSVP-BCI编码方式的扩展及优化研究,使BCI性能得到显著提高。
鉴于此,本文将从编码范式方面对近五年大量涌现的RSVP-BCI研究成果进行综述,重点论述RSVP-BCI在脑控拼写器、图像识别与检测、意念控制游戏等领域的范式创新,展望RSVP-BCI在生活娱乐、临床医疗、特种军事等领域的现实应用场景,以期促进RSVP-BCI技术的产业落地。
1 用于脑控拼写器的RSVP优化范式
虚拟键盘是BCI最为经典的应用之一,基于P300的BCI系统往往利用矩阵行列范式(row-column paradigm,RCP),但该范式需要受试者头部或眼睛朝向目标刺激运动,对患有严重动眼神经损伤用户的实用性有限。针对这一问题,研究人员采用RSVP这一非矩阵结构范式,实验中字符只在屏幕中心快速呈现(如图2a所示),不需受试者移动视线,并且RSVP范式诱发的ERP产生的个体差异较小,更有利于跨受试者分类[7]。为提高RSVP-BCI系统准确率和信息传输速率(information transfer rate,ITR),研究人员从呈现方式、刺激形态、混合范式三个方面对实验范式进行了优化。

a. 传统RSVP-BCI拼写系统;b. 不同刺激形态RSVP拼写范式;c. 多重RSVP拼写范式;d. 基于RSVP的混合拼写范式
Figure2. RSVP paradigms for spellera. classical RSVP-BCI speller system; b. RSVP paradigm with different stimulus modality for speller; c. multiple RSVP paradigm for speller; d. hybrid paradigm based on RSVP for speller
1.1 呈现方式
传统RSVP拼写器实验时间过长,容易耗尽用户精力。研究者们提出多重RSVP范式,采用一次同时呈现多个字符的方法缩短了显示所有字符的时间,进而提高了ITR。
如图2c所示,以26个字符为例,经典RSVP范式即逐个随机显示所有字符,切换频率设为5.33 Hz,拼写一个字符需重复10轮,理论时间约48.78 s;双重RSVP范式将字符随机组合成13组,每组包含2个字符,组间切换频率设为4 Hz,拼写一个字符需重复5轮,理论时间约16.25 s;三重RSVP范式将字符随机组合成9组,每组包含3个字符,组间切换频率设为4 Hz,拼写一个字符需重复5轮,理论时间约11.25 s[8]。多重范式中,每个字符的脑电特征是所有出现该字符的字符组对应脑电信号的平均值,由于每组字符的组合随机且不重复,脑电信号平均后只有目标字符诱发特征最为明显,从而通过特征分类确定目标字符。Lin等[9]设计的三重RSVP拼写器在线平均ITR达到了20.26 bit/min,远高于传统单一RSVP拼写器的5 bit/min。Mijani等[8]设计了单一、双重和三重RSVP范式,获得的分类准确率分别为78%、63%、64%,ITR分别为3.7、7.7、11.5 bit/min,可见同时呈现三个字符取得了最高的性能。Mijani等通过一系列实验进一步得出结论,采用菱形结构的四重RSVP范式可实现更高的ITR,但字符识别精度显著降低,因此,三重RSVP范式是性能最为均衡的选择。
Mijani等[10]进一步提出基于RSVP的双重移位及三重移位拼写器范式,同样认为双重RSVP范式可以有效改善系统整体性能。如图2c所示,右侧字符串是左侧字符串的延迟,要求受试者关注左边字符,在看到目标字符后将视线向右移动;三重移位和双重移位RSVP范式的实验步骤类似,在屏幕下方添加了第三个字符。单一、双重移位和三重移位RSVP范式字符检测准确率分别为97%、97%、80%,ITR分别达到5.45、7.62、7.90 bit/min。综合来看,双重移位RSVP范式是平衡ITR和准确率最合适的方法。
1.2 刺激形态
研究表明,使用不同速率[11]、不同颜色、不同尺寸[12]、不同类型(如字词、图片、数字等)[11]的视觉刺激,都会影响神经响应特征及BCI性能表现,研究者们尝试在RSVP中应用不同的刺激形态以提高BCI系统检测的准确性(如图2b所示)。
Ahani等[13]提出基于RSVP的IconMessenge系统,该系统使用语义框架将消息细分为主要语义角色(如参与者、动作、对象和修饰语),采用语义图标、语言模型字词作为脑控拼写器输入,更适用于患有身体损伤的目标人群。
然而,对于用其他类型的视觉刺激代替字符能否提升拼写器系统识别准确率仍然存在争议。Fernandez-Rodriguez等[14]在研究中未取得改善效果,并且表示RSVP范式中用图片代替字符刺激可能会降低用户的舒适度。Ron-Angevin等[15]认为Fernandez-Rodriguez等的研究中样本量较小,也在RSVP范式下评估了白色字符、名人面孔、中性图片三组不同刺激类型对系统性能的影响,认为校准和在线任务中使用名人面孔代表字符输入均可显著提高准确率及ITR。
除此之外,Won等[16]将运动刺激引入RSVP拼写器中,诱发了具有更短P300潜伏期和更高P300振幅的神经响应,发现运动RSVP系统更稳定。固定方向运动RSVP中的字符在呈现时间内向预先确定的方向移动,受试者即使无法准确感知快速呈现的静态刺激,也可以通过字符的形状、颜色和方向来识别目标字符,从而提高对目标字符的感知能力。值得注意的是,RSVP-BCI的重要优势在于完全独立于视线,而这项研究并未使用定量的方法探讨运动刺激对眼球运动和眼电的影响,仍需进一步验证以得到准确的结论。
1.3 混合范式
单一范式BCI系统准确率及ITR相互制约,而混合BCI范式能通过复合特征的融合充分发挥各控制信号的优势,相比于传统单一系统模式能更好地完成特定的目标任务。
如图2d所示,Jalilpour等[17]在RSVP范式基础上引入闪烁刺激块,通过逐步解码刺激诱发的ERP与SSVEP信号构建了高效的混合拼写范式。根据P300信号检测可确定目标字符组,而受试者在移动视线搜索目标字符时,15 Hz视觉刺激块会出现在相反的视野当中,相应的会在目标字符方向的脑区获得较大的SSVEP能量,以此确定目标字符空间位置,不仅实现了高ITR,还提高了三重RSVP分类准确率。Gonzalez-Navarro等[18]在研究中发现将复合脑电信号和语言模型同时作为特征进行判别能改善RSVP拼写器的性能。他们利用反馈相关电位(feedback related potentials,FRP)、ERP和语言模型(language model,LM)以贝叶斯融合的方式得到概率生成模型,使用最大后验概率推理选择用户意图,提高了打字速度。
1.4 小结
综上,基于RSVP的字符拼写范式不需移动视线进行搜索,能有效识别用户指令,实现较好的对外交流功能。研究者们通过优化字符布局、刺激形态、信号控制方式实现了神经响应更强、实验时间更短的RSVP拼写器,同时有效平衡了准确率和ITR,进一步提升了用户的舒适度,解决了神经受损患者脑控拼写时易受疲劳与习惯化效应影响的问题[19],能应用于日常生活中的辅助表达与交流。另外,基于RSVP的脑控拼写更适用于显示空间受限的可穿戴移动设备上的文本呈现,用户可通过固定显示中心的字符序列与微型智能眼镜、手表等进行交互。
2 用于图像识别与检测的RSVP优化范式
如图3a所示,基于RSVP的目标图像检索结合了机器智能与人脑智能的优势,借助于人脑在看到目标图像时产生的ERP来完成目标图像检索,能够对复杂目标图像进行识别,同时保证较高的检测速度。近年来,应用于图像识别与检测领域的RSVP范式创新体现在多试次目标检测、多模态特征融合、多受试者协同决策三个方面,提高了RSVP-BCI的实用性。

a. 传统RSVP-BCI系统;b. 多重RSVP范式;c. 快速序列多模态呈现(RSMP)范式;d. 双受试者RSVP协同范式
Figure3. RSVP paradigm for image recognition and detectiona. classical RSVP-BCI system; b. multiple RSVP paradigm; c. rapid serial multimodal presentation (RSMP) paradigm; d. two-subject RSVP collaborative paradigm
2.1 多试次目标检测
RSVP范式中,P300成分的潜伏期和振幅会随目标概率、刺激语义等不同的实验参数而变化,增加了单试次ERP分类的难度[20]。人们普遍认为多试次P300成分检测方法比单试次检测具有更好的鲁棒性和稳定性,Cecotti在研究中验证了这一说法,在他们设计的基于脑磁图(magnetoencephalogram,MEG)的双重RSVP范式中(如图3b所示),两个图像序列同时呈现,其中一个图像序列由另一个延迟一定时间得到,因此一张图像可以出现两次,采用融合两个试次分类得分的决策提高了目标检测精度[21]。
Lin等[22]进一步验证了基于EEG的双重RSVP范式的有效性,并提出了一种检测精度更高的三重RSVP范式。如图3b所示,三重RSVP范式中,屏幕右侧图像序列由左侧图像延迟一段时间得到,底部图像序列由右侧图像延迟一段时间得到,要求受试者先看左侧,观察到目标后再看右侧,接着看下方,最后将注意力移回左侧。单一、双重、三重RSVP范式的曲线下面积(area under the curve,AUC)分别为0.926、0.946、0.952,可见同一目标图像反复出现次数越多,目标识别效果越好。
2.2 多模态特征融合
将触觉、视觉或听觉相结合的多模态刺激可以通过多种感官通路的集成增强大脑感觉运动皮层的激活特性[23],同时,EEG、MEG等多模态信息的融合可以获得更丰富准确的大脑信息,从而提高解码性能[24]。随着RSVP研究的深入,多模态刺激及多模态信息的引入为构建高性能BCI提供了新思路,而不仅局限于传统的单模态方式。
Onishi[25]提出了一种结合人工面部图像和人工语音刺激的快速序列多模态呈现(rapid serial multimodal presentation,RSMP)BCI,开发了高鲁棒性的、与视线无关的BCI系统。日语原音与面部图像(如图3c所示)以随机顺序呈现,其视听刺激改善了RSMP-BCI的表现,准确率达72.7%,优于单个视觉刺激(67.3%)或听觉刺激(51.8%)。Mao等[26-27]将眼动模态引入基于RSVP-BCI的图像检索任务,通过轻微的眼睛凝视运动和瞳孔大小变化揭示受试者认知过程的有用信息,使眼动模态特征和EEG模态特性更加互补,该多模态检测方法的准确率同样优于单模态方法。
2.3 多受试者协同决策
虽然多重RSVP目标检测取得了更高的检测性能,但实验中同时显示多张图像会导致受试者更为疲劳,并且单受试者的可用信息限制了单试次EEG信号的预测精度。几十年的研究表明,群体通常能比个人做出更好的决策(群体智慧)[28],因此,目标检测可通过多个受试者的协作来完成,即协同BCI(collaborative BCI,cBCIs)[29],可以获得比单个受试者更高更稳定的性能,该方法已应用于夜间巡逻、前哨基地监测等现实场景[30]。
Zhang等[31]探讨了双人交互场景下基于RSVP联合目标检测方法的可行性,与单人目标检测相比,该方法至少提高了5%的F1分数(精确率与召回率的调和平均数)。如图3d所示,实验中同步采集了两个受试者区分目标和非目标图像的EEG信号,并在数据层和特征层分别融合了两个受试者的数据和特征,其F1分数达到82.76%,由此可见基于群体神经活动整合的群体决策更有优势,处于在时间压力下做出关键决定的紧急情况时,基于RSVP的协同BCI系统有望通过群体智慧做出最有利决策。
2.4 小结
综上,将人脑认知智能与机器计算智能进行有机结合可满足图像识别和检测的高性能要求,上述研究在控制层面、特征层面、决策层面进行RSVP范式优化,启发了我们如何在BCI框架下实现高效又精准的图像识别和检测。RSVP-BCI可进一步应用于各种不同条件下的快速视觉搜索任务,甚至还可将多模态协同BCI应用到RSVP范式中[32-33],帮助协作团队在各种场景中做出更准确的决策。
生活方面,RSVP-BCI可以应用于身份认证、测谎等。RSVP任务中受试者观察目标和非目标图像的连续序列所导致的ERP潜伏期的强烈个体差异可用于身份验证[34]。Wang等[35]基于RSVP范式提出隐藏信息测试框架,由于嫌疑人或目击者会对与犯罪现场有关的图片或物品做出反应,该欺骗检测方法能够扩展到不同的犯罪调查场景。
军事方面,RSVP-BCI可用于海(船舰)陆(基地)空(导弹、巡逻机)天(卫星、空间站)中目标锁定跟踪、遥感监测等功能的实现。研究表明,利用RSVP进行图片情报分析,正确率较传统人工识别方式提高30%[36]。Zhang等[37]发现RSVP范式中不同视野刺激对EEG空间分布有显著影响,验证了目标空间方向精确定位的可能性。
医疗方面,通过RSVP-BCI进行医学影像的检测可实现药物筛查与病灶判定。Hope等基于RSVP范式将脑电信号分析与计算机视觉结合,成功应用于乳腺癌筛查[4]。RSVP-BCI还可用于临床疾病的早期诊断与康复。Zokaei等[38]发现帕金森病患者在RSVP实验范式中存在时间定向缺陷,而服用多巴胺能药物可以消除患者的这一缺陷。Shalbaf等[39]采用连续小波变换方法将脑电信号转换为图像,实现了对精神分裂症患者的分类。Yi等[40]通过设计三种不同呈现率的RSVP任务实现了心理负荷的监测,探讨了与时间压力相关的多层次心理工作量的可分离性。因此,RSVP范式可进一步应用于认知、情感和精神分裂症等临床症状的研究。
3 用于意念控制游戏的RSVP优化范式
游戏型RSVP-BCI系统可为神经功能障碍患者提供较强的游戏乐趣,然而许多神经功能障碍患者由于神经通路阻断,无法自由控制肢体完成传统游戏的人机交互。将BCI与游戏结合,通过对脑电信号的识别,使用户完成对游戏的直接控制,为残障人士提供了新的康复治疗途径。
Nayak等[41]基于Unity游戏引擎平台提出了一种结合RSVP和SSVEP的新型混合游戏BCI。如图4所示,该范式基于一款三消游戏Jewel Quest呈现一个珠宝图像矩阵,采用RSVP范式在不同位置的四个白色方块以四种不同的闪烁率显示八个不同珠宝的序列。实验中首先从四个突出显示的类别中通过SSVEP刺激识别用户的目标关注位置,然后进入RSVP刺激阶段,从刺激序列中通过ERP区分目标和非目标,如果受试者成功识别出目标,则获得相应分数。在2021年其团队延伸的研究中,受试者平均4.42 s即可完成搜索任务,实现了81.59%的离线准确率、78.10%的在线准确率以及4.63 bits/min的离线ITR、7.95 bits/min的在线ITR[42]。2022年,该团队在模拟计算机游戏场景中通过基于模糊熵算法有效地测量了多目标RSVP刺激中的EEG复杂性[43],离线实验最高准确率达87.41%,揭示了多目标场景中实时游戏型混合BCI系统的可行性。国内陈景霞等[44]同样提出基于Jewel Quest的SSVEP与RSVP相结合的实验范式,通过游戏任务的模式让用户寻找不同频率呈现的随机图片序列,该组合范式既减少了用户疲劳又实现了多目标检测。结果显示,在8分类实验中取得了最优分类性能91.6%,验证了诱发的EEG信号具有良好的多分类可分性。

综上,RSVP-BCI具有丰富传统游戏交互手段和增强BCI控制的特点,但该类型游戏只能从预定义的命令集进行选择,无法进行连续控制,因此研究相对较少。未来,游戏型RSVP-BCI可以用于认知(注意力、记忆力)增强的相关训练、人体状态(警觉度、疲劳度)的评估等,还可作为一种神经治疗工具帮助注意力缺陷多动症儿童进行康复治疗。另外,为了获得较高的游戏型RSVP-BCI在线分类精度及ITR,仍需要优化游戏控制范式和策略,进一步研究面向多任务、复杂场景的多人协同/对抗游戏BCI。值得注意的是,有报道称一种新型的VR-EEG结合耳机将电极嵌入枕部,可用于神经游戏的ERP检测。因此,RSVP-BCI可能受益于头戴式视觉显示器,借助虚拟现实/增强现实技术进一步改善视觉效果,从而为用户提供更好的交互体验。
4 面临挑战与发展方向
尽管RSVP-BCI系统近年来在各个领域都取得了显著进展,但仍然面临着一些挑战:① 系统性能亟待提高。如拼写器方面,只有其准确率与ITR达到或超过其他传统拼写器的相应水平,才能充分发挥RSVP范式不依赖于视线移动的优势,为患者提供更自然、友好的交流方式。② 建模时间有待缩短。耗时的建模过程是RSVP-BCI在线系统广泛应用的阻碍之一,而将其无缝集成到实际场景中的关键在于诱发更稳定的内源性神经信号和开发更有效的零校准算法。③ 并行操控问题急需解决。复杂任务下,当前RSVP-BCI缺乏有效协同手、眼、脑等决策权重的方法,需要更智能的并行操控方案,使之不局限于单一模式的操作。
目前RSVP-BCI仍停留在实验室研究阶段,为满足实际生活和工作的需要,有以下两个发展方向:① 现实世界的应用。首先需要将RSVP-BCI与典型场景下的典型应用联动,研发快消级别的产品实现商业落地,进而走进现实生产生活。如结合无人机技术进行可靠的静态图像检测和动态视频监控,或者结合智能机器人为患者提供全天陪伴和看护服务等。② 虚拟世界的应用。将RSVP-BCI与人工智能、虚拟现实相结合为其发展带来了充满希望的未来,这与提供更丰富、自由、沉浸式体验的元宇宙的不断演进趋势相吻合,可创建更直观的跨平台人机交互新世界。
5 结语
综上所述,RSVP-BCI是一种特殊类型的BCI系统,该系统将RSVP范式与基于P300信号的脑响应检测结合起来,利用非侵入性脑电测量方式记录信号,有利于受试者在信息流中快速、准确地选择心中所想目标刺激,并通过解码受试者的EEG信号实现对外部设备的信息交流与控制。本文介绍了RSVP-BCI技术及范式应用领域,梳理了RSVP-BCI近五年的研究进展。数年来,随着研究的不断深入,RSVP-BCI的蓬勃发展有效地推动了人机交互领域的发展,具有速度快、精度高、用户友好等优势。RSVP-BCI最常见的应用类型是监控应用、表达辅助应用、游戏娱乐应用和医疗应用,然而,将BCI应用于商业和实验室之外的现实场景中,仍然面临鲁棒性、实时性等方面的挑战。未来,随着各个社会面智能化需求的增多,相信不断进行范式创新的RSVP-BCI在辅助交互、商业游戏、监控安检、医疗健康、特种军事等领域会迸发更加强大的活力。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:尤佳完成了相关文献搜集、分析工作,杨明明完成了文献整理、文章图像绘制,孙静敏完成了文献综述及文章的撰写,孟佳圆和许敏鹏制定了文章的写作思路,明东完成了文章的审阅及校对,江京协助了稿件的修订。
0 引言
脑-机接口(brain-computer interface,BCI)可以在不依赖外周神经或肌肉的条件下,实现人脑与外部设备之间的直接交互[1]。脑电图(electroencephalography,EEG)是测量并采集大脑活动产生信号的常用手段[2-3],而基于EEG的事件相关电位(event related potential,ERP)是一种特殊的脑诱发电位,能够根据人的认知行为反映大脑神经电生理变化,被广泛应用于认知神经科学研究和应用[4]。
快速序列视觉呈现(rapid serial visual presentation,RSVP)是研究大脑认知过程的常见范式,具有精准、灵活、高效的优势。RSVP范式将由数字、字母、单词以及图形等组成待检测序列在同一固定位置依次且连续地快速呈现,可由EEG解码视觉刺激的详细信息[5]。如图1所示,小概率目标刺激会诱发特定ERP成分,其中,P300通常发生在新奇刺激出现后300 ms左右,容易在极微弱的脑电信号中实现有效提取与分类[6],而非目标刺激诱发ERP主要是固定频率的刺激闪烁诱发的稳态视觉诱发电位(steady state visual evoked potential,SSVEP)。通过确定P300成分出现的时间就可以推测出受试者在关注哪个刺激物,从而间接实现对目标刺激的识别,最终实现用户与外界的信息交互。

RSVP-BCI系统主要包括编码和解码两个环节。其中,编码是将不同刺激信息转换为用于诱发相应脑电信号刺激特征的过程,其重点在于通过范式设计的优化来增强源信号强度、缩短决策时间。编码效果直接影响了视觉刺激下脑电信号的特征能否准确提取,是实现神经特征高效解码的重要基础,在RSVP-BCI研究与应用中意义重大。近年来,面向精度高、速度快的应用需求,研究者们从刺激种类、频率、视角等方面展开RSVP-BCI编码方式的扩展及优化研究,使BCI性能得到显著提高。
鉴于此,本文将从编码范式方面对近五年大量涌现的RSVP-BCI研究成果进行综述,重点论述RSVP-BCI在脑控拼写器、图像识别与检测、意念控制游戏等领域的范式创新,展望RSVP-BCI在生活娱乐、临床医疗、特种军事等领域的现实应用场景,以期促进RSVP-BCI技术的产业落地。
1 用于脑控拼写器的RSVP优化范式
虚拟键盘是BCI最为经典的应用之一,基于P300的BCI系统往往利用矩阵行列范式(row-column paradigm,RCP),但该范式需要受试者头部或眼睛朝向目标刺激运动,对患有严重动眼神经损伤用户的实用性有限。针对这一问题,研究人员采用RSVP这一非矩阵结构范式,实验中字符只在屏幕中心快速呈现(如图2a所示),不需受试者移动视线,并且RSVP范式诱发的ERP产生的个体差异较小,更有利于跨受试者分类[7]。为提高RSVP-BCI系统准确率和信息传输速率(information transfer rate,ITR),研究人员从呈现方式、刺激形态、混合范式三个方面对实验范式进行了优化。

a. 传统RSVP-BCI拼写系统;b. 不同刺激形态RSVP拼写范式;c. 多重RSVP拼写范式;d. 基于RSVP的混合拼写范式
Figure2. RSVP paradigms for spellera. classical RSVP-BCI speller system; b. RSVP paradigm with different stimulus modality for speller; c. multiple RSVP paradigm for speller; d. hybrid paradigm based on RSVP for speller
1.1 呈现方式
传统RSVP拼写器实验时间过长,容易耗尽用户精力。研究者们提出多重RSVP范式,采用一次同时呈现多个字符的方法缩短了显示所有字符的时间,进而提高了ITR。
如图2c所示,以26个字符为例,经典RSVP范式即逐个随机显示所有字符,切换频率设为5.33 Hz,拼写一个字符需重复10轮,理论时间约48.78 s;双重RSVP范式将字符随机组合成13组,每组包含2个字符,组间切换频率设为4 Hz,拼写一个字符需重复5轮,理论时间约16.25 s;三重RSVP范式将字符随机组合成9组,每组包含3个字符,组间切换频率设为4 Hz,拼写一个字符需重复5轮,理论时间约11.25 s[8]。多重范式中,每个字符的脑电特征是所有出现该字符的字符组对应脑电信号的平均值,由于每组字符的组合随机且不重复,脑电信号平均后只有目标字符诱发特征最为明显,从而通过特征分类确定目标字符。Lin等[9]设计的三重RSVP拼写器在线平均ITR达到了20.26 bit/min,远高于传统单一RSVP拼写器的5 bit/min。Mijani等[8]设计了单一、双重和三重RSVP范式,获得的分类准确率分别为78%、63%、64%,ITR分别为3.7、7.7、11.5 bit/min,可见同时呈现三个字符取得了最高的性能。Mijani等通过一系列实验进一步得出结论,采用菱形结构的四重RSVP范式可实现更高的ITR,但字符识别精度显著降低,因此,三重RSVP范式是性能最为均衡的选择。
Mijani等[10]进一步提出基于RSVP的双重移位及三重移位拼写器范式,同样认为双重RSVP范式可以有效改善系统整体性能。如图2c所示,右侧字符串是左侧字符串的延迟,要求受试者关注左边字符,在看到目标字符后将视线向右移动;三重移位和双重移位RSVP范式的实验步骤类似,在屏幕下方添加了第三个字符。单一、双重移位和三重移位RSVP范式字符检测准确率分别为97%、97%、80%,ITR分别达到5.45、7.62、7.90 bit/min。综合来看,双重移位RSVP范式是平衡ITR和准确率最合适的方法。
1.2 刺激形态
研究表明,使用不同速率[11]、不同颜色、不同尺寸[12]、不同类型(如字词、图片、数字等)[11]的视觉刺激,都会影响神经响应特征及BCI性能表现,研究者们尝试在RSVP中应用不同的刺激形态以提高BCI系统检测的准确性(如图2b所示)。
Ahani等[13]提出基于RSVP的IconMessenge系统,该系统使用语义框架将消息细分为主要语义角色(如参与者、动作、对象和修饰语),采用语义图标、语言模型字词作为脑控拼写器输入,更适用于患有身体损伤的目标人群。
然而,对于用其他类型的视觉刺激代替字符能否提升拼写器系统识别准确率仍然存在争议。Fernandez-Rodriguez等[14]在研究中未取得改善效果,并且表示RSVP范式中用图片代替字符刺激可能会降低用户的舒适度。Ron-Angevin等[15]认为Fernandez-Rodriguez等的研究中样本量较小,也在RSVP范式下评估了白色字符、名人面孔、中性图片三组不同刺激类型对系统性能的影响,认为校准和在线任务中使用名人面孔代表字符输入均可显著提高准确率及ITR。
除此之外,Won等[16]将运动刺激引入RSVP拼写器中,诱发了具有更短P300潜伏期和更高P300振幅的神经响应,发现运动RSVP系统更稳定。固定方向运动RSVP中的字符在呈现时间内向预先确定的方向移动,受试者即使无法准确感知快速呈现的静态刺激,也可以通过字符的形状、颜色和方向来识别目标字符,从而提高对目标字符的感知能力。值得注意的是,RSVP-BCI的重要优势在于完全独立于视线,而这项研究并未使用定量的方法探讨运动刺激对眼球运动和眼电的影响,仍需进一步验证以得到准确的结论。
1.3 混合范式
单一范式BCI系统准确率及ITR相互制约,而混合BCI范式能通过复合特征的融合充分发挥各控制信号的优势,相比于传统单一系统模式能更好地完成特定的目标任务。
如图2d所示,Jalilpour等[17]在RSVP范式基础上引入闪烁刺激块,通过逐步解码刺激诱发的ERP与SSVEP信号构建了高效的混合拼写范式。根据P300信号检测可确定目标字符组,而受试者在移动视线搜索目标字符时,15 Hz视觉刺激块会出现在相反的视野当中,相应的会在目标字符方向的脑区获得较大的SSVEP能量,以此确定目标字符空间位置,不仅实现了高ITR,还提高了三重RSVP分类准确率。Gonzalez-Navarro等[18]在研究中发现将复合脑电信号和语言模型同时作为特征进行判别能改善RSVP拼写器的性能。他们利用反馈相关电位(feedback related potentials,FRP)、ERP和语言模型(language model,LM)以贝叶斯融合的方式得到概率生成模型,使用最大后验概率推理选择用户意图,提高了打字速度。
1.4 小结
综上,基于RSVP的字符拼写范式不需移动视线进行搜索,能有效识别用户指令,实现较好的对外交流功能。研究者们通过优化字符布局、刺激形态、信号控制方式实现了神经响应更强、实验时间更短的RSVP拼写器,同时有效平衡了准确率和ITR,进一步提升了用户的舒适度,解决了神经受损患者脑控拼写时易受疲劳与习惯化效应影响的问题[19],能应用于日常生活中的辅助表达与交流。另外,基于RSVP的脑控拼写更适用于显示空间受限的可穿戴移动设备上的文本呈现,用户可通过固定显示中心的字符序列与微型智能眼镜、手表等进行交互。
2 用于图像识别与检测的RSVP优化范式
如图3a所示,基于RSVP的目标图像检索结合了机器智能与人脑智能的优势,借助于人脑在看到目标图像时产生的ERP来完成目标图像检索,能够对复杂目标图像进行识别,同时保证较高的检测速度。近年来,应用于图像识别与检测领域的RSVP范式创新体现在多试次目标检测、多模态特征融合、多受试者协同决策三个方面,提高了RSVP-BCI的实用性。

a. 传统RSVP-BCI系统;b. 多重RSVP范式;c. 快速序列多模态呈现(RSMP)范式;d. 双受试者RSVP协同范式
Figure3. RSVP paradigm for image recognition and detectiona. classical RSVP-BCI system; b. multiple RSVP paradigm; c. rapid serial multimodal presentation (RSMP) paradigm; d. two-subject RSVP collaborative paradigm
2.1 多试次目标检测
RSVP范式中,P300成分的潜伏期和振幅会随目标概率、刺激语义等不同的实验参数而变化,增加了单试次ERP分类的难度[20]。人们普遍认为多试次P300成分检测方法比单试次检测具有更好的鲁棒性和稳定性,Cecotti在研究中验证了这一说法,在他们设计的基于脑磁图(magnetoencephalogram,MEG)的双重RSVP范式中(如图3b所示),两个图像序列同时呈现,其中一个图像序列由另一个延迟一定时间得到,因此一张图像可以出现两次,采用融合两个试次分类得分的决策提高了目标检测精度[21]。
Lin等[22]进一步验证了基于EEG的双重RSVP范式的有效性,并提出了一种检测精度更高的三重RSVP范式。如图3b所示,三重RSVP范式中,屏幕右侧图像序列由左侧图像延迟一段时间得到,底部图像序列由右侧图像延迟一段时间得到,要求受试者先看左侧,观察到目标后再看右侧,接着看下方,最后将注意力移回左侧。单一、双重、三重RSVP范式的曲线下面积(area under the curve,AUC)分别为0.926、0.946、0.952,可见同一目标图像反复出现次数越多,目标识别效果越好。
2.2 多模态特征融合
将触觉、视觉或听觉相结合的多模态刺激可以通过多种感官通路的集成增强大脑感觉运动皮层的激活特性[23],同时,EEG、MEG等多模态信息的融合可以获得更丰富准确的大脑信息,从而提高解码性能[24]。随着RSVP研究的深入,多模态刺激及多模态信息的引入为构建高性能BCI提供了新思路,而不仅局限于传统的单模态方式。
Onishi[25]提出了一种结合人工面部图像和人工语音刺激的快速序列多模态呈现(rapid serial multimodal presentation,RSMP)BCI,开发了高鲁棒性的、与视线无关的BCI系统。日语原音与面部图像(如图3c所示)以随机顺序呈现,其视听刺激改善了RSMP-BCI的表现,准确率达72.7%,优于单个视觉刺激(67.3%)或听觉刺激(51.8%)。Mao等[26-27]将眼动模态引入基于RSVP-BCI的图像检索任务,通过轻微的眼睛凝视运动和瞳孔大小变化揭示受试者认知过程的有用信息,使眼动模态特征和EEG模态特性更加互补,该多模态检测方法的准确率同样优于单模态方法。
2.3 多受试者协同决策
虽然多重RSVP目标检测取得了更高的检测性能,但实验中同时显示多张图像会导致受试者更为疲劳,并且单受试者的可用信息限制了单试次EEG信号的预测精度。几十年的研究表明,群体通常能比个人做出更好的决策(群体智慧)[28],因此,目标检测可通过多个受试者的协作来完成,即协同BCI(collaborative BCI,cBCIs)[29],可以获得比单个受试者更高更稳定的性能,该方法已应用于夜间巡逻、前哨基地监测等现实场景[30]。
Zhang等[31]探讨了双人交互场景下基于RSVP联合目标检测方法的可行性,与单人目标检测相比,该方法至少提高了5%的F1分数(精确率与召回率的调和平均数)。如图3d所示,实验中同步采集了两个受试者区分目标和非目标图像的EEG信号,并在数据层和特征层分别融合了两个受试者的数据和特征,其F1分数达到82.76%,由此可见基于群体神经活动整合的群体决策更有优势,处于在时间压力下做出关键决定的紧急情况时,基于RSVP的协同BCI系统有望通过群体智慧做出最有利决策。
2.4 小结
综上,将人脑认知智能与机器计算智能进行有机结合可满足图像识别和检测的高性能要求,上述研究在控制层面、特征层面、决策层面进行RSVP范式优化,启发了我们如何在BCI框架下实现高效又精准的图像识别和检测。RSVP-BCI可进一步应用于各种不同条件下的快速视觉搜索任务,甚至还可将多模态协同BCI应用到RSVP范式中[32-33],帮助协作团队在各种场景中做出更准确的决策。
生活方面,RSVP-BCI可以应用于身份认证、测谎等。RSVP任务中受试者观察目标和非目标图像的连续序列所导致的ERP潜伏期的强烈个体差异可用于身份验证[34]。Wang等[35]基于RSVP范式提出隐藏信息测试框架,由于嫌疑人或目击者会对与犯罪现场有关的图片或物品做出反应,该欺骗检测方法能够扩展到不同的犯罪调查场景。
军事方面,RSVP-BCI可用于海(船舰)陆(基地)空(导弹、巡逻机)天(卫星、空间站)中目标锁定跟踪、遥感监测等功能的实现。研究表明,利用RSVP进行图片情报分析,正确率较传统人工识别方式提高30%[36]。Zhang等[37]发现RSVP范式中不同视野刺激对EEG空间分布有显著影响,验证了目标空间方向精确定位的可能性。
医疗方面,通过RSVP-BCI进行医学影像的检测可实现药物筛查与病灶判定。Hope等基于RSVP范式将脑电信号分析与计算机视觉结合,成功应用于乳腺癌筛查[4]。RSVP-BCI还可用于临床疾病的早期诊断与康复。Zokaei等[38]发现帕金森病患者在RSVP实验范式中存在时间定向缺陷,而服用多巴胺能药物可以消除患者的这一缺陷。Shalbaf等[39]采用连续小波变换方法将脑电信号转换为图像,实现了对精神分裂症患者的分类。Yi等[40]通过设计三种不同呈现率的RSVP任务实现了心理负荷的监测,探讨了与时间压力相关的多层次心理工作量的可分离性。因此,RSVP范式可进一步应用于认知、情感和精神分裂症等临床症状的研究。
3 用于意念控制游戏的RSVP优化范式
游戏型RSVP-BCI系统可为神经功能障碍患者提供较强的游戏乐趣,然而许多神经功能障碍患者由于神经通路阻断,无法自由控制肢体完成传统游戏的人机交互。将BCI与游戏结合,通过对脑电信号的识别,使用户完成对游戏的直接控制,为残障人士提供了新的康复治疗途径。
Nayak等[41]基于Unity游戏引擎平台提出了一种结合RSVP和SSVEP的新型混合游戏BCI。如图4所示,该范式基于一款三消游戏Jewel Quest呈现一个珠宝图像矩阵,采用RSVP范式在不同位置的四个白色方块以四种不同的闪烁率显示八个不同珠宝的序列。实验中首先从四个突出显示的类别中通过SSVEP刺激识别用户的目标关注位置,然后进入RSVP刺激阶段,从刺激序列中通过ERP区分目标和非目标,如果受试者成功识别出目标,则获得相应分数。在2021年其团队延伸的研究中,受试者平均4.42 s即可完成搜索任务,实现了81.59%的离线准确率、78.10%的在线准确率以及4.63 bits/min的离线ITR、7.95 bits/min的在线ITR[42]。2022年,该团队在模拟计算机游戏场景中通过基于模糊熵算法有效地测量了多目标RSVP刺激中的EEG复杂性[43],离线实验最高准确率达87.41%,揭示了多目标场景中实时游戏型混合BCI系统的可行性。国内陈景霞等[44]同样提出基于Jewel Quest的SSVEP与RSVP相结合的实验范式,通过游戏任务的模式让用户寻找不同频率呈现的随机图片序列,该组合范式既减少了用户疲劳又实现了多目标检测。结果显示,在8分类实验中取得了最优分类性能91.6%,验证了诱发的EEG信号具有良好的多分类可分性。

综上,RSVP-BCI具有丰富传统游戏交互手段和增强BCI控制的特点,但该类型游戏只能从预定义的命令集进行选择,无法进行连续控制,因此研究相对较少。未来,游戏型RSVP-BCI可以用于认知(注意力、记忆力)增强的相关训练、人体状态(警觉度、疲劳度)的评估等,还可作为一种神经治疗工具帮助注意力缺陷多动症儿童进行康复治疗。另外,为了获得较高的游戏型RSVP-BCI在线分类精度及ITR,仍需要优化游戏控制范式和策略,进一步研究面向多任务、复杂场景的多人协同/对抗游戏BCI。值得注意的是,有报道称一种新型的VR-EEG结合耳机将电极嵌入枕部,可用于神经游戏的ERP检测。因此,RSVP-BCI可能受益于头戴式视觉显示器,借助虚拟现实/增强现实技术进一步改善视觉效果,从而为用户提供更好的交互体验。
4 面临挑战与发展方向
尽管RSVP-BCI系统近年来在各个领域都取得了显著进展,但仍然面临着一些挑战:① 系统性能亟待提高。如拼写器方面,只有其准确率与ITR达到或超过其他传统拼写器的相应水平,才能充分发挥RSVP范式不依赖于视线移动的优势,为患者提供更自然、友好的交流方式。② 建模时间有待缩短。耗时的建模过程是RSVP-BCI在线系统广泛应用的阻碍之一,而将其无缝集成到实际场景中的关键在于诱发更稳定的内源性神经信号和开发更有效的零校准算法。③ 并行操控问题急需解决。复杂任务下,当前RSVP-BCI缺乏有效协同手、眼、脑等决策权重的方法,需要更智能的并行操控方案,使之不局限于单一模式的操作。
目前RSVP-BCI仍停留在实验室研究阶段,为满足实际生活和工作的需要,有以下两个发展方向:① 现实世界的应用。首先需要将RSVP-BCI与典型场景下的典型应用联动,研发快消级别的产品实现商业落地,进而走进现实生产生活。如结合无人机技术进行可靠的静态图像检测和动态视频监控,或者结合智能机器人为患者提供全天陪伴和看护服务等。② 虚拟世界的应用。将RSVP-BCI与人工智能、虚拟现实相结合为其发展带来了充满希望的未来,这与提供更丰富、自由、沉浸式体验的元宇宙的不断演进趋势相吻合,可创建更直观的跨平台人机交互新世界。
5 结语
综上所述,RSVP-BCI是一种特殊类型的BCI系统,该系统将RSVP范式与基于P300信号的脑响应检测结合起来,利用非侵入性脑电测量方式记录信号,有利于受试者在信息流中快速、准确地选择心中所想目标刺激,并通过解码受试者的EEG信号实现对外部设备的信息交流与控制。本文介绍了RSVP-BCI技术及范式应用领域,梳理了RSVP-BCI近五年的研究进展。数年来,随着研究的不断深入,RSVP-BCI的蓬勃发展有效地推动了人机交互领域的发展,具有速度快、精度高、用户友好等优势。RSVP-BCI最常见的应用类型是监控应用、表达辅助应用、游戏娱乐应用和医疗应用,然而,将BCI应用于商业和实验室之外的现实场景中,仍然面临鲁棒性、实时性等方面的挑战。未来,随着各个社会面智能化需求的增多,相信不断进行范式创新的RSVP-BCI在辅助交互、商业游戏、监控安检、医疗健康、特种军事等领域会迸发更加强大的活力。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:尤佳完成了相关文献搜集、分析工作,杨明明完成了文献整理、文章图像绘制,孙静敏完成了文献综述及文章的撰写,孟佳圆和许敏鹏制定了文章的写作思路,明东完成了文章的审阅及校对,江京协助了稿件的修订。