第一会所

2023级信息安全与法学双学位班本科生余辰民以第一作者在CCF-A类会议发表论文

近日,第一会所 2023级信息安全与法学双学位班本科生余辰民为第一作者的学术论文《Beyond Detection: A Structure-Aware Framework for Scene Text Tracking》被第43届国际机器学习大会主会接收。ICML 是机器学习与人工智能领域的顶级会议,位列中国计算机学会(CCF)推荐A类会议榜单。

视频中的文字(如街景招牌、字幕、商品包装等)是视觉场景理解的重要语义载体相比通用目标跟踪,视频场景中的文字目标常常受到拍摄视角变化、运动模糊、遮挡、尺度变化和复杂背景干扰的影响;同时,不同文字实例之间往往具有高度相似的字符结构,使得模型容易在相近文字之间发生误跟踪。此外,文字目标对结构细节极其敏感,轻微的定位偏移就可能改变字符内容的可读性,从而影响后续的识别、编辑和理解任务。现有方法高度依赖逐帧检测识别,一旦某帧检测失败,文字轨迹就会断裂。

为此,论文提出首个无检测的结构感知场景文字跟踪框架SymTrack,通过协同双分支设计预测令牌矫正与跨专家校准,分别解决结构不平衡和视觉歧义问题,并配合自适应推理引擎增强动态场景鲁棒性。

论文还从现有数据集中筛选转化,构建了覆盖艺术字、密集小文字、复杂背景叠加等场景的三个新评测基准。实验显示,SymTrack在三个基准上全面大幅超越现有跟踪器,消融实验也验证了架构设计的有效性。该工作表明场景文字跟踪应作为独立视觉任务开展系统研究,为视频文字编辑、擦除等下游应用提供了更稳定的基础能力。

该论文完成于余辰民在InTime实验室学习期间,科研导师为周宇教授。

南开大学信息安全与法学双学位班面向国家网络空间安全与数字法治重大需求,培养兼具计算机技术、信安素养与法律思维的复合型人才。学生论文被ICML 2026主会接收,展现了扎实基础与科研探索精神,也彰显了学院在交叉学科与本科生科研培养上的显著成效。

供稿:InTime实验室