为进一步活跃学术氛围,加强高层次学术交流,2022年11月19日(本周六)上午,广西人机交互与智能决策重点实验室、广西应用数学中心、9999js金沙老品牌大数据与人工智能产业学院联合举办第二期学术沙龙活动,特邀请了西安交通大学国家级专家王进军、中国科学院软件研究所副研究员谢旭荣以在线会议方式作学术报告。欢迎全校各位教师、科研人员、研究生踊跃参加!
报告时间:2022年11月19日上午8:45-11:45
腾讯会议:167-852-641
报告题目1:行人重识别技术的前沿进展
报告人:王进军教授(西安交通大学)
报告摘要:
行人重识别(Person Re-Identification )技术旨在解决跨摄像头跨场景下判断在不同的观测位置下的图像或者视频序列中是否存在特定行人的技术,作为智能视频监控系统的关键环节,对维护社会公共秩序具有重大作用。本报告将介绍此方向上的进展和相关代表性工作,并对行人再识别的未来发展趋势进行分析和展望。
报告人简介:
王进军博士,2008年在新加坡南洋理工大学获得计算机工程博士学位。自2006年到2013年,他先后在美国硅谷的NEC研究院、美国Epson研发院等担任研究员和高级研究员。
王进军博士的研究方向主要包括:模式识别、计算机视觉、多媒体计算和机器学习,是多媒体计算与模式识别领域非常活跃的国际学者,他曾组织过Pattern Recognition期刊专题,主办并担任ICIP、ICME、MMM、PCM等会议的专题主席或公共关系主席,并长期担任T-MM、T-IP等多个期刊以及会议的审稿人。王进军博士在多模态体育视频复杂场景分析、图像特征向量优化、图像分辨率增强、时间序列信号分析等研究方向上提出了多项创新的理论方法与关键技术方案,成为许多后续研究的理论扩充及比较对象。在计算机视觉方向,他所提出的图像特征表达算法,被广泛的引用并运用于解决图像分类、人物动作识别、图像超分辨率等图像或视频数据进行检索/匹配/语义理解/增强等实际应用中的关键问题。在多媒体计算方面,王进军博士是国际上早期从事视频/音频/文本多模态进行体育视频检索的学者之一。他和团队开发了实时体育视频检索技术,与ESPN(美国)、新加坡电信(新加坡)、NEC(中国)、Intel(中国)等企业有长期深入的学术及商业合作。在机器学习方面,王进军博士提出了多种基于图论模型的结构数据学习算法,用于解决图像超分辨率、人物动作序列识别、人物表情识别、驾驶安全度预测、机械手动作模仿等问题。已编写英文著作1部,在国际知名学术期刊IEEE T-MM和顶级国际会议CVPR、IJCAI、ACM MM等上发表学术论文70余篇,代表性论文被他引7000多次,单篇最高他引超过1800次。已获授权美国发明专利14项,中国发明专利3项。曾获得过2项NEC公司奖和1项微软亚洲奖,其所在团队在图像视频领域最具影响力的国际比赛TRECVID Event Detection(2009)和PASCAL VOC(2009)中获得冠军。
报告题目2:语音驱动的发音运动生成技术及其应用介绍
报告人:谢旭荣博士(中国科学院软件研究所)
报告摘要:
发音运动一般指例如嘴唇、舌头、下颚等发音相关器官在发音过程中的运动。发音运动可以提供声学信号以外或潜在的补充表达,辅助挖掘语音中的有用信息,用于如语音可视化、语音诊断和康复、多模态语音识别等领域。
精确的发音运动数据可通过fMRI、电磁关节造影(EMA)、超声图像等技术获取,但这些数据一般不易采集。一种可行的解决方法是使用语音的声学信号生成对应的发音运动。
本报告介绍包括基于高斯模型、时序模型、和神经网络的语音驱动发音运动生成技术,以及该技术在语音可视化、障碍语音识别等方面的前沿应用。
报告人简介:
谢旭荣于2020年获香港中文大学电子工程学博士学位,现任中国科学院软件研究所副研究员,研究方向包括智能语音处理、语音交互和机器学习,此前分别获伦敦大学学院机器学习硕士和中山大学数学、哲学双学士学位。
他主持了国家自然科学基金青年项目,并参与了国家科技部重点研发计划、国家自然科学基金等多个科研项目,在语音领域顶会和顶刊上共发表论文约30篇。
他提出的贝叶斯自适应技术、言语障碍语音识别技术等在多个中英文语音识别任务上获国际最前沿性能,并获语音领域顶会ICASSP2019最佳论文奖。