大模型时代的图象图形技术变革与实践

| 企业论坛-大模型时代的图象图形技术变革与实践

基本信息

论坛名称：大模型时代的图象图形技术变革与实践

论坛介绍

由AI大模型引领的创新浪潮席卷全球，掀起产业升级的蝶变。作为人工智能领域一项基础性、普适性技术，图象图形技术如何乘大模型之风，实现技术突破、抓住发展新契机，是学术界和产业界共同热议的话题，更是亟待解决的问题。
本论坛汇集百度AI专家、知名高校学者，共同探讨大模型时代的图象图形技术变革与实践，多维度分享如何运用AI大模型应对图象图形技术挑战以及视觉大模型应用落地的实战经验，内容涵盖计算机视觉领域的核心基础问题、经典的智能文档图像识别和理解任务、热门的AIGC技术探索与进展等等，希望为与会学者提供开源开放的交流平台。

论坛主席

姓名：王井东
单位和职称：百度计算机视觉首席科学家

个人简介：王井东，百度计算机视觉首席科学家。加入百度之前，曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络（HRNet）、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索（NGS，SPTAG）等。他曾担任过许多人工智能会议的领域主席，如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员。他是IEEE/IAPR Fellow、ACM Distinguished Member。

报告嘉宾

姓名：张刚
单位和职称：百度视觉技术部

报告题目：视觉端到端大模型技术实践

个人简介：张刚，硕士毕业于西安电子科技大学，百度人脸识别团队技术负责人，研究方向包含人脸识别、开放域数据挖掘、视觉多任务大模型和模型小型化等技术。主导研发170亿参数视觉多任务大模型文心VIMER-UFO 2.0，孵化PaddleSlim开源模型压缩工具，并将相关技术应用到百度数十个重要产品线。在CVPR、ICCV、ECCV等视觉顶会上发表多篇论文，曾带队获得多项国际权威竞赛冠军。连续三年组织CVPR NAS workshop，在CVPR 2023上组织第一届Foundation Model Workshop和视觉大模型竞赛。

姓名：宋睿华
单位和职称：中国人民大学高瓴人工智能学院

报告题目：多模态预训练模型及应用

个人简介：宋睿华博士，中国人民大学高瓴人工智能学院长聘副教授，国家高层次人才专家，曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她也是文澜多模态预训练项目的学术带头人，已发布6.5亿图文数据上预训练的文澜2.0和1千万视频文本数据上预训练的文澜3.0，并成功落地多个产品（如OPPO手机中的为视障人士读图功能）。宋睿华博士是具有国际影响力的人工智能科学家，发表学术论文90余篇，申请国际专利25项。最近的研究兴趣包括多模态理解、创作和交互。她是SIGIR 2023讲习班的主席、ACL和SIGIR的Area Chair和Senior PC，还是Information Retrieval Journal的主编。

姓名：刘经拓
单位和职称：百度视觉技术部

报告题目：数字人及视觉生成技术与应用

个人简介：刘经拓，硕士毕业于清华大学，有超过10年的计算机视觉算法研究与落地经验。研发了国内首个全网人脸搜索引擎，在人脸、OCR、NAS等领域发表多篇CVPR、ECCV等顶会学术论文，并获得过Widerface、VOT多项学术竞赛冠军，主导研发的人脸识别技术入选2017年”MIT世界十大技术突破”之一。目前担任百度视觉技术部杰出架构师，负责百度数字人技术和增强现实技术的研发工作。

姓名：王兴刚
单位和职称：华中科技大学电信学院

报告题目：基于掩码图像建模的可规模化视觉表征研究

个人简介：王兴刚，华中科技大学电信学院教授、博士生导师，入选国家青年人才计划，Elsevier Image and Vision Computing期刊共同主编。主要研究方向为视觉目标检测与分割，在IEEE TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇，谷歌学术引用次数1.7万余次，其中CCNet方法在AlphaFold中作为骨干网络被使用，ByteTrack方法在ECCV 2022最具影响力论文中排名第一。担任CVPR 2022、ICCV 2023、ICIG 2023领域主席，Pattern Recognition等期刊编委。入选了中国科协青年人才托举工程，获CSIG青年科学家奖，CAAI吴文俊人工智能优秀青年奖，CVMJ 2021最佳论文奖，湖北省自然科学二等奖，华中科技大学青年五四奖章等，指导学生获2022年全国“互联网+”大赛金奖。

姓名：陈智能
单位和职称：复旦大学计算机科学技术学院，青年研究员，博士生导师

报告题目：高效场景文字识别技术实践与探索

个人简介：陈智能，中科院计算所博士，香港城市大学博士后，现为复旦大学计算机科学技术学院青年研究员，中国图象图形学学会多媒体专委会委员、副秘书长，主要研究方向为多媒体分析、计算机视觉、医学影像分析，主持了国家重点研发计划课题，多项国家自然科学基金项目，以及百度、腾讯、交通部公路院、软控等企事业单位的横向科研项目，在领域内知名学术期刊和会议上发表学术论文60余篇，担任多个知名国际会议的领域主席、高级程序委员等，以及多个知名国际期刊的审稿人。

姓名：章成全
单位和职称：百度视觉技术部

报告题目：文档图像智能识别与理解技术

个人简介：章成全，现任百度视觉技术部资深工程师，是百度文字识别算法负责人，支持百度云OCR引擎、百度视觉搜索、百度网盘智能文档等关键AI产品建设。于2016年在华中科技大学电子信息与通信学院获得硕士学位，毕业后加入百度视觉团队，专注于OCR检测和识别、文档智能理解、文本图像编辑等技术方向的研发工作。在文档领域相关国际会议和期刊上累计发表论文20多篇，获得ICDAR-RRC、VOT、中国人工智能多媒体信息识别技术竞赛等多项赛事冠军，并取得第23届国家专利银奖1项。

论坛日程

5月12日下午

| 企业论坛-大模型时代的图象图形技术变革与实践

联系我们

会议秘书：周女士

手机：13862081502

中国图象图形学学会
联系人：骆老师、王老师
电话：010-82544676
邮箱: ccig@csig.org.cn