企业论坛
大模型时代的图象图形技术变革与实践
基本信息
论坛名称:大模型时代的图象图形技术变革与实践
论坛介绍
由AI大模型引领的创新浪潮席卷全球,掀起产业升级的蝶变。作为人工智能领域一项基础性、普适性技术,图象图形技术如何乘大模型之风,实现技术突破、抓住发展新契机,是学术界和产业界共同热议的话题,更是亟待解决的问题。
本论坛汇集百度AI专家、知名高校学者,共同探讨大模型时代的图象图形技术变革与实践,多维度分享如何运用AI大模型应对图象图形技术挑战以及视觉大模型应用落地的实战经验,内容涵盖计算机视觉领域的核心基础问题、经典的智能文档图像识别和理解任务、热门的AIGC技术探索与进展等等,希望为与会学者提供开源开放的交流平台。
论坛主席
姓名:王井东
单位和职称:百度计算机视觉首席科学家
个人简介:王井东,百度计算机视觉首席科学家。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于transformer attention的图像语义分割网络OCRNet、以及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员。他是IEEE/IAPR Fellow、ACM Distinguished Member。
报告嘉宾
姓名:张刚
单位和职称:百度视觉技术部
报告题目:视觉端到端大模型技术实践
个人简介:张刚,硕士毕业于西安电子科技大学,百度人脸识别团队技术负责人,研究方向包含人脸识别、开放域数据挖掘、视觉多任务大模型和模型小型化等技术。主导研发170亿参数视觉多任务大模型文心VIMER-UFO 2.0,孵化PaddleSlim开源模型压缩工具,并将相关技术应用到百度数十个重要产品线。在CVPR、ICCV、ECCV等视觉顶会上发表多篇论文,曾带队获得多项国际权威竞赛冠军。连续三年组织CVPR NAS workshop,在CVPR 2023上组织第一届Foundation Model Workshop和视觉大模型竞赛。
姓名:宋睿华
单位和职称:中国人民大学高瓴人工智能学院
报告题目:多模态预训练模型及应用
个人简介:宋睿华博士,中国人民大学高瓴人工智能学院长聘副教授,国家高层次人才专家,曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她也是文澜多模态预训练项目的学术带头人,已发布6.5亿图文数据上预训练的文澜2.0和1千万视频文本数据上预训练的文澜3.0,并成功落地多个产品(如OPPO手机中的为视障人士读图功能)。宋睿华博士是具有国际影响力的人工智能科学家,发表学术论文90余篇,申请国际专利25项。最近的研究兴趣包括多模态理解、创作和交互。她是SIGIR 2023讲习班的主席、ACL和SIGIR的Area Chair和Senior PC,还是Information Retrieval Journal的主编。
姓名:刘经拓
单位和职称:百度视觉技术部
报告题目:数字人及视觉生成技术与应用
个人简介:刘经拓,硕士毕业于清华大学,有超过10年的计算机视觉算法研究与落地经验。研发了国内首个全网人脸搜索引擎,在人脸、OCR、NAS等领域发表多篇CVPR、ECCV等顶会学术论文,并获得过Widerface、VOT多项学术竞赛冠军,主导研发的人脸识别技术入选2017年”MIT世界十大技术突破”之一。目前担任百度视觉技术部杰出架构师,负责百度数字人技术和增强现实技术的研发工作。
姓名:王兴刚
单位和职称:华中科技大学电信学院
报告题目:基于掩码图像建模的可规模化视觉表征研究
个人简介:王兴刚,华中科技大学电信学院教授、博士生导师,入选国家青年人才计划,Elsevier Image and Vision Computing期刊共同主编。主要研究方向为视觉目标检测与分割,在IEEE TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数1.7万余次,其中CCNet方法在AlphaFold中作为骨干网络被使用,ByteTrack方法在ECCV 2022最具影响力论文中排名第一。担任CVPR 2022、ICCV 2023、ICIG 2023领域主席,Pattern Recognition等期刊编委。入选了中国科协青年人才托举工程,获CSIG青年科学家奖,CAAI吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖,华中科技大学青年五四奖章等,指导学生获2022年全国“互联网+”大赛金奖。
姓名:陈智能
单位和职称:复旦大学计算机科学技术学院,青年研究员,博士生导师
报告题目:高效场景文字识别技术实践与探索
个人简介:陈智能,中科院计算所博士,香港城市大学博士后,现为复旦大学计算机科学技术学院青年研究员,中国图象图形学学会多媒体专委会委员、副秘书长,主要研究方向为多媒体分析、计算机视觉、医学影像分析,主持了国家重点研发计划课题,多项国家自然科学基金项目,以及百度、腾讯、交通部公路院、软控等企事业单位的横向科研项目,在领域内知名学术期刊和会议上发表学术论文60余篇,担任多个知名国际会议的领域主席、高级程序委员等,以及多个知名国际期刊的审稿人。
姓名:章成全
单位和职称:百度视觉技术部
报告题目:文档图像智能识别与理解技术
个人简介:章成全,现任百度视觉技术部资深工程师,是百度文字识别算法负责人,支持百度云OCR引擎、百度视觉搜索、百度网盘智能文档等关键AI产品建设。于2016年在华中科技大学电子信息与通信学院获得硕士学位,毕业后加入百度视觉团队,专注于OCR检测和识别、文档智能理解、文本图像编辑等技术方向的研发工作。在文档领域相关国际会议和期刊上累计发表论文20多篇,获得ICDAR-RRC、VOT、中国人工智能多媒体信息识别技术竞赛等多项赛事冠军,并取得第23届国家专利银奖1项。
论坛日程
5月12日 下午
图象图形赋能产业论坛
基本信息
论坛名称:图象图形赋能产业论坛
论坛介绍
论坛以“图象图形赋能产业”为主题,邀请苏州高新区管委会,领域知名企业,高校专家学者,通过技术报告、就业宣讲、企业对话等形式,深入探讨图像图形技术在产业数字化、智能化进程中的推动作用,展示前沿核心技术及应用成果,发布优质就业岗位需求。论坛旨在汇聚学术、产业创新科技资源,为地方政府、企业和高校人才搭建高效对接交流平台,促进政产学研用深度融合,推进高质量就业。
论坛主席
姓名:马思伟
单位和职称:北京大学
个人简介:北京大学计算机学院教授,国家杰青、腾讯科学探索奖获得者。主要研究方向视频处理与编码。(曾)担任IEEE Transactions on Circuits and System for Video Technology, Journal of Visual Communication and Representation期刊编委,IEEE VCIP-2017 程序委员会联合主席,IEEE ISM-2015领域主席。自2002年起参与AVS系列国家标准的制定,担任AVS视频组长组织制定了新一代AVS3视频编码标准,研制的AVS2/AVS3超高清编解码器,支撑了央视CCTV-4K/CCTV-8K超高清频道的开播。曾获国家技术发明奖一等奖、国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
姓名:汤进
单位和职称:安徽大学
个人简介:中国图象图形学学会理事,安徽省计算机学会副理事长,中国计算机学会杰出会员,安徽省学术技术带头人,合肥综合性国家科学中心人工智能研究院院长助理,并担任合肥市新一代人工智能产业发展联盟常务副理事长,主要研究方向为计算机视觉,在IEEE/ACM Trans.和CCF A类会议上发表学术论文50余篇,主持国家基金重点、面上等各类项目二十余项。
报告嘉宾
姓名:唐琪
单位和职称:合合信息智能创新事业部
报告题目:智能文档处理的框架与思考
个人简介:上海合合信息科技股份有限公司智能创新事业部总经理,负责公司AI业务线的产品和技术研发与落地工作。任职期间,先后主导了基于深度学习的全文识别引擎,基于多模态的文档版面分析和信息提取引擎,基于行业领先的OCR和文档理解引擎等产品,在金融、制造、物流等行业的证件证照识别、票据识别与分析、文档理解、文档版面分析等方面做了大量研发和落地实践,对图像处理和智能文档理解方向有着深刻的行业洞察力。
姓名:支洪平
单位和职称:科大讯飞苏州研究院
报告题目:科大讯飞计算机视觉技术分享
个人简介:科大讯飞苏州研究院常务副院长,主持工作,负责人工智能在音视频方向的应用研究、产品开发和业务拓展。主持过金融、电子政务、海关物流、安防安检、汽车智能音效等领域的多项信息化、智能化软硬件系统的研发和产业化,有丰富的科技企业研发和产品管理、经营管理和创业融资经验。申请专利80余项,获批50余项,发表论文5篇。
姓名:熊龙飞
单位和职称:珠海金山办公软件有限公司
报告题目:扫描件PDF编辑新模态
个人简介:研究生毕业于德国基尔大学,电子信息科学与技术专业,研究生主要研究领域为:BCI(脑机接口)和图像处理,参与发表两篇SCI收录的IEEE EMBC文章。有过三次创业经历,2019年11月加入金山办公,现为金山办公技术总监,组建了CV团队。负责OCR、文档识别和理解、PDF编辑、扫描等多个重点项目的研发管理工作。实现了全球第一个移动端拍照弯曲矫正功能,版式还原实现了行业领先的效果。目前版式还原已在扫描件PDF转化、拍照扫描、PDF编辑、双层PDF等多个业务上应用。申请专利二十余篇,其中六篇已获得授权。2021年起任中国图象图形学学会《文档图像分析与识别专委会》专业委员,为国际PDF组织企业成员,《珠海欧美同学会》和《珠海市海归青年交流促进会》会员。2021年带领团队获得金山办公技术大奖一等奖,2021年荣获金山办公和金山集团双料十佳员工。2022年获得“珠海创新创业好青年”称号。2022年指导金山队伍获得CSIG图像图形挑战赛小票识别赛道冠军和总决赛冠军。
姓名:李辉
单位和职称:联想研究院智慧教育实验室
报告题目:复杂版面文档识别技术及应用
个人简介:拥有文档处理技术和设备端优化技术20年以上经验, 在ICPR2020和ICDAR2021 文档识别和处理技术竞赛获得共5项冠军。
姓名:宋杨
单位和职称:蚂蚁集团多媒体技术部
报告题目:蚂蚁集团在CG领域的规划
个人简介:2004年于清华大学计算机系获得硕士学位,2007年于日本早稻田大学获得博士学位,先后就职于东京富士通研究所、华为2012实验室、蚂蚁集团等多家公司,有超过15年的多媒体技术研发经验,有相关论文和专利50篇。
姓名:何刚
单位和职称:快手高级视频算法专家
报告题目:海量UGC视频的智能修复增强算法的研发和落地
个人简介:加入快手专注于视频智能修复增强处理和压缩算法方向工作。2014年博士毕业于日本早稻田大学,发表学术论文50+篇,曾担任视频产品线架构师职务,AI增强算法获得央视报道。研究方向包括AI视频增强修复算法、HDR算法、以及视频编码算法、VLSI结构芯片设计等。
姓名:常江龙
单位和职称:OPPO广东移动通信有限公司
报告题目:手机端媒体智能编创实践
个人简介:OPPO广东移动通信有限公司多媒体专家。2009年博士毕业于中国科学技术大学后,长期从事视觉类应用算法的研发和落地。目前的研究兴趣包括多模态媒体理解,图像/视频智能编辑,多媒体内容生成等。
姓名:张叶
单位和职称:宁波书写芯忆科技有限公司
报告题目:芯忆科技人工智能落地应用
个人简介:张叶博士,长光芯忆创始人,中科院长春光机所研究员,博士生导师,宁波镇海区政协委员,中科院青促会会员,中国图象图形学学会视觉检测专业委员会委员,《液晶与显示》青年编委,长春市女科技工作者协会秘书长,长春市妇女儿童事业发展联盟理事,从事地面、航空、航天计算机视觉与人工智能基层工作整18年,曾获得国防科学技术进步二等奖一项,发表文章二十余篇,授权专利十余项,主持或参加多项国家级、省部级基金或工程项目人。2018年创业成立长光芯忆科技有限公司担任董事长职务,并获得吉林省“创新尖兵”称号,2019年长春市“数字人才”大赛第一名、特等奖,吉林省技术发明二等奖一项。2020年末入选宁波镇海“雄镇英才”领军人才,并成立“宁波书写芯忆科技有限公司”。
姓名:李科
单位和职称:海天瑞声
报告题目:大模型产业的数据底座
个人简介:海天瑞声副总经理,业务负责人。作为AI数据开拓者之一,深耕AI数据行业十余年,海天瑞声为全球500家AI企业提供AI数据解决方案。李科毕业于清华大学电子系,获得硕士学位。加入海天瑞声之前,他任职于IBM中国技术开发中心。
姓名:方律
单位和职称:飞领能源
报告题目:从概念到现实:AIGC技术价值与产品应用
个人简介:方律,毕业于中国科学技术大学,拥有微电子与计算机科学双学士,新加坡籍。现任科大讯飞与海尔集团联合投资,合肥飞尔智能董事、总经理,安徽飞领能源科技有限公司总经理,曾任京东与科大讯飞合资公司北京灵隆科技副总裁。他拥有20多年全球消费电子产品研发和市场经验,联合讯飞和京东开发了全球首款中文智能语音音箱叮咚,联合微软和新加坡创新科技开发首个SKYPE网络电话机,联合京东与新加坡iKnow集团推出了京东首个海外站-京东新加坡站。
论坛日程
5月13日 下午