实验室动态

李俊涛老师:应用启发的大模型技术研究

报告题目: 应用启发的大模型技术研究

报告人:李俊涛老师

主持人:赵东岩老师

时间:11月21日(周二) 下午14:30—16:00

地点:王选所106会议室

摘要:

ChatGPT发布一年以来,国内外相关团队对大模型全链路的数据构造、训练方法、效果调优进行了系统探索,为开源社区贡献了高质量的数据、模型,披露了重要的技术思路和细节。伴随着这样的进展,针对大模型的应用落地和技术研究也进入了新的阶段。本报告结合团队在大模型训练、应用落地、创新技术研究方面的经验,讨论大模型在实际应用中的使用范式和效用力,分享大模型应用优化、技术研究、人才培养等方面的思考。

报告人简介:

李俊涛,苏州大学副教授(2020年至今),2020年博士毕业于北京大学王选所,主要研究文本生成和语言模型。入选第九届中国科协青年人才托举工程,入选2022年微软亚研“铸星计划”,CCF自然语言处理专委会执行委员,近5年发表CCF A/B论文45篇,出版FnTIR对话专著1部,在AAAI和IJCAI上做文本生成主题的Tutorial报告,主持参与横纵向项目10余项。作为项目带头人完成了苏大自研预训练大模型OpenBA的训练,并开发了多个变种版本,在多个场景得到了应用。

报告现场:

11月21日下午,苏州大学副教授李俊涛老师在王选所106会议室就“应用启发的大模型技术研究”进行了精彩的分享。李老师从技术进展和应用进展两方面总结了大模型近一年的发展,从学术的角度分享了苏州大学在人工智能大模型技术领域的发展历程和实践案例,特别是最近开源的OpenBA大模型的训练和应用。OpenBA是一款具有150亿参数的双语非对称seq2seq模型,也是中国开源模型社区迎来的首个大型语言模型变体。此外,李老师还强调了大模型技术从预训练到应用实践的演进及人才培养的重要性,并且展示了AI大模型技术在实际应用中的动态性和多样性,以及不断追求适应具体需求的趋势等。

在李老师的报告分享结束后,现场的老师和同学纷纷提出了关于大模型和学术等多方面的问题和想法,使得现场气氛异常热烈。这次分享不仅展示了大模型技术的前沿发展,也为参与者提供了思考和交流的平台。