研究概述
研究室围绕“面向语义的非结构化数据挖掘与服务”开展自然语言处理领域的前沿研究工作,在语义挖掘、知识获取及其智能服务领域开展相关应用技术研究和原型系统开发,并关注相关技术在业界的应用。主要研究工作以语义理解、智能交互与知识服务等为主要内容,各研究方向结合特定应用(如语义搜索、知识问答、智能媒体、智能对话、文本生成)构成一个协调统一的整体。
知识获取与语义挖掘
知识获取与语义挖掘方向的核心任务是自然语言理解和信息抽取。本方向围绕着开放域中文信息的知识获取与服务的目标,以语义信息抽取、大规模开放域中文结构化知识库构建和面向知识的语义理解为应用场景开展研究工作。研究内容主要包括信息抽取、知识获取、事件分析、中文知识图谱构建、事实验证及因果推理、面向结构化知识库的智能问答以及语义分析、信息抽取技术在媒体、司法、科技情报、医疗等专业领域的应用等。
代表性工作:
[1] Quzhe Huang, Shengqi Zhu, Yansong Feng, Yuan Ye, Yuxuan Lai, Dongyan Zhao: Three Sentences Are All You Need: Local Path Enhanced Document Relation Extraction. ACL/IJCNLP (2) 2021: 998-1004
[2] Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wang, Dongyan Zhao: Neighborhood Matching Network for Entity Alignment. ACL 2020: 6477-6487
[3] Liwei Chen, Yansong Feng, Songfang Huang, Bingfeng Luo, Dongyan Zhao: Encoding implicit relation requirements for relation extraction: A joint inference approach,Artificial Intelligence 265: 45-66 (2018)
[4] Bingfeng Luo, Yansong Feng, Zheng Wang, Zhanxing Zhu, Songfang Huang, Rui Yan, Dongyan Zhao, Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix, ACL (1) 2017: 430-439.
[5] Kun Xu, Yansong Feng, Siva Reddy, Songfang Huang, Dongyan Zhao: Question Answering on Freebase via Relation Extraction and Textual Evidence, ACL 2016: 2326-2336
[6] Kun Xu, Yansong Feng, Songfang Huang, Dongyan Zhao: Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling. EMNLP 2015: 536-540
智能交互和持续学习
智能交互方向的核心任务是人机对话及相关的自然语言处理技术。本方向以开放域知识对话与和专业领域知识智能对话服务为应用目标开展研究工作。研究内容主要包括大规模预训练语言模型与持续学习、神经网络的可解释性、自然语言对话及多模态对话、风格化生成技术,以及智能对话与可控生成技术在媒体、司法、金融和互联网领域的应用。
代表性工作:
[1] Xueliang Zhao, Tingchen Fu, Chongyang Tao, Wei Wu, Dongyan Zhao, Rui Yan: Learning to Express in Knowledge-Grounded Conversation. NAACL 2022 NAACL-HLT 2022: 2258-2273
[2] Yiduo Guo, Bing Liu, Dongyan Zhao: Online Continual Learning through Mutual Information Maximization. ICML 2022: 8109-8126
[3] Chang Liu, Chongyang Tao, Jiazhan Feng, Dongyan Zhao: Multi-Granularity Structural Knowledge Distillation for Language Model Compression. ACL (1) 2022: 1001-1011
[4] Lili Yao, Nanyun Peng, Ralph Weischedel, Kevin Knight, Dongyan Zhao, Rui Yan: Plan-and-Write: Towards Better Automatic Storytelling. AAAI 2019: 7378-7385
[5] Chongyang Tao, Lili Mou, Dongyan Zhao, Rui Yan. RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems, AAAI 2018: pp722-729.
[6] Zhenxin Fu, Xiaoye Tan, Nanyun Peng, Dongyan Zhao, Rui Yan. Style Transfer in Text: Exploration and Evaluation, AAAI 2018: pp663-670.
智能知识服务技术
本方向以知识挖掘和智能交互技术为基础,在互联网、媒体、教育、金融等领域展开知识图谱、智能问答与智能对话等的技术创新与应用系统研发。
主要应用系统包括:
权威思想智能问答学习平台(2022年)
海事法院案件辅助分析系统(2021年)
智投研及量化投资系统-FinBot(2018年)
法律智能问答机器人-LawBot(2017)
语义搜索系统SSE(2016年)
大规模中文知识图谱PKUBase(2014年)
大数据舆情分析系统(2010年)
媒体数字资产管理系统(2006年)
此外,在媒体、互联网、科技情报、医疗、金融、能源等领域开展了创新研究,开发了一系列语义分析、知识图谱构建和智能问答与对话应用,与多个行业部门、机构、头部企业及创投公司保持合作关系、建立联合实验室/基地、开展联合研发工作。