LIP 语言智能处理

研究方向1：软件工程（Software Engineering）

众包需求工程（Crowd-sourcing Requirements Engineering）

需求管理在软件开发中扮演着重要的角色。但是，大量的利益相关者使传统的需求获取、分析、验证和规格化等活动变得极其昂贵和耗时。目前需求工程研究产生了新的趋势，即通过众包的手段收集软件需求。众包降低了需求获取的成本，减少了系统开发人员搜集需求的工作量。然而，从众包用户那里获得高质量的需求变得非常具有挑战性。要将众包需求转化为高质量需求，还有很多工作要做。本组关注通过分类、重写和确定优先级等工作来加速这个过程的自动化。

神经程序修复（Neural Program Repair, NPR）【视频介绍-2022.11】

自动程序修复技术一直受到软件工程、程序语言设计、形式化方法和系统软件等研究社区的广泛关注。神经程序修复旨在运用深度学习技术实现端到端的自动程序修复模型(即自动为bug代码产生对应的补丁)。神经程序修复方法一般分为三个部分：代码表示构造、端到端模型和补丁生成及排序。本组主要关注：（1）适用于神经程序修复研究的高质量标准数据集的定义与构建；（2）融合程序语言及程序修复特性的代码表示；（3）修复模型的解释生成与可视化；（4）修复鲁棒性评估等。

代码预训练（Source Code Pre-training）【视频介绍-2022.11】

深度学习已经成功地应用到各种各样的软件工程任务中，但是，其中最受欢迎的有监督深度学习需要大量的，通常来说很难获得的有标签数据，用来训练深度神经网络中海量的参数，过少的有标签数据会导致深度学习模型的过拟合，降低其泛化能力。从长远来看，对有标签数据的依赖显然阻碍了深度学习的发展。为了摆脱对有标签数据的依赖，基于更加容易获得的无标签数据的自监督学习、无监督学习等方法在自然语言处理领域受到了广泛关注。近期，代码预训练模型也得到了很好的发展。本组主要关注如何融合更多代码信息设计适合下游任务的预训练任务，主要关注的下游任务有代码摘要、代码搜索、代码定位和代码生成等。

研究方向2：自然语言处理应用（NLP Applications）

司法判决预测（Legal Judgment Prediction, LJP）

随着人工智能技术的发展和海量司法数据的公开，智能化的司法判决预测任务受到了学术界和工业界的广泛关注，即自动分析案件基本事实情况，并依据相应的法律知识、采取特定的司法逻辑以预测相应的司法判决结果，从而辅助法官判案、辅助诉讼、提供法律咨询服务等。中文司法判决预测聚焦于法律条文预测、罪名预测和刑期预测等，主要的研究难点包括：如何在模型中嵌入专业司法知识、如何增强模型的可解释性、如何解决样本不均衡问题、如何建模不同子任务之间的关系等。本组主要探究利用事件信息、建模子任务之间的关系、建模法条之间的关系等优化LJP效果。相关工作发表在TASLP、TKDD、ACL、ACML、PRICAI等期刊和会议上。部分研究成果已在天津法院信息化系统中落地应用。

广告用户定位（User Targeting in Advertising）

广告用户定向旨在为广告精准检索潜在的感兴趣用户。其中正向样本缺乏是亟待解决的关键问题之一。具体而言，新广告主投放广告过程中，因点击人群过少，无法训练出较为鲁棒的用户定向模型。一种有效的解决方案是，基于同一个品类的相似广告可能共享一批相同的正向用户（兴趣相似的用户会点击相似的广告）的假设，通过相似广告的正向用户扩充目标广告主的正向用户，平衡目标广告的正负样本数量，训练更加鲁棒的用户定向模型，更加准确地将目标广告推荐给潜在用户，提升广告点击率和转化率。本组一方面着手“相似广告”推荐研究，另一方面关注基于小样本学习、对比学习等解决用户定位问题。相关工作已发表在EMNLP Findings、计算机学报。

情感分析（Sentiment Analysis）

文本情感分析是自然语言处理领域的一项重要研究内容，旨在对带有情感色彩的主观性文本进行分析和处理。广义的情感分析包括了情感分类、情感元素抽取、情感检索和观点摘要等多个子任务，而狭义的情感分析则侧重于分类，即判断文本的情感类别，这也是本组关注的研究重点。此外，修辞手法对于情感表达的作用逐渐受到情感分析研究社区的关注，形成了专门的修辞语言处理（Figurative Language Processing）或修辞计算研究社区。针对修辞计算，本组主要关注夸张检测、夸张理解和融合多种修辞手法的检测研究等。

研究方向3：分布式计算与并行处理（Parallel and Distributed Computing）

移动边缘计算（Mobile Edge Computing, MEC）

传统的云计算模型由于数据传输过程存在延迟等问题，无法满足很多延迟敏感计算任务的需求，在接近终端移动设备的网络边缘端，移动边缘计算作为一种新型网络结构和计算范式已逐渐成为研究热点。本组主要关注如何将移动设备上的计算任务卸载到附近的边缘服务器，关注的卸载方案有两类：（1）传统计算卸载方案-先确定一个优化目标，再通过设计启发式算法来接近最优解；（2）基于在线学习的智能卸载方案-通过人工智能相关算法构建卸载模型。本组关注的具体研究方向有：最小化延迟时间、最小化能耗、权衡延迟时间和能耗、安全与隐私、计算资源分配、服务缓存布局以及联合优化问题等。

联邦学习（Federated Learning）

联邦学习本质上是一种分布式机器学习技术，或机器学习框架，其目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。一个典型的过程是：用于构建模型的数据用分布式存储在各计算终端，各计算终端负责根据本地数据开展模型训练，然后将模型变化（或模型更新）上传到中心服务器，中心服务器负责收集各终端的模型信息并更新到全局模型，最后将新模型发布到各终端，以此往复，直到中心服务器上的模型收敛。联邦学习的主要研究问题包括：如何降低通信开销和提高训练效率，如何解决用户设备运行和通信连接不稳定问题，如何应对参与方数据集异构的问题，以及如何抵御分布式投毒攻击等。此外，为了在保护用户隐私的同时建立健壮的NLP模型，也可以使用联邦学习技术。本组专注于联邦学习的算法和应用研究，包括在资源受限场景下高效的学习算法、通信优化与隐私保护、面向自然语言处理任务的联邦学习。

研究方向4：服务计算（Service Computing）

业务过程管理（Business Process Management, BPM）

业务过程管理是一个探究设计、控制、分析和操作业务过程的方法、技术和系统的研究方向。拟研究的业务过程规模大、复杂度高，可能涉及到多种执行人员的角色、多个机构、各种不同的应用、各种各样的业务资源和信息。本组主要关注过程挖掘研究，即通过处理和分析过程执行的反馈改进和优化业务过程，具体包括过程发现、符合性检查和过程增强。此外，本组也关注业务过程相似性度量和业务过程监控。相关研究论文发表在IEEE TSC、InS.、软件学报等期刊。

区块链技术应用（Blockchain Applications）

区块链通过可追溯防篡改的共享数据账本实现使用者间的“无信任”交易。其应用领域包括金融，物流，医疗，慈善，法院等，具有广阔的应用前景和研究价值。本组主要研究联盟链在业务流程管理中的应用，包括（1）业务流程领域的共识机制PoE (Prove of Event)；（2）业务流程的跨链（Cross Chain）执行与记录；（3）基于区块链的业务流程监控等。

汇总