自主学习丨大创项目:一种基于深度学习的多模态长内容不实信息检测方法
565net必赢客户端重视学生实践能力、创新思维及团队精神的培养,鼓励推动学生参与创新创业项目,推进学院拔尖创新人才的培养工作,推进“五个融合”。在2022年大学生创新创业训练计划项目(以下简称大创项目)结题答辩中,有三个项目组被评定为优秀。学院公众号特推出大创项目优秀小组系列推送,希望565net必赢客户端全体学生以此为榜样,积极参与科研训练实践。
小组简介
项目主题:一种基于深度学习的多模态长内容不实信息检测方法
项目负责人和成员
杨翼飞,项目负责人,565net必赢客户端2020级本科生,具有一定基础,在各级专业相关比赛中获得过一些奖项和荣誉表彰。
钟悦东,565net必赢客户端2020级本科生,具有一定基础,对技术有较强热情,获得过校级相关比赛奖项。
郑灿峰 ,565net必赢客户端2020级本科生,具有一定基础,获得过校级和院级的专业比赛奖项。
张俊鹏,565net必赢客户端2020级本科生,具有一定基础,多次参与学校ACM竞赛并获奖,在相关领域有一定研究。
张翀宇,计算机学院计算机科学与技术专业2020级本科生,有较强学习热情和一定的开源项目经验,在校多次获得院级及校级表彰。
立项等级:校级
项目评级:优秀
项目介绍
随着移动互联网的飞速发展,海量信息不断涌现,相比于以前人们更多从官方渠道获得消息,当前人们获取信息的渠道得到了极大的拓展,但这也间接导致了新的传播问题出现——网络谣言。谣言几乎伴随着人类语言一同诞生,在互联网时代之前,谣言基本上只能靠面对面的交流口口相传,相对而言传播速度可控,传播范围也算不上广泛。但如今借助发达的网络,谣言可以在极短时间内达到世界范围内的传播,其对社会的负面影响程度也因此有了极大的提高。
在互联网时代,每一刻都会有无数新的信息产生,靠人工逐一核实正确性是一项不可能完成的任务,自动化地对不实信息进行检测就成为了一个学界密切关注的研究话题。对于英文不实信息的研究起步相对较早,在2012年就出现了有关Twitter中不实消息的基础研究;而面向中文互联网,在2015年,清华大学自然语言处理与社会人文计算实验室团队也对微博不实信息进行了基本的统计研究。此后,很多基于文本特征的机器学习方法被尝试使用在了网络不实信息检测中,2017年的研究在仅使用词袋模型的情况下对于微博数据集的检测取得了不错的成绩。
随着在自然语言处理领域具有跨时代意义的BERT模型的提出,基于文本特征的互联网信息真实性验证算法也有了井喷式的发展,腾讯实验室的相关研究便证明了BERT模型在中文语境下也能有优秀的表现。
互联网信息往往不止包含单纯的文本信息,其中包含的其它信息也能成为识别信息真实性的关键点,因此也一直有相关研究出现。2016年就有研究通过识别极端用户检测Twitter上有关信息的真实性,近来也有一些通过识别评论信息、时间属性和地理位置属性等来进行谣言检测的方法出现。而对于在互联网消息中信息量最大的图像等多媒体信息,由于学界长期以来缺少对应的深度挖掘,在2017年才有了最初的有关文本图像融合多模态信息相关研究出现,但一经提出就出现了大量的研究成果,有研究提出了一种对于图像信息进行频率域和像素域组合分析的模型MVNN,在对公开数据集的分析上取得了很好的成绩。
在本项目组的研究中,我们针对中文长内容的图像文本双模态信息,结合使用BERT算法和MVNN图像真实性识别模型,提出了一种基于注意力机制的用于检测“图像 + 文本”多模态中文长内容信息真实性的深度学习模型。在构造过程中,模型综合使用了GPT2、BERT等多种优秀深度学习模型和算法,并使用注意力机制进行模态融合和模型整合。在实验过程中,我们也成功构建了一个中文多模态长内容不实信息数据集,并使用该自建数据集和业界通用的公开数据集进行实验,和学界已有成果相比,我们的工作性能达到了一线水平,基本达到了立项时的目标。
▲该项目组所提出的网络模型
小组心得体会
在近一年的大创项目学习实践过程中,本项目组成员掌握了机器学习与深度学习的一般原理和方法,对于自然语言处理和多模态深度学习领域的一线知识和研究成果有了一定了解,提高了自己的论文阅读能力、团队协作能力和算法工程能力。
在进行大创项目的过程中,来自不同学院的同学共同组成的小组从零开始接触一个新的领域。小组成员们从刚开始信心满满到一次次碰壁,从几近放弃到重燃希望,最终交出的答卷虽然不能让自己完全满意,但终究也是大家汗水与智慧的结晶。还记得一年前,项目组五位成员中有三位刚刚从其他工科专业转入软件工程相关专业,对于专业前沿知识知之甚少。而一年之后,小组成员们对于专业现状有了相对清晰的认知,对于自己的未来也有了相对明确的规划,其中三位同学还获得了头部互联网公司的实习机会。总之,从大二到大三,大创项目的科研工作对于我们小组的成员而言,都是一段难得且宝贵的学习经历。
▲成员们在讨论项目进度
导师介绍和寄语
导师介绍
▲导师:苏玉鑫
苏玉鑫,助理教授,硕士生导师,中国计算机学会服务计算专委会执行委员。2021年7月入选565net必赢客户端百人计划,加入565net必赢客户端。主要研究方向为人工智能与系统软件的融合,具体包括分布式系统、云计算、云原生系统、机器学习、数据挖掘、计算机视觉、云系统可靠性与智能运维(AIOps)等。近年来在国际会议和期刊共发表20余篇论文,其中17篇发表于ASE、ICSE、ISSTA、FAST、CVPR、SIGIR、AAAI、IJCAI、CSUR、TKDE等软件工程、操作系统、分布式系统、计算机视觉、人工智能、数据挖掘等领域CCF A类顶级会议与期刊。
导师寄语
该项目组成员在选题、立项阶段就立志于解决现实社会中的热点问题,经过一番讨论最终聚焦于谣言检测。同学们在项目实施过程中,学会了阅读前沿学术论文、实现具有未知和挑战性的程序,经历了完整的科研训练。通过一点一滴的努力最终实现了优越的实验效果,结项时也获得评委老师们的一致好评。希望小组成员们可以继续深入开展研究工作,利用自己所学,为经济发展、社会进步不断地添砖加瓦。