数学科学学院学术报告[2023] 078号
(高水平大学建设系列报告850号)
报告题目:注意力机制的计算原理
报告人:薛云 教授(华南师范大学)
报告时间:2023年11月15日上午10:00-11:00
讲座地点:汇星楼501
报告内容:非结构化的文本数据往往蕴含着大量有价值的信息,因此在舆情预测、金融风控等领域有着独特的作用。近些年来,基于注意力机制的Transformer结构在自然语言处理(NLP)领域获得了学术界和业界的关注,因为此类模型往往只需要在大量未标注的文本数据上进行预训练,就可以在下游的具体任务上用较小的标注数据进行调优。
本次讲座将先介绍NLP中经典的Sequence to Sequence模型(发表于NeurIPS 2014),并在此基础上引入Attention机制(发表于ICLR 2015),这是人们在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。报告以NLP为背景,介绍经典注意力机制的计算原理,并分析与深度学习网络结合的思路,希望与拥有机器学习和数学背景的朋友就这一领域的问题和方法展开交流。
报告人简介:华南师范大学教授,中国人工智能学会青年工作委员会委员,主要从事数据挖掘,自然语言处理等方面的理论和应用研究,在商业智能技术的应用等领域有较深的积累,目前已经发表各类学术期刊和会议论文100余篇,内容涉及数据挖掘、文本大数据分析等方面。申请国家发明专利50余件。
欢迎师生参加!
邀请人:陈波
数学科学学院
2023年11月10日