发布时间:2021-04-16 访问次数:
2021年4月15日下午,由四川外国语大学研究生院主办,英语学院承办,科研处、语言智能学院、外国语文研究中心等单位协办的语料库语言学系列讲座第二讲于线上举行。浙江工商大学博士生导师李文中教授做客语料库语言学系列讲座,讲座题目为“语料库研究与数据科学”。本次讲座由英语学院的博士生导师吴淑琼教授主持,苏杭教授、姜淑芹教授等校内外师生共计700余人聆听了讲座。
李教授的讲座全程以操作演示为主。他首先围绕近年来语料库作为语言大数据在体量和分析技术上的发展,分析了语料库研究面临的新挑战和问题,指出新一代的研究者应充分掌握超大型语料库处理和分析新技术和新方法,深入理解“信任文本”思想,把握语料库研究“从文本到数据,从数据再到文本”的研究路径。然后李教授以英文语料库文本为例,以R为数据处理和统计平台,操作演示了如何进行文本和语料准备、数据探索、提出研究问题和假设、语料库统计分析、数据可视化、深入分析文本内部等问题,具体详实地呈现了用R的各种包进行数据分析的路径和方法。然后李教授又以中文文本为例,重点讲解了如何对中文文本进行分词处理。最后,李教授指出,语料库分析应充分吸纳数据科学和自然语言处理的方法,并再次强调数据是语料库研究探索的起点和入口,真正的文本意义分析必须从数据回到文本。
在后面的互动环节,李教授高屋建瓴,就与会师生提出的技术难题进行了专业解答和深入交流。讲座在一片热烈的气氛中结束,师生皆表示受益匪浅。