2018年11月11日与16日,s36沙龙会在中央财经大学沙河校区主教209开展了计算社会科学系列课程。课程请到了清华大学社会科学学院政治学系副教授孟天广老师,向同学们讲解了大数据背景下社会科学研究的新发展和新方法。课程中,孟天广教授从大数据的概念入手,深入浅出的讲解了大数据+社会科学的新型研究方法,文本分析及相关模型以及计算社会科学中的因果分析方法等方面的内容,为我们充分的展现了大数据思想及技术在社会科学研究中应用的方法、意义、优缺点以及前景。
讲座伊始,孟教授首先向大家介绍了计算社会科学提出的背景,即大数据时代的到来,以Volume、Velocity、Variety、Veracity和Value为特征的大数据技术,正被应用到社会研究的各个方面。通过大家介绍了多位计算社会科学的前沿学者的观点,认为计算社会科学主要是利用计算机系统帮助人们进行沟通和协作,并研究社会运行的发展与规律的一种方法。孟教授着重详细讲解了数据爬虫、主题模型、情感分析、知识图谱等多种计算社会科学方面的前沿研究方法以及其功能分类,并针对不同的研究方法,列举了YouTube选情分析、Google Books、空间与政治等多个实例,深入浅出的介绍了进行计算社会科学研究的一般步骤和方法,分析了当前学术界对大数据+社会科学这一新型研究方法存在的争议。
接着,孟教授重点为同学们介绍了文本分析这一计算社会科学中为最常用、最容易被接受的一种分析方法。从文本分析的定义入手,系统的讲解了文本分析的目标、方法途径和存在的机遇与挑战。孟教授认为,由于文本分析最大的挑战在于数据的非结构化和海量的潜在维度,因此,采用合适的降维方法是文本分析的一个重要的思想。而文本分析的主要步骤,首先需要采取爬虫技术从社交媒体、网络论坛、各种数字化档案库等种种渠道获取文本数据;其次,要对爬取的文本进行分词和清理,去掉文本中无意义的数字、停词等,以便进行进一步的分析;接下来,则要根据不同的研究目的,选用不同的手段,如机器学习、文本聚类、主题模型、情感分析等来进行分析。在讲座现场,孟教授还实际演示了爬虫软件以及文本分析软件的操作,使大家更直观地理解了文本数据挖掘与分析的方法。
最后,孟天广教授讲解了大数据框架下因果推论问题,对大数据分析因果推论的挑战与机遇、推论的方法途径、大数据+回归分析等方面的内容进行了具体分析。他认为,尽管大数据方法当下存在着数据、方法、可行性、伦理等多方面的局限及批评,但是在大数据模态的多元化、全量、真实的特点,不仅为小概率事件分析提供了可能,并且蕴含着丰富的时空信息。孟教授从关联分析、数据管理等视角讲解了因果推论下作为方法论的大数据分析,强调了大数据因果推论的四种主要的方法路径:即大数据+计量分析、大数据+小数据分析、大数据+时空分析以及大数据+实验设计。孟教授讲解了大数据与小数据结合的优点、两者的可能组合以及大数据分析的时空模型和实验设计,并从随机化分配干预、内外部效度、施加干预三方面解释了大数据时代的实验研究。
讲座结束后,引发了同学们热烈的思考及讨论,孟老师一一解答了同学们提出的相关问题,至此,s36沙龙会计算社会科学系列课程讲座圆满结束,同学们在讲座中拓宽了视野,对计算机社会科学这一学科有了较为深入的了解,同时也掌握了许多实用的研究分析方法和思想。感谢孟天广教授的给我们提供学习的宝贵机会。