您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页大数据何以重构社会科学

大数据何以重构社会科学

来源:小侦探旅游网
《师范大学学报》(哲学社会科学版) 第36卷第3期口2015年5月 Journal of Xinjiang Normal University(Philosophy and Social Sciences) Vo1.36 No.3口May.2015 大数据何以重构社会科学 陈云松 吴青熹z黄超t (1.南京大学社会学院,江苏南京210023;2.江苏党校社会学教研部,江苏南京210009) 摘 要:大数据的兴起已经开始逐步影响社会科学发展。文本基于最新的社会科学大数据研究和文献,从理论 范式、研究方法和研究实践三个方面详细阐释了大数据重构社会科学的八个维度:重绘学术图景、延伸经典学说、丰 富学科目标、促进学科融合、提升学科应用、缓解方法分歧、优化变量测量、增加展示形式。文本是国内对社会科学大 数据研究的首次系统梳理尝试。 关键词:大数据;社会科学;定量方法;定性方法;研究范式 中图分类号:C3 文献标识码:A 文章编号:1005—9245(2015)03—0054—08 作为资本、劳动力和自然资源之外的第四种 会科学的理论和实证研究基础,重构人文社科的理 生产要素①,大数据一般是指在数量(Volume)、类 论范式和研究方法,加速各学科之间的相互融合。 型(Variety)、速度(Velocity)和价值(Value)等方面 超过传统社会科学应用规模的海量数据资料②。早 一、理论范式的重构 在2009年,哈佛大学的加里・金就预言随着大数 据的出现和使用,整个社会科学研究的实证基础 (一)重绘学术图景 将会出现重大变化,甚至会加速定性与定量研究 在社会科学发展史上,重大理论问题往往能引 的大融合③。 发长期的学术争论。但随着实证证据的丰富和社会 虽然大数据的重要性已然得到人文社科领域 热点的转移,争论往往会在新的证据出现之前告一 学者的普遍认同④,但学界对大数据的理论探讨大 段落。而大数据的出现,可能为经典的理论之辨提 多还停留在对其概念范畴、获取渠道、样本代表性 供新的实证来源,进而有望为社科理论界重新描绘 以及测量可靠性等基本问题的辨析上⑤⑤,基于大数 新的学术图景。例如,市场和是现代社会运行中 据的实证研究相对较少。已有实证研究基本都是通 最本质的两大机制性力量⑦。一个世纪以来,无论是 过数据挖掘和文本分析技术,发掘出潜藏在海量数 美国的新自由主义市场经济、苏联和东欧国家 据背后有意义的规律或信息,从而实现对社会现象 的转制、中国和越南等计划经济国家的改 和群体行为未来趋势的判断和预测,但这些研究大 革,还是各国在面对全球性、周期性经济大萧 多集中在经济、金融领域,社科理论界其他领域尚 条时对市场所采取的宏观刺激计划和干预,都 未出现对大数据整体的推广和应用。本文认为,在 可以视为对其在市场经济运行中应处地位及 信息技术急速发展的今天,大数据必将消解传统社 其影响范围的调整。而市场和之争,也恰恰是 收稿日期:2015—02-25 作者简介:陈云松,南京大学社会学院副教授;吴青熹,江苏党校社会学教研部讲师;黄超,南京大学社会学院研究生。 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 20世纪哈耶克和凯恩斯“思想制高点”之争的全部 意涵⑧。战后几十年来,和市场在社会发展过程 中此消彼长、阶段性主导经济社会发展进程的事实 成熟,同时,大数据对市场运行中的信息捕捉也已达 到了空前的广度和精度,并被广泛应用于广告投放、 信息预测和商业决策。这一变化的直接后果是大大 表明当今世界依然没有走出哈耶克与凯恩斯理论 论战所界定的理论范围。以至于诺贝尔经济学奖获 得者英国经济学家约翰・希克斯(John Hicks)在 1972年专门著文探讨“到底谁是对的?凯恩斯还是 降低了传统社会科学所强调的因与市场间信息 不对称而导致的居高不下的计划错误率,使得 通过大数据来掌握宏观经济运行状况并进行合理的 计划的前景出现了更多的曙光。可以说,大数据 哈耶克?” 这就是著名的“希克斯之问”。 “希克斯之问”是长期以来以凯恩斯主义为代 表的计划和以哈耶克思想为代表的市场 竞争机制二元对立关系的直观反映。凯恩斯认为: 自由市场不能解决因消费需求和投资需求不足导 致的生产过剩危机,应该运用行政权力自上而 下直接干预和参与经济过程,即通过扩大投资、刺 激消费的方式对经济进行干预⑩。对此,哈耶克指 出,信息瞬息万变,而人们所能掌握的知识和信息 是分立和有限的,计划的制定者无法了解经济 运行中每个阶段的最终均衡状态,更无法建立全知 全能式的生产、决策和分配组织。因此,对社会经济 秩序进行整体设计和建构干预的做法是人们对自 己有限理性的高估和致命的自负,计划经济不仅会 个人自由、阻碍财富生产,还会造成社会贫困 和集权主义的兴起,是一条通往奴役之路。对国 家而言,只有市场调节才是最佳的资源配置方式⑩。 值得注意的是,无论是希克斯、凯恩斯还是哈耶克, 他们都只是基于20世纪早中期的经济发展经验, 试图在市场和间做出非此即彼的选择,而未曾 想到还可以有第三条道路,即建立在信息充分交换 基础上的有限。大数据的出现会为经典的 与市场之争注入新的元素。 建立在大数据基础上的计划并非天方夜 谭,早在20世纪7O年代,智利的“协同控制工 程”(Project Cybersyn)就试图用大数据去统筹管理 国民经济。通过打造一个由电报机组成的网络 系统,帮助管理者实时发现、解决需要立即处理的问 题和模拟每一次决策的长期后果。在机器的帮助下, 智利成功地解决了卡车司机大罢工导致的食品 短缺危机。该工程的失败主要是难以解决落后的技 术水平、社会认知和超前的管理思想间的矛盾。40 年后的今天,随着现代信息技术的飞速进步,分析和 处理大数据所需的数据挖掘技术及设备条件已日臻 为凯恩斯主义提供了新的工具,同时也为化解 “希克斯之问”提供了重要的新的实证来源。 (二)延伸经典学说 虽然社会科学理论的流派和体系众多,但它们 都可以溯源到少数具有典范性、启发性和诠释意义 的概念、假说和理论,这些经典学说通常立足于高 远的宏观层面去理解和描绘社会结构及其变迁的 历史,具有更高的概括能力和更宽的辐射面。然而, 宏大理论却难以解释经验的现实问题⑩。由于理论 的宏观性和复杂性,传统的截面数据、面板数据等 抽样分析方法,无法在经验层面上对这些理论进行 检验,且囿于传统的资料采集方式,研究者所能获 得的经验材料,无论在时间还是空间维度上都是有 限的。因此,一直以来,要想使用经典学说指导经验 研究,只能在其中不断增加结构性因素以降低理论 层次,这使得经典理论的影响力逐渐式微。以社会 学界为例:自20世纪中期以来,理论界便不再由宏 大叙事主导,目前大部分研究者的兴趣都集中在70 年代之后兴起的弱关系、结构洞等理论上,随着时间 的推移,大理论的空间越来越小,社会学界已经开始 进入了某种“后大理论”时代⑩。 大数据在经典理论和经验研究间架起了一座 桥梁,使得学界得以重新审视和延伸经典理论,并 使验证和拓展宏大叙事成为可能。这是因为大数据 能够以其超越传统调查数据的样本量和时空跨度, 为研究者提供前所未有的海量数据、资料和信息, 从而帮助研究者从过程性的历史视角来审视和验 证经典的理论问题。以社会科学领域经典的社会分 层理论为例,基于抽样调查数据的经验研究表明: 主观社会地位既会受客观社会地位以及相对参照 群体的决定性影响⑩,也会受经济不平等的重要影 响,社会经济不平等程度越高,整个社会对于不平 等的感知越强,人们的阶层意识就会越明显@⑩⑩。但 用以支撑已有实证研究的传统数据缺乏大历史和 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 大空间的跨度,这使得传统数据对宏大理论的解释 和验证总是停留在某一截面上,常给人以单薄之 感。而大数据的出现,可以为经典理论的验证进行 补充,甚至带来更多的发现。例如在一项基于谷歌 图书2013版语料库(811万种书籍、8613亿词汇) 的大数据研究中,学者通过计算阶级的相关词汇在 美国书籍中近100年来的出现频率来测量美国公 众对阶层的关注程度,并在此基础上对阶层关注度 和美国社会百年失业率、通货膨胀、基尼系数等指 标进行格兰杰时间序列分析。研究发现:在市场经 济发达的美国,代表通货膨胀率和失业率之和的 “经济悲惨指数”影响着阶层关注度,而基尼系数却 没有显著的统计影响。该发现揭示了经济不平等对 阶层意识的作用很可能存在“阀域效应”:只有当不 平等高于一定的阀值时才会对阶层意识产生作用, 而不平等低于阀值时是经济景气程度在影响着阶 层关注度。用跨度百年的数据和以前无法获得的阶 层关注度指标检验阶层理论,这既是研究方法上的 突破,也是对阶级和阶层理论的最新阐释和补充。 可见,大数据时代,经典理论将有可能实现“落地发 展”,并不断被历史的、结构性的情境所检验和延 伸,呈现出更强的生命力。 二、学科范式的重构 (一)丰富学科目标 挖掘因果机制是科学研究的基本任务,也是科 学知识积累和学科建设的核心@⑩。传统社会科学尤 其是定量分析致力于进行因果推断、提供机制性解 释,但由于社会人的异质性,基于非实验数据的定量 分析很难避免诸如遗漏变量、样本偏误、联立性等内 生陛问题,这在很大程度上影响了因果推断的有效 性。目前,社会科学家试图通过固定效应模型、倾向 性匹配、工具变量等方法来规避内生性问题以改进 因果推断,但上述方法有赖于高质量的调查数据,而 现实中高质量的调查数据通常难以获得。大数据时 代的到来,为我们呈现了一幅描述和相关分析重新 崛起、因果推断更加强化的双赢学科目标新图景,将 会对社会科学学科目标起到阶段性的丰富和拓展。 首先,基于信息技术兴起的大数据扩展了人类 的经验范畴,使得简单的统计描述就可以达到发现 规律、展示规律的目的,这使得身处“后经典理论时 代”的我们,有可能凭借大数据的启示发现和提炼 出重要的理论,跳出利用抽样数据对传统理论和假 说进行证实或证伪的常规研究模式。其次,大数据 的海量信息在时空上具有传统抽样数据无法比拟 的广度和深度,其全样本的性质在某种程度上能够 避免因个人经验有限性而导致的“例外”的干扰①, 因此,哪怕是基于大数据的简单描述,都可能因为 其数据的力量开阔启发我们的思维。最后,依据大 数据做出的预测较之传统小数据要更为精确,可以 为公共管理、经济金融等各种行业提供有力的工 具。因此,在大数据时代,社会科学尤其是定量社会 科学可能在一定程度上出现一股“重返描述”和“重 返相关分析”的潮流。 值得注意的是,原始大数据所呈现和涌现出来 的规律,其实和质性分析一样仅仅只是一种启示,无 法得到反事实的因果证实。比如:即使我们能够搜集 到五百年内全世界所有人的学历和收人进行分析, 却依然无法解释内生性的问题,此时,如果有可以直 接进行回归分析的定制大数据,就能够很好地回答 上述问题。本文认为,相关分析永远是因果分析的基 础和起点,而因果分析才是社会科学的全部目的。从 目前可用来做出社会科学分析的大数据看,它所能 提供的变量尚属有限,研究者很难通过大数据进行 变量控制来做出传统的因果推断。但未来真正高质 量的大数据,应该是以为社会科学研究所量身定制 的形式出现。例如:在一项对教育回报的分析研究 中,传统数据可能缺乏对能力、智商、情商等精确的 测量指标,但大数据时代,我们则可以凭借对医学指 标的整合来进行社会学分析,使用这种定制大数据, 研究者可以做出非常好的因果分析。从这个角度,本 文认为大数据的出现最终会在描述、相关分析的热 潮之后进一步向因果分析跃迁。 (二)促进学科融合 专业化是现代社会的鲜明特征,专业化程度的 提高大大加强了人们认识自然和社会的能力,个人 在越来越专业化的同时,也失去了对整体文化的了 解和控制⑧。对社会科学而言,学术分工的专业化进 程大大提高了研究效率和学术领域内的交流评估 质量,但也逐渐形成了各自为政的不足:研究者在 获得相当深度的同时,失去了对广度的把握,不同 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期[ ̄2015年5月 Vo1.36 No.3口May.2015 学科间的边界日益鲜明,且学科边界间还产生了许 多空白地带。因此,与学科分化反向的学科融合必 将在社会科学发展过程中周期性地出现。而人类知 识谱系意义上的学科融合,其历史颇为久远,早在 第一次和第二次世界大战的末期,不同学科领域间 已经发生了研究方法的借鉴和知识结构的重新建 兆的累积中判断社会现象发生质变的临界点。大数 据预测最常用的工具是谷歌趋势(Google Trends), 它通过揭示某个检索关键词2004年来每周被全球 网民检索的次数,以及这些检索的来源地域,帮助我 们发现该关键词被人们所好奇、关心的程度及其分 布规律,进而进行趋势判断。利用大数据对人类社会 构⑤。本文认为,大数据的出现将会促使第三次学科 融合的兴起,并将以数据为纽带,从以下两个向度 现象进行预测分析的最著名例子是谷歌趋势对流行 感冒的预测工具“谷歌流感趋势”(GFT):2009年,在 推动学科融合: 第一,大数据将会向外推动社会科学与自然科 学、尤其是计算机科学的融合。大数据之“大”使得 数据的性质发生了显著变化,其数据的获取和分 析,往往需要有别于传统社会科学训练的方法和工 具,这就为原本在计算机、人工智能和数理等领域 具有专长的学者参与社会现象的分析甚至转型为 社会科学家提供了机会。近两年来,发表在英语重 要刊物上的基于谷歌图书、维基百科和、 等大数据的语言学、经济学研究论文,绝大多数都 有计算机和自然科学家的参与。著名的小世界理论 提出者邓肯・瓦兹原先就是美国海军的物理学家。 同时,大数据还为社会科学提供了全新的分析对 象,提升了交叉学科在社会科学中的地位,揭示了 诸如“计算社会科学”“应用计算科学”等学科在美 国受追捧的原因。 第二,大数据将会向内推动社会科学学科间的 交流和对话。长期以来,社会科学内部各学科间区 隔明显,显著地表现在每个学科使用的数据和分析 方法都自成体系,例如:经济学分析多使用面板数 据、时间序列数据;社会学分析多使用截面数据;人 口学分析多使用普查数据等。尽管数据分析的方法 和原理大同小异,但学科差异下的数据搜集和使用 “各自为政”,难以达成有效交流。大数据的出现将 有助于改善这一对话困境。这主要是因为,大数据 的获得具有非学科性:大数据的搜集本身往往不是 由学科定制,这种无心插柳的数据获取具有一种跨 学科的潜力。因此可以预见,越来越多的跨学科研 究和交叉学科研究将会不断涌现。 (三)提升学科应用 随着信息的深入,大数据开始被广泛地应 用于经济、金融、选举、竞赛、就业、高考、疾病、灾害 等诸领域进行趋势预测@,其逻辑基础在于从大量征 H1N1爆发几周前,谷歌专家就已在《自然》杂志发表 了利用GFT成功预测H1N1传播范围的论文,其预 测精确度甚至可以到达州的层面。 受这一研究的启发,经济学界也迅速启动了对 谷歌搜索数据的分析,并发现了网页浏览、帖 子等文化载体内容和股票市场、劳动力市场失业率 等经济指标间稳健而可靠的关联@∞。比如英国沃 里克大学在《美国国家科学院院刊))(PNAS)上发表 的报告指出⑥:2004—2012年间,美国网民在谷歌搜 索上输入关键词的变化与“标准普尔500指数”的波 动呈相关关系,美国网民搜索商业类和政治类关键 词的频率同时上升,“标准普尔500指数”往往会下 跌。报告指出:如果根据大数据研究来制定投资策略, 则收益率可以高达297%,而同期采取简单的买人持 有策略只能获得3%的收益。可见,较之传统经济学研 究,大数据推断改变市场的成效可谓立竿见影。 在传播学方面,大数据分析技术的提升能够同步 提高新闻生产的广泛潜入性和规模化处理信息的能 力,并在调查性新闻、可视化叙事和应用三个层面驱 动创新④。目前,在新闻传播界,以“悦读体验+内容 定制+预测性报道”为特征的大数据新闻模式已初 现端倪。大数据新闻的重要特点在于其个性化和精 准性,既能基于读者所在地和阅读兴趣的差异来进 行新闻的个性化推荐和定制,提升读者的阅读体 验,又能基于社会表层现实和深层现实、受众理性 认知和感性认知对受众行为和社会事件发展趋势 做出精准的预测。这无疑为科学决策、提高公 共管理和服务水平提供了强有力的保证。 三、研究实践的重构 (一)缓解方法分歧 . 定量研究和定性研究是两种不同取向的研究 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 范式,长期以来,不同学术偏好的研究者们从本体 述等过去被定量研究者“垄断”的方法为我所用。 论、认识论和方等各方面对两种范式的优点和 局限进行了深刻剖析:一方面,作为一种科学化的 中介手段,定量研究能够实现社会现象的对象化、 客体化@;另一方面,定性研究能够突破自然科学的 对定量研究者而言,在探索变量间的因果关系 所遭遇的最大困境便在于反事实问题。囿于研究伦 理的,研究者无法同时得到个体在受干预和不 受干预两种情况下的状态,这就使得寻找用于解决 反事实问题的控制变量变得愈发困难,从而会导致 ,实现对行动主观意义的把握④。然而,在社会 科学研究中,究竟是工具理性更重要还是价值理性 更重要这一关键问题,论辩双方并没有达成一致的 统计推断产生遗漏变量偏误。目前可用的大数据并 非专门为回归分析而设计,不能解决反事实问题和 意见。通过量纲法在谷歌图书2013版语料库中计 算20世纪50年代以来的“定量分析指数”,发现: 总体上,定量研究和定性研究呈交替主导的状态。 从20世纪5O年代到80年代,定性方法占据优势, 但20世纪80年代到90年代定量方法成为主导, 95年左右又被定性方法超越,而从2000年左右至 今,定量方法再次超越定性方法成为社会科学研究 的主流。这也从侧面反映了近6O年来,试图通过时 间序列分析、网络分析等定量技术分析文本,或通 过叙事分析等定性方法分析调查资料等混合两种 研究范式的努力并未能有效弥合两种范式的分歧。 从某种意义而言,大数据的使用使得定性和定 量两大阵营之间出现了一个混合地带。大数据海量 的数据规模和全新的数据特征使得定量研究与定 性研究在资料获得与分析方法方面逐步走向趋同, 这在某种程度上缓解甚至重构了定量研究与定性 研究间的关系。 对定性研究者而言,大数据可以通过海量规模 的样本直接发现和展示出社会现象的规律,既不需 要控制变量来检验关联,又能避免定性方法在案例 选择方面的样本偏差。例如:金观涛在《观念史研 究》一书中用计量史学的方法对19世纪末20世纪 初的中国报刊文本进行分析,具体方法是将学界公 认的1830年至1930年间那些与政治社会思想有 关的报刊、档案、文集中最有代表性的文献进行数 字化处理,然后通过词频统计和文本意读归纳 出世纪之交的观念变迁。然而,由于作为分析对象 的报刊本身既不能完全代表当时的报刊总体,又不 能完全代表当时的社会思潮,因此,该研究结论的 代表性广遭诟病。显然,如果作者在当时就能使用 代表全样本的大数据,那么其研究结果必然会具有 很强的说服力。此外,大数据还可为定性研究提供 全新又不过于复杂的研究思维,并让检索和数据描 遗漏变量偏误,因此依据大数据很难进行传统意义 上的回归分析和因果推断,但由于数据的海量性甚 至全样本的性质,一旦把基于大数据的简单关联分 析或时间序列分析结果与文献中的传统回归分析 进行比对,就能形成非常具有说服力的证据链。同 时,大数据还拓展了定量研究者的关注视野,使他 们的兴趣点从传统的定量分析转向以往较少触及 的文化、心理等领域,并开始重新审视“描述”在定 量分析中的地位。本文认为,大数据定量分析方法 一般可分为两个层次:一是对大数据进行描述和可 视化,二是从大数据中抽取出可以进行回归分析的 变量进行传统的定量分析。前者能够在最大程度上 展现大时空的规律性,后者能够将海量的数据结构 化,并得出高质量的新数据。在实际操作中,这两种 方法都有助于我们进行因果推断。 可以预见:以描述和简单回归分析为主要方法 的大数据研究,将同时出现在定量和定性两大阵营 之中,并进一步缩小定性定量分析方法的鸿沟。 (二)优化变量测量 在对宏大概念进行测量的过程中,是否能寻找 到相应的、有说服力的测量指标通常是实践中的重 点和难点,譬如上文提到的有关阶层方面的研究, 从谷歌图书中提取了一个阶级关注度的大数据指 标,这为其对经济不平等和阶层意识论述增添了强 大的说服力,但这种指标用过去小数据方法进行测 量分析往往很难获得。因此,在研究实践中,应用大 数据能够优化变量的测量。 以陈云松、吴青熹、张翼近期完成的《近代中国 城市的国际知名度及形成模式》的研究为例,该研 究的一个重要贡献就在于为国际知名度提供了一 个大数据指标。在这项大数据研究中,作者首先以 1700年以来谷歌图书的百万英语书籍作为语料库, 以中国所有的直辖市、副省级以上城市、省会城市、 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 各地级市以及港澳台主要城市名称作为关键词,以 会现象本身已经为我们展示了饶有兴味的历史画 卷,并提供了一个横跨社会学、文化学和城市学三 个学科的大数据研究的有效案例。 (三)增加展示形式 除了数据采集、分析、挖掘和因果推断外,在研 究实践中我们还必须有效地展示数据结果。一直以 来,数据展示存在着千人一面、阅读者难以理解的 这些关键词在语料库中每年出现的频率高低为指 标,在300年(公元1700—2000年)的时间跨度上展 示和分析了城市国际知名度的百年变迁。在构建国 际知名度测度的基础上,作者进一步对中国城市国 际知名度的形成渠道进行分析。由于近代以来,国 际交通运输技术的成本高昂,满清在经济、文 化和外交上实行闭关锁国,绝大多数中国城市 痼疾,而以简洁、清晰的方式展示数据间的内在模 与西方直接的人流、物流互动比较有限。因此,该研 究提出中国城市群体国际知名度形成的“差异化” 假说。具体而言:近代中国城市的国际知名度, 主要受到西方当时主要媒体(报纸)提及率的影响 并可能互为因果,而对于、和台北等曾经 有过较长殖民地历史的中国城市而言,该关联可能 就不那么显著——殖民统治使得这些城市直接成 为中西文化对撞的窗口,从而具有与城市不同 的知名度获得途径。为检验这一假说,作者从《纽约 时报》全文数据库中提取了中国城市提及率指标, 并将其与基于书籍大数据的国际知名度指标进行 了跨度长达150年的时间序列分析,以观察两者的 联系在城市和港澳台三地之间有无差异。最后 的发现表明,近代城市的国际知名度和媒体提 及率之间存在显著的“格兰杰因果关系”,且媒体提 及率更多地影响知名度;而港澳台城市的国际知名 度和媒体提及率之间则没有显著的统计关联。这表 明近代以来中国城市国际知名度的获得具有“直 接”和“间接”两种模式:城市的国际传播主要 通过报刊媒体“间接”进入西方社会,而有过殖民地 历史的城市更多地以“直接”交流的方式来积累知 名度。 该研究表明:除了传统的抽样数据可以用来对 城市进行研究之外,大数据特别是书籍报刊大数据 能够为城市及文化传播研究提供新的维度。特别 是,通过从大数据中提取出传统社会科学分析方法 所能够处理的关键性变量对大数据进行二次分析, 得以充分发挥传统定量分析方法的价值,达到对城 市知名度形成渠道及其变化趋势分析的目的。总体 上,大数据有助于重新强化“描述”在定量分析中的 地位,也催生了利用大数据提取小数据然后进行定 量分析的主要途径。尽管该研究没有进行传统社会 学定量模式里的回归分析,但大数据中涌现出的社 式,使受众对数据及其所代表的现象间的结构关系 达到更深的理解,是大数据时代社会科学界的又一 重大变革。 大数据时代的数据展示主要以可视化的方式 进行。数据可视化是借助图形、图像处理、计算机视 觉以及用户界面等多种手段,通过表达、建模以及 对立体、表面、属性和动画显示等多种形式⑤,从多 角度把海量信息、概念视觉化,直接展示信息背后 规律的方式。它能帮助受众迅速了解研究者的观点 和思路,快速得到某一问题的答案,从而解决诸如 信息过饱和、信息可靠性不足以及信息透明度缺失 等问题。 数据可视化其实是知识的一种再生产方式,研 究者以图形、时间序列、地图、流、矩阵、网络、层次 和信息图形为基本元素④,通过元素间的多种组合 来表达自己对海量信息和数据的理解,进而解释较 为宏大和抽象的理论问题。例如:美国Wanted Analytics公司通过提供的城市数据分布图,展示了 美国各地区工作数量、工资水平、人才供应、平均招 聘时间以及招聘比例等信息,并把行业需求和地理 位置相结合,总结了美国前20名大数据人才市场 的信息,这是应用跨空间图表研究文化和社会变迁 的典型案例@。可视化并不局限于数字,概念也同样 适用:在对政治倾向图谱的研究中,MacCandless试 图将各种政治倾向融入到图表中,并展示其如何从 渗透到社会、文化中,对家庭和个人产生影响, 继而又反过来影响政治形成一个循环@。 可以预见:大数据时代,数据可视化必将彻底取 代传统的数据展示形式,充分展现数据的温度与美感。 四、结语 大数据研究尚属起步阶段,但其对社会科学的 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Normal University(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 冲击与改变已经不容小觑。本文通过分析大数据时 nomenon,”Information,Communication&Society,155,PP. .代对人文社科领域理论范式、学科范式和研究实践 带来的改变,论证了我们对于大数据必将重构社会 科学、加速学科融合的基本观点。重要的是,大数据 为我国社会科学发展提供了加速超越西方和形成 662-679,2012. ⑦韦森:《重读哈耶克》,北京:中信出版社,2014年版。 ⑧[美】丹尼尔・耶金、约瑟夫・斯坦尼斯罗著,段宏等译:《制高 点——重建现代世界的与市场之争》,北京:外文出版 社,2000年版。 ⑨Tyler B.Goodspeed,Rethinking the Keynesian Revolution. Oxford University Press,PP.1,2012. 中国特色、中国气派的重要机遇。这是因为,大数据 无论对于西方社会科学界还是对于中国社科界,都 是一个全新的事物。只有迅速占据大数据的高地, ⑩Keynes,John Maynard,The General Theory of Employment, 才能在中西学术对话中占据主动。 目前,围绕大数据在社会学科研究中的应用, 国内社会科学界已经在初步形成一批研究中心。例 如,在社会学研究方面,南京大学社会学院利用谷 歌数字化图书大数据和互联网大数据,在学科发 展、阶级阶层、文化传播、城市发展等方向率先形成 了一批实证研究成果。《社会学研究》等权威一流刊 物也率先刊登了大数据的应用定量分析论文。新闻 传播学研究方面,中国人民大学新闻学院以互联网 传播数据为分析基础,对大数据在传播学中的应用 研究率先进行了探讨。北京大学、清华大学、上海大 学等相继较早举办了国内社会科学界的大数据分 析会议和培训班次。尽管目前大数据仍然是一个新 鲜事物,仍然存在讨论得多、分析得少的状况,但星 星之火,可以燎原,我们有理由相信:随着越来越多 的学者开始意识到大数据的重要性并加入到大数 据的研究队伍中来,社会科学界必将迎来又一个学 术的春天! 注释: ①沈浩、黄晓兰:《大数据助力社会科学研究:挑战与创新》, 《现代传播》,2013年第8期。 ②[英】维克托・迈尔一舍恩伯格、肯尼思・库克耶著,盛杨燕、 周涛译:《大数据时代》,杭州:浙江人民出版社,2013年版。  ̄Xing,Gary,“Restructuring the Socila Sciences:Reflections rfom Harvard’S Institute for Quantitative SociJ Science,’’ Political Science&Politics,47.01,PP.165—172,2014. ④孙建军:《大数据时代人文社会科学如何发展》,《光明日 报》,2014年7月7日。 ⑤Tufekci,Zeynep,“Big Quesitons for Socila Media Big Data: Representativeness,Validity and Other Methodological Pit— flals,”arXiv preprint arXiv:1403.7400,2014. ( ̄)Boyd,Danah,Kate Crawford,“Criitcal questions for big data: Provocations for a cultural,technological,and scholarly phe— Interest and Money.London:Macmillan,1936. Hayek,The Road tO Serfdom.The University of Chicago Press,PP.259,1944. ⑩【美】赖特・米尔斯著,陈强等译:《社会学的想象力》,北京: 三联出版社,2005年版。 ⑩陈云松:《大数据中的百年社会学——基于百万书籍的文 化影响力研究》,《社会学研究》,2015年第1期。 ⑩刘欣:《相对剥夺与阶层认知》,《社会学研究》,2002年第1期。 ⑩Robe=Ande ̄en,Josh Curtis,“The Polairzing Effect of Eco- nomic Inequality on Class Identiifcation:Evidence from 44 Countries,”Research in Socila Stratiifcation and Mobility,vo1. 30,no.1,PP.129、141,2012. ( ̄Josh Curtis,“Mobility and Class Identiyt in 35 Societies:The Role of Economic Condiitons,”The European Sociological Review,2013. ⑩Evans M.D.R.,Jonathan Kelley,“Subjecitve Socila Locaiton: Data from 21 Nations,”International Journal ofPublic Opinion Research,vo1.16,no.1,PP.3—38,2004. ⑩王天夫:《社会科学中的因果推断》,《社会学研究》,2006年 第4期。 ⑩陈云松、范晓光:《社会学定量分析中的内生性问题:测估 社会互动的因果效应研究综述》,《社会》,2010年第4期。 ⑩[英1大卫・休谟著,关文运译:《人类理解研究》,北京:商务 印书馆,1957年版。 ⑨晦】格奥尔格・齐美尔著,林荣远译:《社会学——关于社会 化形式的研究》,北京:华夏出版社,2002年版。 ④[美】朱莉・汤普森・克莱恩著,蒋智芹译:《跨越边界:知识・ 学科・学科互涉》,南京:南京大学出版社,2005年版。 ③大数据预测将会改变哪些行业?http://www.huxiu. com/article/38003/1.hnn1. ③Moat,Helen Susannah,Adam Avakian,Dror Y.Kenett,H_ Eugene Stanley,Tobias Preis,“Quanti@ing Wikipedia usage patternsbefore stockmarket,”ScientificReports,3:180t,2013.  ̄Bollen,Johan,Huina Mao,Xiao-Jun Zeng,“Twitter mood predicts the stock market,’'Journal of Computational Sci— ence.2:1-8,2011. 《师范大学学报》(哲学社会科学版) Journal of Xinjiang Nod al University ̄'(Philosophy and Social Sciences) 第36卷第3期口2015年5月 Vo1.36 No.3口May.2015 ④Preis,Tobias,Helen Susannah Moat,H.Eugene Stanley, Steven Bishop, “Quantifying the advantage of looking for— ward,”Scientiic Reports,2:f350,2012. 印书馆,2011年版。 ⑩[德】马克斯・韦伯著,康乐、简惠关译:《新教伦理与资本主 义精神》,南宁:广西师范大学出版社,2010年版。 ⑨百度百科.http://baike.baidu.com/. ③数据挖掘:用可视化效果展现你的数据.http://www.1ei— phone.com/news/201406/warlial—visualization.hma1. ⑥Curme,C.,Preis,T.,Stanley,H.E.,&M0at,H.S., “Qu ̄fying tL e Semantics of search behavior befol e stock market moves,”Proceedings of he Nattional Academy of Sci— ences ofthe United States ofAⅡt ̄nca.2014. @ ̄ought OfThe Day,http://v ̄w.forbes.c om/sites/louiscolu mbus/2014/12/29/where一-big~data-jobs—will~be—in一2015. ③喻国明:《从精确新闻到大数据新闻——关于大数据新闻 的前世今生》,《青年记者》,2014年第36期。 ⑦大卫・麦克德里斯:数据可视化之美,http://w ̄v.tedtochina. ◎[法1涂尔干著,狄玉明译:《社会学方法的准则》,北京:商务 com/2010/09/14/david mccandless/. How Mega-Data Reconstructs Social Science CHEN Yun-song’WU Qing-xi HUANG Chao’ (1.School of Sociology,Nanking University,Nanking Jiangsu 210023;2.Teaching and Research Department of Sociology,C.P.C Party School of Jiangsu Province,Narking Jiangsu 210009) Abstract:Mega—data rise has started to influence social scientiifc development step by slep.The text based on the  ̄seal(h and literature of the latest mega-data in social science expounds in de tail eight dimensions of social science reshaped by mega-data in theoretic paradigm,rqsearch method and pracfice'.repaitning academic vision,extending classic theory, enriching academic objective,pmmoting subjects to come ir ot fusion,upgradi“g application of subjects,relieving clash in method.optimizing variable measurement and increasing show form.The essay is fi e first al tempt to comb through in,ystem the mega-data research of social science among home literature. Key Words:Mega-data;Socila Science;Quantitative Method;Qualitative Method;Research Paradigm 【责任编辑:马瑞雪】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务