第 38 卷第 1 期_______________________________________Journal of Modem Information________________________________________Vol. 38
2018年1
2018No. 1
.业务研究.
科技情报大数据业务平台设计
吴素研1
吕志坚1吴江瑞2李文波3
(1.北京市科学技术情报研究所信息技术研究部,北京100044;
2.河南工学院材料工程系,河南新乡100044;3.中国科学院软件研究所总体部,北京100081))
〔摘要〕[目的/意义]本文分析了目前大数据时代科技情报工作面临的问题和机遇,针对情报服务领域大数据服务模式
进行了分析。[方法/过程]该论文结合信息技术领域的虚拟化技术、云平台技术、高性能技术和人工智能技术,设计了科技情 报大数据业务平台架构,详细阐述了硬件层、虚拟层、支撑层和业务层主要功能和所需技术;并对大数据处理首要任务存储进 行了探索,搭建了基于hadoop和hbase的大数据存储平台。[结果/结论]本文提出的大数据情报业务平台从整体架构进行了设 计,并实现了存储模块,下一步实现分析和可视化部门,可以为情报的收集和处理提供大数据支撑服务。
〔关键词〕科技情报;大数据;hadoop; hbase DOI :10.3969/j.issn.1008-0821.2018.01.019〔中图分类号〕TP393
〔文献标识码〕A
〔文章编号〕1008-0821 (2018) 01-0131-05
Big Data Platform for Science and Technology Intelligence
Wu Suyan1
Lyu Zhijian1 Wu Jiangrui2 Li Wenbo3
(1. Beijing Institute of Science and Technology Information, Beijing 100044, China;
2. Henan Institute Technology, Xinxiang 453003, China;
3. Institute of Software Chinese Academy of Science, Beijing 100081,China)
[Abstract] [ Purpose/Signficance] This paper analyzed the current big data era of science and technolog^^ Intelligence work problems and opportunities. [ Method/Process] Combined \"with information technology,virtualization technology, cloud platform technology,high performance technology and artificial intelligence technology,design science and technology information data service platform architecture,described the hardware layer, virtual layer, support layer and business layer and main function the required technolog^^; and explored the primary task of big data storage,to build a large data storage platform based on Hadoop and hbase. [ Resule/Conclusion] Big data business intelligence platfor^n was proposed in this paper was designed from the overall architecture, and implemented the storage module,realized the analysed and visualization department next, could provide support services for large data collection and processing of information.
[Key words] scientific and technical intelligence; big data; hadoop; hbase
传统的科技情报工作主要是从公开的、正规的纸质事 实文献上,如科技论文、专利、标准、图书等获取信息, 提炼出来的客观情报知识。信息技术和互联网的出现,使 得科技情报来源的信息载体由纸质演变为数字化,情报信 息的获取方式也从专门的机构变为可以随时随地访问的开
放网络上。
目前,一方面,网络上的信息随着互联网技术的蓬勃
发展,尤其以由用户主导而生成的内容互联网产品模式的 Web2.0技术和以融合为主的第三代互联网技术的发展,让 信息爆炸式地增长,人类社会也进人了大数据时代,目前
收稿日期:2017-08-04
基金项目:北京市财政项目(项目编号:PXM2017_178214_000005)、北京市科学技术情报研究所改革与发展专项(2017)。作者简介:吴素研( 1977-),女,副研究员,博士,研究方向:科技情报、大数据。吕志坚( 1975-),男,副研究员,博士,研究 方向:科技情报、人工智能。吴江瑞( 1968-),男,高级技师,研究方向:焊接。
—
131 —
月
第38卷第1期
2018年1
科技情报大数据业务平台设计
Jan., 2018Vol. 38
No..
都是从海量信息中发现有价值的东西。依据时代的发展, 科技情报工作已由传统的以文献服务、知识服务为标志的 情报1. 0、2. 0时代,进人了以智能服务为标志的情报3. 0 时代⑴。
另一方面,计算机硬件技术和软件技术也有了新的突 破,硬件方面的DSP、GPU、高性能处理芯片,软件方面 云计算、sdn等技术[2_4],软件方面的互联网的爬虫技术可 以实现从网上自动采集信息,人工智能、机器学习、数据 挖掘、自然语言处理技术也发展到相对成熟的阶段,这些技 术可以实现文本的自动分类、聚类,可以从大量数据中学习 有价值的知识,文本检索技术可以实现从海量数据中找出想 要的数据,这些技术为快速处理海量数据提供了基础[5_7]。
有这两方面需求的驱动和技术的支撑,大数据技术应 运而生,主要包括进行数据表示的知识表示技术、对数据 进行表示的知识图谱技术、对数据进行挖掘发现的深度学 习技术,这些技术是目前进行情报分析的基础,必须引人 这些技术来完成对大规模信息的处理和分析,解决情报 3.0时代所面临的问题。才能完成数字化、网络化的新时 期的情报分析任务。
进行情报分析任务,首先面对的就是数据的高效存储, 关系数据库在面对高并发,高负载的低效,以及不易进行 升级和扩展,往往需要停机维护和数据迁移等缺点是不适 宜应用在大数据业务平台上,搭建高效的存储平台是建立 大数据业务的首要任务。因此本文首先分析了大数据时代 情报业务模式,其次探索利用had〇〇p和hbase技术进行大
数据存储平台的搭建。
1大数据情报业务平台架构
大数据指的是数据量超过单个台式机存储能力数据,
无法用传统的关系型数据库进行存储、单机数据分析统计
工具无法处理的数据,这些数据需要存放在拥有数千万台 机器的大规模并行系统上进行存储和分析。 大数据情报业 务平台,需要提供对情报信息的高可靠性、高性能、可伸 缩分布式存储系统和实时的、的、智能的分析功能。
大数据情报业务员平台需要对硬件计算和存储资源的 进行合理虚拟化以实现高效的调配,需要对虚拟的资源进 行高效内存计算以达到高效计算,在此让利用深度学习工 具加强平台智能化,最终通过大数据可视化实现结果的展 示。它主要分为4层。分别是:硬件资源层,虚拟资源, 支撑平台和情报业务服务。科技情报大数据平台架构如图1 所示。
1)硬件资源层:大数据平台对硬件的需求主要是: 可作为计算设备的主机、进行数据存储的磁盘和满足内部 服务和对外服务的网络设备。大数据平台硬件的建设可以 采取2个方案:①采用托管的方式,可以租用云计算平台。
一
132 —
用科户初级
高级
技价情报获取
情报提炼
技术趋势
运用
值
情科技情报业务
报业务
情报面向情报数据分析服务
服搜索
标注预测
规划/博弈
…
务
情报(
I-core)
数据平台
分析平台
存储索引
性能
智能
支无结构
撑hdfs -ElasticsearchSpark
Deeplearing平半结构mongo -Lucene
-streaming-GPGPU台
结构化mysql
-graphx科PAAS-sql
容器化(docker)
技情报计算资源
存储资源
网络资源
大硬
数件据资计算池存储池网络池
平源
台
IAAS虚拟化(virtualbox/vmware)
计算设备
存储设备
网络设备
硬
件主机磁盘网络
资源
托管(运计算环境) 自建(机房)
图1
科技情报大数据平台
②可以采用自建的方式。采购20台以上的服务器和磁盘阵
列,搭建私有云平台即能满足基本情报服务。
2) 虚拟资源层:此层对上是透明化底层物理硬对下是打破实体结构间的不可切割的障碍,使这些资源的 不受现有资源的架设方式、地域或物理组态所,实现
最大化的利用物理硬件。虚拟化技术分为商用软件和开源
虚拟化技术两种。
3)
支撑平台层:支撑平台主要完成数据的存储和理,因此分为数据平台和处理平台。
情报的数据主要分为无结构的、半结构的和结构化的。 对于结构化数据可以采用关系型数据库存储。对于半结构 化的数据采用非关系型数据库存储。无结构化的数据可以 采用文件系统存储。如果对数据要进行快速的查找和访问, 还需要有索引的存储,对索引的处理也有很多成熟的开源 技术,如sola、弹性搜索等。
情报大数据平台处理数据最大特点是数据量大,因此 对数据处理性能要求要高。 要达到这点首先处理的数据就 要有原来的硬盘上改为在内存出处理,因此内存计算技术 是大数据平台的基础。内存技术主要是对流处理、图、统 计的处理,都已经有很多成熟的方法。情报大数据的处理
件,
处
月
第 38 卷第 1 期
2018年1现代情板
Jan.,2018Vol. 38
No. 1
Journal of Modem Information
除了速度,还需要智能。利用数据挖掘技术从海量信息中 找出有价值的情报是大数据情报平台主要的作用之一。因 此在对数据处理上,深度学习是很重要的。目前已经有很 多深度学习的算法和工具,并在实际应用中获取过很多有 价值的成果。比如,作者曾经利用Google开源的Deep Learning工具Word2vec训练出来的知识应用于对建议 和政协提案进行模糊查找中和主题词的推荐中,得到了很 好的效果。
4)情报业务层:这一层是大数据平台的业务层。情 报主要是在对数据的处理过程中,获取价值,数据具有多 样性,包括类型,文字的、图片的。结构化的,非结构化 的,所属领域不同,如低碳、节能、农业、林业等。目前 对数据处理的自动化技术也是发展得很好,如对文本处理 的搜索、分类、聚类等。对图像的提取、检索等。因此根 据情报所情报业务的需求和目前的计算机技术结合起来, 建立能为情报服务的数据处理平台。这一层是可扩展、组 件化的,可以根据需求不断进行技术的更新。目前根据最 基本的需求,设计了几个模块。情报搜索,他和一般的搜 索不一样,它具有行业性,搜索需要对具有新颖性的东西 加以特别关注、还具有多样行。当然依托于大数据平台, 提高性能更是必不可少的。知识库的构建:目前在自然语 言处理比较火的概念之一。建立一个好知识库,可以对概 念进行推理和延伸。可以让处理走向语义化。而知识库的 建立是具有领域性的,可以针对情报所的特定服务建立该 领域知识库。其次知识库需要建成能自我完善的,其众包 技术能很好地起到这个效果。
基于大数据平台,提供的服务最终体现在用户价值上, 从服务的层次上,分为初级和高级。初级可以面向大众免 费提供,如进行情报的检索和情报数据的自动提炼上。而 高级服务可以定制进行,为用户提供行业情报,对技术进 行趋势估计等。
2基于hadoop+hbase的大数据存储平台
关系型数据库适用于存储结构化数据,不适宜于高并
发访问和大数据量的大数据平台。Nosql (Not-Only-SQL) 就是为半结构化数据存储而生的。NoSql数据库采用Key- Value的形式对数据进行存储,且结构不固定,也就是说一 个表的任意一行的列的数量可以不相同。并且就算定义字 段,在不使用的情况下,也并不会占用存储空间,这样在 某种程度上来说也降低了一定的存储开销。同时还具有易 扩展性和高可用性的特性,方便部署在廉价的PC服务器 上集群用于处理大规模的海量数据。HBaSe是Hadoop平台 下数据存储引擎,它能够为大数据提供实时的读/写操作。 只已技叱具备开源、分布式、可扩展性以及面向列的存储特
点,使得HBaSe可以部署在廉价的PC服务器集群上处理 大规模的海量数据。HBase最早是由Google的Bigtable演 变而来,他提供了2种存储方式:一种是使用操作系统的 本地文件系统;另外一种则是在集群环境下使用Hadoop的 HDFS,相对而言,使用HDFS将会使数据更加稳定。同时 HBaSe存储的是松散型数据,也就是半结构化数据,那么 注定HBase的存储维度是动态可变的。也就是说HBase表 中的每一行可以包含不同数量的列,并且某一行的某一列 还可以有多个版本的数据,这主要通过时间戳范围进行区 分。HBaSe*仅可以向下提供运算,它还能够结合Hadoop 的MapReduce向上提供运算,这些都是HBase所具备的特 点[8]。根据上面大数据业务平台的架构,结合hadoop + hbaSe技术搭建了大数据存储的原型系统,具体方案如下文 所述。
2.1系统基础架构
在两台配置处理器:CPU四核,处理速度3. 3GHz,内 存16G,硬盘:1T的Window7的系统上分别安装Vitual- box,并在每个Vitualbox上安装5个Ubuntu系统,每个性 能内存2G,存储200G。按照Hadoop集群的基本要求,其 中一个是master结点,主要是用于运行hadoop程序中的 namenode、 secondorynamenode 和 jobtracker 任务。另外 9 个 结点均为slave结点,其中一个是用于冗余目的,如果没有 冗余,就不能称之为hadoop 了。slave结点主要将运行ha- doop 程序中的 datanode 和 tasktracker 任务。
在准备好这10个结点之后,需要分别将Linux系统的 主机名重命名和配置IP地址(因为前面是复制和粘帖操作 产生另外9个结点,此时这10个结点的主机名是一样的), 依此对虚拟系统设置IP从10. 10. 1. 60到10. 10. 1. 69,修 改各个虚拟机hostname文件,将节点机器名字依次设置为maste、 slave1、 slave2、 slave3、 slave4、 slave5、 slave6、slave7、slave8、slave9。之后修改各个机器的hosts文件。 设置y
为:
图2 hostname文件配置
2.2
系统配置2. 2. 1
hadoop 配置
1)设置 Core-site, xml
一
133 —
月
2018年1
Jan., 2018
科技情报大数据业务平台设计
第38卷第1期
I 图3 Core-site, xml文件配置 2)设置 hdfs-site. xml 图4 hdfs-site. xml文件配置 3)设置 mapred-site. xml 图 5 mapred-site. xml 文件配置 4)设置 yarn-site, xml 图6 yarn-site, xml文件配置 2. 2. 2 hbase集群配置 1)酉己置 hbase-site. xml I ■ SMMUMMaM?* ■ quorum nawe> 图7 hbase-site. xml文件配置 hbase. rootdir 指定 Hbase 数据存储目录。hbase. cluster. distributed指定是否是完全分布式模式,单机模式和伪分布 一 134 — Vol. 38 No. 1 式模式需要将该值设为false,hbase.master指定Master的位 置,hbase.zookeeper.quorum指定zooke的集群,多台机器以逗号分隔。 2) 修改 conf 下的 regionservers 文件 masterslavelslave2slave3slave4slave5slave6slave7slave8slave9 图8 regionservers文件配置 3) 修改Hadoop hdfs - site. xml下的一•个属性值 3 < name >撕• / name > 图9 regionservers文件配置 该参数了 datanode所允许同时执行的发送和接受 任务的数量,缺省为256,hadoop-defaults. xml中通常不设置这个参数。这个缺省值实际使用情况下有些偏小, 高负载情况下影响集群性能,需要根据实际集群条件设置 一下。2. 2. 3 hadoop和hbase启动和停止 启动顺序:先启动Hadoop-》hbase。 进入hadoop文件夹下执行命令:./sbin/start - dfs. sh;./ sbin/start-yarn.sh;分别启动hadoop的文件系统和任务调度 系统。通过jps查看节点状态,在maste和slave上分别显 示如下图所示,表示hadoop启动成功。 3732 Jps 3377 NameNode3636 JobTracker 28 3560 DataNodeSecondaryNameNode3099 Jps 3008 TaskTracker 图10 hadoop启动任务 进入hbase文件夹下执行命令:./bin/start-hbase.sh,运 行后通过jps查看节点状态,出现黄色框起来的任务表示 启动成功。 图11 hbase启动任务 停止顺序:hbase->hadoop,依次执行./bin/stop-hbase. 月 第 38 卷第 1 期 2018年1现代情掖 Jan., 2018Vol. 38 No. 1 Journal of Modem Information sh;./sbinAtop-yam.sh;./sbinAtop-dfs. sh;即可停止hbase 和 hadoop。 2. 2. 4 java代码实现hbase简单存储 public static void createTablef String tableName) { try ( HBaseAdmin hBaseAduin - new HBaseAdinin hBaseAduin.disabXeTableftableNaue); hBaseAdnin.deleceTable(cableNaAe);System.out.printlnftableNaue * \" i3 exist/decele... HTobleDescciptoc tableDescripcor ■ new KTableDesccipcorft&bleName); tableDescriptor. addFamily(nev HColumnDescriptoi:(\"title\")); tableDescriptoc.addFaiailY(nev HColuionDescriptor<\"auchoc\")); ^cableDescciptor.addFaiaily(nev HColuaziDescriptor(\"concent\")); hBaseAdmin. cneateTable (tableDescciptoi:}:} catch (HastecNocRunnin^Exception e) { e.pcintScackTrace();> catch (ZooKeeperConne e.pcincScackTrace() } catch (XOExcepcion e) 情报的大数据挖掘,最终,嵌入大数据可视化技术,对情报结果进行展示。 参 考 文 献 [1] 吴晨生,李辉,付宏,等.情报服务迈向3.0时代[J].情报 理论与实践,2015,38 (9): 1-7. [2] Bolz J, Farmer I,Grinspun E,et al. Sparse matrix solvers on the GP L [ J ]. Acm Transactions on Graphics, 2003, 22 (3).[3 ] Uav es B. Cloud computing [J]. Communications of the Acm, 2008,51 (7): 9-11. [4] Dixit A, Fang U, Mukherjee S, et al. Towards an elastic distrib uted SDN controller [ M ] // ACM SIGCOMM Computer Communication Review. ACM, 2013: 7-1 ) public static void inseECDaca(Sccing cableHame) {HTablePool pool - nev ffTablePool(conCi〇ucation/ 1000);HTable table = (HTable) pool.getTable try { table.put(put);} catch (lOExcepcion e) { [5] Naimi A I,Westreich D J. Big Data: A Revolution That Will Transform Uow We Live, W'ork, and Think. [J]. American Jour 图12 hbase建库和插入数据代码 nal of Epidemiology^, 2014, 17 (9): 181-183. [6 ] Lecun Y, Bengio Y, Uinton G. Deep learning [ J ]. Nature, 3结语 本文分析了目前大数据时代科技情报工作面临的问题 2015, 521 (7553): 436-444. [7]吴 信东.数据挖掘十大算法[M].李文波,吴素研,译.北 京:清华大学出版社,2013. [8] Mehul, Nalin, Vora. Uadoop - UBase for large - scale data 和机遇,结合信息技术领域的虚拟化技术、云平台技术、 高性能技术和人工智能技术,设计了科技情报大数据业务 [C] // International Conference on Computer Science and Network 平台架构,并对大数据处理首要任务存储进行了探索,搭 建了基于hadoop和hbase的大数据存储平台。下一步,将 (责任编辑:孙国雷) 在此基础上,将人工智能技术嵌人到大数据平台上,实现 Technology. IEEE,2012: 601-605. (上接第130页) 等方面要与评测个人的实际情况基本相符,通过对比分析 明确在同等境况下的个人产出实力。 确定对标评测模板,所有同质机构或个人通过与对标 模板的比较,来确定自身在整个科研评测环境中的位置也 是横向对比的一种客观评测方法。例如将某个学科某个时 间段的被引次数作为该学科影响力的评测指标,通过不同 参考文献 [1] 赵飞,艾春艳,李峰,等.院系与学科角度相结合的高校科 研评估探析[J].大学图书馆学报,2016,(1): 76-82.[2] 赵飞,艾春艳,游越,等.基于文献计量开展高校科研评估 的探索与思考— 以北京大学科研竞争力评估为例[J].大 学图书馆学报,2014,(1): 97-101. [3] 许海云,刘春江,雷炳旭,等.学科交叉的测度、可视化研 究及应用-------个情报学文献计量研究案例[J].图书情报 机构相同学科与评测指标的对比,来客观定位不同机构该 学科的影响力差异。 工作,2014,58 (12): 95-101. [4] Jasleen Kaur, Emilio Ferrara, Filippo Menczer, Alessandro Flam- mini ,Filippo Radicchi. Quality versus quantity in scientific impact [J]. Journal of Informetrics. 2015,(9): 800-808. 4结语 文献计量方法本身是大数据时代活跃的运用手段。将 [5 ] Peter Jacso. Pragmatic issues in calculating and comparing the quantity and quality of research through rating and ranking of researchers based on peer reviews and bibliometric indicators from W’eb of Science,Scopus and Google Scholar [J]. Online Informa- tionReview.2010,34(6):972-982■ [6]宋丽萍,王建芳,王树义.科学评价视角下F1000、Mendeley 与传统文献计量指标的比较[J].中囯图书馆学报,2014, 该方法运用到科研评估更能从客观层面反应科研成果的水 准。然而在运用此方法前,需要对学科性质、科研产出源、 机构的组成等建立科学的认识,不能脱离实际去考察计量 数据,本文通过数学方法、情报搜索以及比值计算等将一 些科研评估中的前置因素或前提条件纳人评测体系。希望 通过更加公平的参照系来具有前提的评判机构、个人或学 40 ( 4) : 48-. 科的实际科研贡献度。相信随着文献计量方法的不断校正, (责任编辑:郭沫含) 我们将越来越接近于科学评价的本来面目[6]。 一 135 — 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务