核心产品和技术-核心工具

大数据软件栈快速弹性部署和管理工具—PackOne

面对“数据管理与底层软硬件管理紧密耦合”、“数据/软硬件环境跨域协作困难”等问题，我们研发了PackOne工具，致力于实现以下三个目标：1. 云基础设施混合化（IaaS），支持创建横跨不同云平台（公有云、私有云）的计算机集群，支持集群节点间的跨云通信，解决计算、数据资源跨域协作困难的问题；2. 大数据引擎弹性化（PaaS），以一致化的形式提供各类大数据引擎的快速部署和弹性伸缩能力，解决各类大数据引擎弹性伸缩策略的碎片化乃至缺失的问题；3. 全生命周期的Serverless数据管理服务，支持数据集的在线导入、加载到数据引擎、流水线分析（基于PiFlow）和导出，并最大限度地屏蔽底层软硬件管理工作，解决数据管理与底层软硬件管理紧密耦合的问题。

大数据管理与分析平台建设: 2021-07-21

科学数据存储库—ScienceDB

科学数据存储库（简称ScienceDB）由中国科学院计算机网络信息中心建设，是一个公共的通用型科学数据存储库，主要面向科研人员、科研项目/团队、科研期刊、科研机构及高校等利益相关者，提供科学数据汇交、长期保存、出版、共享和获取等服务，支持多种的数据获取与使用许可，在保障数据所有人权益的基础上，促进数据的可发现、可引用、可重用。

大数据管理与分析平台建设: 2021-07-21

大数据流水线系统—PiFlow

Piflow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：1）简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；2）功能强大：提供100+的数据处理组件，包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等，同时集成了微生物领域的相关算法；3）扩展性强：支持自定义开发数据处理组件；4）性能优越：基于分布式计算引擎Spark开发。

大数据管理与分析平台建设: 2021-07-21

科学大数据云分析服务系统—iAnalysis

随着科学大数据技术的发展，问题导向的数据端分析成为常态。一方面在专业科学垂直领域，随着传感器布网的增多、采样指标的扩展和采样频率的密集，数据端的数据量级也极具膨胀，数据迁移的时间和空间成本代价增大、存取效率亟待提高；另一方面科学数据挖掘分析所用的计算资源也随着数据规模的扩大越来越多，并且这些数据和资源会随着分析的不同有弹性的需求；

大数据管理与分析平台建设: 2021-07-21

数据可视化平台—DVIZ

针对数据可视化需求，以所见即所得的方式，实现对数据的快速可视化和云服务的发布。加载CSV、Excel等十余种不同的数据文件，并快速实现交互式可视化图形的生成。模型驱动的开发方法，坚实的理论基础支持。1.加载数据并配置2.布局及可视化配置3.结果预览及可视化

大数据管理与分析平台建设: 2021-07-21

分布式科学数据汇聚管理与服务平台-VDB4.0

分布式科学数据汇聚管理与服务平台（VDB4.0）定位于实现分布式多源异构数据物理汇聚、集中管理发布、统一共享与服务，支撑科学数据中心服务体系构建；主要由数据汇聚与传输系统、数据管理与发布系统、数据共享与服务门户三者构成，底层由ElasticSearch集群和MongoDB集群来支撑数据存储、管理和检索。该平台具有通用性，高可定制性特点，支持数据的汇聚、管理、服务全流程的定制化管理。

大数据管理与分析平台建设: 2021-07-21