数据工厂有什么优势和特点

统一文件存储抽象

数据工厂的文件管理系统PFS不仅为自身提供文件存储功能,还允许外部文件存储系统的接入,诸如腾讯云对象存储,S3等,均可接入到PFS。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。(目前暂时只支持腾讯云对象存储接入,后续将陆续支持其他文件系统接入。)

远端数据加速访问

PFS可以缓存接入的外部文件系统中的文件,将远端的数据缓存在距离计算节点较近的位置,提供数据的加速访问。

多计算引擎同时支持

不仅支持传统的SQL计算引擎,还提供Spark Dataframe,Spark Structed Streaming等业界流行的离线计算框架供用户选择,同时为了照顾习惯于使用SQL的用户方便的使用流式计算,还提供Spark Streaming SQL。

多种作业提交方式

提供多种灵活的提交Job方式,包括Jar包,代码片段,以及Java/Scala API,同时支持将即时调试成功的代码一键生成例行作业。

外部元数据集成

表管理和文件管理不仅能够提供自身存储的元数据信息,同时能够引入外部的元数据信息,通过引入外部的元数据信息,无需用户手动导入,就能够对原本存储在多个数据仓库中的数据进行联合查询。

统一批量与流式数据处理

集成的批量和流式数据处理系统,以统一的接口同时支持流式、批量作业,用户可在数据工厂一个系统同时实现批量作业调度和流式数据处理。

全WEB化操作

平台级服务,全Web化操作,无需额外下载插件,用户可通过全Web方式进行数据表管理,作业调试,作业创建与例行调度管理。

多人协作模式开发

支持分组管理与权限管理,用户可通过分组以及授权机制实现多人协作共同管理开发作业。

标签