数据工厂文件挂载上传及权限设置

文件管理是数据工厂的统一文件元数据管理模块,数据工厂的文件系统可接入HDFS、S3、腾讯云对象存储等外部文件存储系统,并抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。相当于计算机中的资源管理器,是数据工厂中其他模块访问文件的唯一入口。为其他模块访问不同的文件存储系统提供了极大的便利。

数据资源目录

文件管理为用户提供所有文件的资源管理目录,在数据工厂的表管理中创建的数据库、表数据全部都在文件系统中进行存储路径管理,当在表管理中创建一个物理表,默认路径在文件系统中的user/pingo/warehouse/目录下,可看到系统创建的路径以及存储的数据库及表的信息。

在全部文件列表,框内均为系统的文件夹,可以不必关心。用户需要挂载或管理自己的文件的时候,可新建文件夹对自己的文件进行单独管理。

文件挂载

文件系统支持外部文件存储系统的接入,诸如腾讯云对象存储,S3等,均可接入到文件系统。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。同时,文件系统对接入的外部系统中的文件进行缓存,可以加速远端数据的访问。

目前文件系统只支持挂载腾讯云对象存储文件,后续将陆续支持其他方式的文件挂载。

挂载腾讯云对象存储文件

点击挂载按钮,填写需挂载的腾讯云对象存储文件信息:

  • 挂载点:是将第三方文件挂载到数据工厂文件系统的位置,具体表现为一个路径,通过这个路径可以访问挂载以后的第三方文件。可以选择一个已有的路径或新建一个路径,如果是第一次挂载,推荐在根目录下创建一个单独的路径,格式为"/foldername"。
  • 区域:腾讯云对象存储的存储区域,由于目前数据工厂只支持北京区域,因此需要您将数据存储在北京区域以保证读取速度。
  • Bucket:腾讯云对象存储的存储桶名称,可以在腾讯云对象存储的管理页面获取。
  • 路径:这个路径为第三方文件系统中的路径,如果是S3,则是bucket中的路径,如果只授权数据工厂访问Bucket中的某一个存储路径,可以填写路径的名称,如果不填写,则表示授权访问整个Bucket的文件。
  • Access Key/Secret Key:原始AK/SK是指您在注册腾讯云对象存储时,系统自动分配给您的AK(Access Key ID)/SK(Secret Access Key),主要用于对用户的调用行为进行鉴权和认证,相当于腾讯云API专用的用户名及密码。您向腾讯云对象存储发送的每个请求,都需要通过鉴权认证通过后,腾讯云对象存储才会处理您的请求。

挂载完成之后,可以在全部文件目录下看到所挂载的文件夹,也可以在我挂载的标签下看到所挂载的文件目录。挂载文件夹和远端文件是镜像关系,文件增删操作会实时同步。

解除挂载

当文件不再挂载访问的时候,可以将挂载目录进行解除挂载。点开文件挂载管理

在挂载管理对话框中点击解除挂载,则取消了文件的挂载,数据工厂文件系统中将不再可见远端文件夹。当还需要访问的时候,可以再重新挂载。

请注意区分删除文件夹和解除挂载,删除文件夹会在数据工厂文件系统和远端文件目录同时删除挂载的文件夹以及文件,请谨慎操作。解除挂载是将远端文件目录从数据工厂文件系统中移除,并不会删除远端存储的文件夹和目录。

文件上传

除了通过文件挂载实现远端文件访问,也可以将需要读写的文件上传到数据工厂文件管理系统,文件管理提供数据缓存能力,文件上传可以实现数据的本地访问,加速数据访问。

文件权限管理

文件挂载之后,在文件管理中就可以进行统一的权限管理,所以对于那些没有实现权限控制的文件系统,只要通过数据工厂的文件挂载进行统一访问,即可实现权限管理。

权限管理可以基于文件夹也可以基于文件,在想要授权的文件节点,点击权限管理,填写将要授权的用户,可以赋予读、写或者管理权限,还可以继承父目录权限。

授权之后,被授权的用户可以在权限列表中查看自己有权限的文件。

标签