Skip to main content

抽取文件数据

访问路径:数据功能 -> 抽取文件数据

功能简述

提供针对文件系统中的文件内容提取功能,支持数据源有:

  • SFTP
  • 共享目录
  • 本地目录
  • AWS S3
  • SharePoint站点

预定义工作表

设计同步任务前,需要先按接收数据的结构来预定义工作表,工作表定义可以参考:定义工作表

定义同步任务

通过设计工具栏中的数据功能 - 抽取文件数据功能创建一个提取文件内容的数据同步任务。

Basic

  • 目标表:为预定义好的工作表,用于保存文件中提取的数据内容。

File

  • 源文件目录:为预定义的文件源名称,如共享目录的根目录地址(即共享的一级目录)
  • 工作目录:为共享目录下面的子目录,需要读取的文件就在该路径下面。
  • 文件名称过滤:提供对文件名、文件大小以及文件最后修改日期的过滤条件,具体配置可以参考 文件筛选
  • XLSX配置:默认读取的XLSX文件,是从第一个页签第一行开始读取,也可以通过配置调整默认选项。
  • CSV配置:默认CSV文件是通过,"号来分割数据,也可以调整默认选项。
  • 无效值:如果提供无效值清单,则在读取到无效值时,可以自动做空处理。无效值以进行分割。

Mapping

  • 来源字段:对应的是文件里面的列名

其它任务选项

当前任务中的前置脚本,善后脚本,分别在当前数据同步前、后执行,用于对同步数据进行预处理,和同步后的再清理计算等用途。可以根据场景需求采用。