抽取文件数据
访问路径:数据功能 -> 抽取文件数据
功能简述
提供针对文件系统中的文件内容提取功能,支持数据源有:
- SFTP
- 共享目录
- 本地目录
- AWS S3
- SharePoint站点
预定义工作表
设计同步任务前,需要先按接收数据的结构来预定义工作表,工作表定义可以参考:定义工作表
定义同步任务
通过设计工具栏中的数据功能 - 抽取文件数据
功能创建一个提取文件内容的数据同步任务。
- 目标表:为预定义好的工作表,用于保存文件中提取的数据内容。
- 源文件目录:为预定义的文件源名称,如共享目录的根目录地址(即共享的一级目录)
- 工作目录:为共享目录下面的子目录,需要读取的文件就在该路径下面。
- 文件名称过滤:提供对文件名、文件大小以及文件最后修改日期的过滤条件,具体配置可以参考 文件筛选
- XLSX配置:默认读取的XLSX文件,是从第一个页签第一行开始读取,也可以通过配置调整默认选项。
- CSV配置:默认CSV文件是通过
,
和"
号来分割数据,也可以调整默认选项。 - 无效值:如果提供无效值清单,则在读取到无效值时,可以自动做空处理。无效值以
;
进行分割。
- 来源字段:对应的是文件里面的列名
其它任务选项
当前任务中的前置脚本
,善后脚本
,分别在当前数据同步前、后执行,用于对同步数据进行预处理,和同步后的再清理计算等用途。可以根据场景需求采用。