数据导入和导出作业概览

项目
03/24/2025

要创建和管理数据导入和导出作业，请使用数据管理工作区。默认情况下，数据导入和导出流程为目标数据库中的每个实体创建一个暂存表。通过暂存表可以在移动数据之前验证、清理或转换数据。

注释

本文假定您熟悉数据实体。

数据导入/导出流程

以下是导入或导出数据的步骤。

在完成以下任务后创建导入或导出作业：
- 定义项目类别。
- 确定要导入或导出的实体。
- 设置作业的数据格式。
- 给实体排序，以便以合理的顺序在逻辑组中处理这些实体。
- 确定是否使用暂存表。
验证源数据和目标数据是否正确映射。
验证您的导入或导出作业的安全性。
运行导入或导出作业。
查看作业历史纪录，验证作业是否按预期运行。
清除暂存表。

本文的其余章节提供有关流程的每个步骤的详细信息。

纸币

要刷新“数据导入/导出”窗体以查看最新进度，请使用窗体刷新图标。不建议执行浏览器级别刷新，因为这将中断所有未批量运行的导入/导出作业。

创建导入或导出作业

可以一次性运行或分多次运行数据导入或导出作业。

定义项目类别

我们建议您花时间为导入或导出作业选择合适的项目类别。项目类别有助于管理相关作业。

确定要导入或导出的实体

您可以将特定实体添加到导入或导出作业或选择一个要应用的模板。模板使用一个实体列表填充一个作业。给作业命名并保存作业后，应用模板选项可用。

设置作业的数据格式

选择一个实体后，必须选择要导出或导入的数据的格式。使用数据源设置磁贴定义格式。源数据格式是类型、文件格式、行分隔符和列分隔符的组合。还有其他属性，但这些属性则是需要了解的关键属性。下表列出了有效组合。

文件格式	行/列分隔符	XML 样式
Excel	Excel	-不适用-
XML	-不适用-	XML 元素 XML 属性
分隔，固定宽度	逗号、分号、制表符、竖线、冒号	-不适用-

纸币

如果文件格式选项设置为分隔，则必须为行分隔符、列分隔符和文本限定符选择正确的值。请确保您的数据不包含用作分隔符或限定符的字符，因为这可能会在导入和导出过程中导致错误。

注释

对于基于 XML 的文件格式，请确保仅使用合法字符。有关有效字符的更多信息，请参阅 XML 1.0 中的有效字符。 XML 1.0 不允许使用除制表符、回车和换行之外的任何控制字符。非法字符的示例包括方括号、大括号和反斜杠。

若要导入或导出数据，请使用 Unicode 而不是特定代码页面。这将帮助提供最一致的结果并消除数据管理作业因包含 Unicode 字符而失败的情况。使用 Unicode 的系统定义的源数据格式在源名称中都会有 Unicode。通过在区域设置选项卡中选择 Unicode 编码 ANSI 代码页作为代码页来应用 Unicode 格式。为 Unicode 选择以下代码页之一：

代码页	显示名称
1200	Unicode
12000	Unicode (UTF-32)
12001	Unicode (UTF-32 Big-Endian)
1201	Unicode (Big-Endian)
65000	Unicode (UTF-7)
65001	Unicode (UTF-8)

有关代码页的更多信息，请参阅代码页标识符。

给实体排序

实体可以在数据模板或导入和导出作业中排序。运行的作业包含多个数据实体时，必须确保数据实体的序列正确。给实体排序的主要目的是为了解决实体中的任何功能依赖项。如果实体不具有任何功能依赖项，可以计划并行导入或导出。

执行单元、级别和序列

执行单元、执行单元中的级别以及实体序列有助于控制导出或导入数据的顺序。

在每个执行单元中，实体均并行处理。
在每个执行单元中，具有相同级别的实体并行处理。
在每个级别中，根据实体在该级别中的序列号处理实体。
处理完一个级别后，再处理下一个级别。

重新排序

在以下情形中，您可能想要对实体重新排序：

如果只有一个数据作业用于您的所有更改，可以使用重新排序选项来优化整个作业的执行时间。在这些情况下，您可以使用执行单元表示模块，用级别表示模块中的功能区域，用序列表示实体。使用此方法可以并行处理不同模块，但也仍然能在一个模块中按顺序处理。为了帮助保证成功完成并行操作，必须考虑所有依赖项。
如果使用多个数据作业（例如，一个模块使用一个作业），可以使用排序来影响实体的级别和顺序，以获得最佳执行。
如果没有任何依赖项，可以在不同执行单元对实体排序，以最大程度地进行优化。

选择多个实体时，重新排序菜单可用。可以基于执行单元、级别或顺序选项重新排序。可以设置增量，以对选定的实体重新排序。为每个实体选择的单元、级别和/或序列号按指定增量进行更新。

排序

用户可以使用排序依据选项按顺序查看实体列表。

截断

对于导入项目，可在导入前选择截断实体中的记录。如果必须将记录导入一套干净的表中，截断很有用。默认情况下，此设置已关闭。

验证源数据和目标数据是否正确映射

映射是同时适用于导入和导出作业的一项功能。

在导入作业情况下，映射描述源文件中的哪些列成为暂存表中的列。因此，系统可以确定源文件中的哪些列数据必须复制到暂存表中的哪一列。
在导出作业情况下，映射描述暂存表（即源）中的哪些列成为目标文件中的列。

如果暂存表和文件中的列名称匹配，则系统自动基于名称建立映射。但是，如果名称有差异，则不会自动映射列。在这些情况下，必须在数据作业中的实体上选择查看映射选项，以完成映射。

有两个映射视图：映射可视化，即默认视图，以及映射详细信息。红色星号 (*) 标识实体中的任何必填字段。必须映射这些字段后才能处理实体。处理实体时，可以按需要取消其他字段的映射。要取消字段映射，选择实体列或源列中的字段，然后选择删除选择。选择保存以保存更改，然后关闭页面以返回项目。在导入后，您可以使用相同流程编辑从源到暂存的字段映射。

通过选择生成源映射可以在页面上生成映射。生成的映射表现地类似于自动映射。因此，您必须手动映射所有未映射的字段。

数据映射。

验证您的导入或导出作业的安全性

数据管理工作区的访问权限可能受到限制，因此非管理员用户可能仅可访问特定的数据作业。对数据作业的访问权限暗示着对该作业的执行历史记录的完全访问权限和对暂存表的访问权限。因此，您必须确保在创建数据作业时采取适当的访问权限控制。

按角色和用户保护作业安全

使用适用的角色菜单将作业限制到一个或多个安全角色。仅这些角色的用户具有该作业的访问权限。

您还可以将该作业限制到特定用户。当您按用户而不是角色保护作业安全时，如果有多个用户分配到角色，则具有更多的控制性。

通过法人保护作业安全

数据作业在性质上是全局的。因此，如果在法人中创建和使用数据作业，该作业将在系统中的其他法人中可见。此默认行为可能在有些应用方案中优先。例如，使用数据实体导入发票的组织可能提供一个集中发票处理团队负责管理组织中的所有部门的发票错误。在此方案中，它有助于集中发票处理团队获得所有法人的发票导入作业的访问权限。因此，从一个法人的角度看，默认行为满足要求。

但是，组织可能希望每个法人各有一个发票处理团队。在这种情况下，一个法人中的团队应仅具有它自己的法人的发票导入作业的访问权限。为了满足此要求，您可以使用数据作业内的适用的法人菜单在数据作业上配置基于法人的访问权限控制。配置完成后，用户仅可以看到他们当前分配的法人中可用的作业。若要查看其他法人的作业，用户必须切换到该法人。

可同时按角色、用户和法人保护作业安全。

运行导入或导出作业

在定义作业后，您可以选择导入或导出按钮运行一次作业。若要设置重复执行的作业，请选择创建重复性数据作业。

注释

可通过选择导入或导出按钮运行导入或导出作业。此操作将计划批处理作业仅运行一次。如果由于批处理服务上的负载而限制了批处理服务，则作业可能不会立即执行。也可以通过选择立即导入或立即导出同步运行作业。这将立即启动作业，因此在因为限制而无法启动时，批处理非常有用。也可以作业安排在以后执行。这可以通过选择批量运行选项完成。批处理资源可能受到限制，因此可能无法立即启动批处理作业。建议使用批处理选项，因为这还有助于处理需要导入或导出的大量数据。可安排对特定批处理组运行批处理作业，这样就可以加强负载平衡角度的控制。

批处理节点重新启动期间的自动重试支持

实施对批处理作业中的导入/导出的自动重试支持，以便在批处理重新启动时启用重试。从版本 10.0.42 开始提供此功能。

以下图表以导出流为例，概述了所做的更改。类似的设计也已应用于导入。

以前的设计：有一个常规批处理作业和一个运行时批处理任务。

显示两个步骤的先前设计的图示：使用 DFMBathExporter 的常规作业和使用 DMFExportTaskScheduler 的运行时任务。

新设计：有一个常规批处理作业 (Job1) 将创建新的运行时子作业 (Job2)，并且常规批处理任务将添加到 Job2 而不是 Job1。

新设计的示意图，在使用 DFMBathExporter 的常规作业和使用 DMFExportTaskScheduler 的运行时任务之间有一个新的运行时作业。

注意

如果您自定义了涉及 DMFBatchImporter、DMFImportTaskScheduler、DMFBatchExporter、DMFExportTaskScheduler 类的代码，您可能会遇到新设计下的批量导入/导出功能问题。例如，如果您已创建自己的自定义批处理任务，并且按照之前的设计将任务添加到 Job1，则您正在向错误的作业添加任务。您现在应该根据新设计将自定义任务添加到 job2 而不是 job1。

验证该作业按预期运行

作业历史记录可用于导入和导出作业的故障排除和调查。历史作业运行按时间范围进行组织。

作业历史记录范围。

每次作业运行提供以下详细信息：

执行详细信息
执行日志

执行详细信息显示作业处理的每个数据实体的状态。因此，您可以迅速找到以下信息：

已处理的实体。
对于实体，处理成功的记录数量和处理失败的记录数量。
每个实体的暂存记录。

您可以将暂存数据下载到一个文件用于导出作业，或将其下载为包用于导入和导出作业。

您还可以从执行详细信息打开执行日志。

并行导入

为了加快数据导入，如果实体支持并行导入，可以启用导入文件的并行处理。要为实体配置并行导入，必须遵循以下步骤。

转到系统管理 > 工作区 > 数据管理。
在导入/导出部分，选择框架参数磁贴打开数据导入/导出框架参数页。
在实体设定选项卡上，选择配置实体执行参数打开实体导入执行参数页。
设置以下字段以为实体配置并行导入：
- 在实体字段中，选择相应实体。如果实体字段为空，并且实体支持并行导入，空值将用作所有后续导入的默认设置。
- 在导入阈值记录数字段中，输入要导入的阈值记录数。这确定线程要处理的记录数。如果一个文件有 1 万条记录，记录数为 2,500，任务数为四，这意味着每个线程将处理 2,500 条记录。
- 在导入任务数字段中，输入导入任务的数量。此数量不能超过在系统管理 > 服务器配置中为批处理分配的最大批处理线程数。

注意

添加过多的并行任务会导致底层基础结构用尽资源容量，并影响环境性能和其他操作。建议您根据配置的并行导入任务了解环境的资源容量和消耗，并限制任务数量。

作业历史记录清理

默认情况下，超过 90 天的作业历史记录条目和相关暂存表数据将被自动删除。数据管理中的作业历史记录清理功能可用于配置定期清理执行历史记录，将保留期配置为低于此默认值。此功能取代了之前的暂存表清理功能，后者已被弃用。清理过程将清理下面的表。

所有暂存表
DMFSTAGINGVALIDATIONLOG
DMFSTAGINGEXECUTIONERRORS
DMFSTAGINGLOGDETAIL
DMFSTAGINGLOG
DMFDEFINITIONGROUPEXECUTIONHISTORY
DMFEXECUTION
DMFDEFINITIONGROUPEXECUTION

执行历史记录清理功能可从数据管理 > 作业历史记录清理访问。

计划编制参数

计划清理过程时，必须指定以下参数以定义清理条件。

历史记录的保留天数 – 此设置用于控制执行历史记录的保留量。历史记录按天数指定。如果计划的清理作业为重复批处理作业，则此设置的作用类似连续移动的窗口，在删除一些历史记录的同时，始终保留所指定天数的历史记录。默认值为七天。
作业的执行小时数 - 清理作业的总执行时间从数分钟到数小时不等，具体取决于要清理的历史记录量。此参数必须设置为作业执行的小时数。清理作业执行了指定的小时数后，该作业将退出并在下次运行时基于重复计划恢复清理。

可以使用此设置指定最大执行时间，方法是为作业的必须运行小时数设置最大限额。清理逻辑按照以时间排列的顺序一次检查一个作业执行 ID（最早历史记录最先检查），以清理关联的执行历史记录。如果剩余执行持续时间不超过指定持续时间的 10%，将停止选取新执行 ID 来进行清理。在某些情况下，清理作业在指定的最大时间之后会继续进行。此持续时间很大程度上取决于达到 10% 阈值之前开始的当前执行 ID 待删除记录数。必须完成已开始的清理工作，以确保数据的完整性，这意味着虽然超过了指定的限额，仍将继续清理。完成后，将不选取新的执行 ID，清理作业完成。下次计划清理作业时，将选取因为执行时间不足导致未清理的剩余执行历史记录。此设置的默认值（也是最小值）设置为 2 小时。
定期批处理 - 清理作业可以作为一次性的手动执行来运行，也可以计划为批量的定期执行。可以使用后台运行设置来计划批处理，这是设置的标准批处理。

注意

如果不使用作业历史记录清理功能，超过 90 天的执行历史记录仍会自动删除。除了自动删除之外，还可以运行作业历史记录清理。确保将清理作业计划为定期运行。正如前面所述，在执行任何清理时，作业能够清理的执行 ID 数量不超过提供的最大小时数内能够清理的数量。

作业历史记录清理和存档

作业历史记录清理和存档功能取代了以前版本的清理功能。本节解释这些新功能。

清理功能的主要变化之一是使用系统批处理作业来清理历史记录。使用系统批处理作业允许财务和运营应用自动安排清理批处理作业，并在系统准备就绪时立即运行。不再需要手动安排批处理作业。在此默认执行模式下，批处理作业将从午夜开始每小时执行一次，并将保留最近七天的执行历史记录。清除的历史记录将存档，以备将来检索。从版本 10.0.20 开始，此功能始终开启。

清理过程的第二个变化是所清除执行历史的存档。清理作业会将已删除的记录归档到 DIXF 用于常规集成的 Blob 存储中。归档的文件将采用 DIXF 软件包格式，并且在 blob 中保留七天，在此期间可供下载。可在参数中将归档文件的七天这一默认寿命更改为最大 90 天。

更改默认设置

该功能当前处于预览版阶段，必须通过启用外部测试版 DMFEnableExecutionHistoryCleanupSystemJob 明确将其打开。还必须在功能管理中开启暂存清理功能。

要更改存档文件寿命的默认设置，请转到数据管理工作区，然后选择作业历史记录清理。将数据包在 blob 中的保留天数设置为 7 与 90（含）之间的值。此更改将对进行此更改之后创建的存档有效。

下载存档的数据包