ApsaraDB For Oceanbase数据同步能力_大数据开发治理平台 ...

支持的版本

离线读写

ApsaraDB For OceanBase Reader和ApsaraDB For OceanBase Writer通过OceanBase数据库驱动访问ApsaraDB For OceanBase，您需要确认驱动和您的ApsaraDB For OceanBase服务之间的兼容能力。数据库驱动使用如下版本。

<dependency>
    <groupId>com.alipay.OceanBase</groupId>
    <artifactId>OceanBase-connector-java</artifactId>
    <version>3.1.0</version>
</dependency>

使用限制

离线读

ApsaraDB For OceanBase包括Oracle和MySQL两种租户模式，您在配置 where 数据过滤条件、 column 中的函数列时，需要符合对应租户模式的SQL语法约束，否则SQL语句可能执行失败。
支持读取视图表。
在离线读取OceanBase数据的过程中，请避免对正在同步的数据进行修改操作，否则可能会导致数据质量问题（如数据重复或数据丢失）。

离线写

insert into... ：当主键或唯一性索引冲突时，无法写入冲突的行。Oracle租户模式下仅支持 insert into 。
insert into...ON DUPLICATE KEY UPDATE... ：当主键或唯一性索引未冲突时，与 insert into 的行为一致。当主键或唯一性索引冲突时，新行会替换指定的字段。MySQL租户模式下支持 insert into... 和 insert into...ON DUPLICATE KEY UPDATE... 。
目的表所在数据库必须是主库才能写入数据。

{
    "type": "job",
    "steps": [
            "stepType": "apsaradb_for_OceanBase", //插件名
            "parameter": {
                "datasource": "", //数据源名
                "where": "",
                "column": [ //字段
                    "id",
                    "name"
                "splitPk": ""
            "name": "Reader",
            "category": "reader"
            "stepType": "stream",
            "parameter": {
                "print": false,
                "fieldDelimiter": ","
            "name": "Writer",
            "category": "writer"
    "version": "2.0",
    "order": {
        "hops": [
                "from": "Reader",
                "to": "Writer"
    "setting": {
        "errorLimit": {
            "record": "0" //错误记录数
        "speed": {
            "throttle": true, //当throttle值为false时，mbps参数不生效，表示不限流；当throttle值为true时,表示限流。
            "concurrent": 1, //作业并发数
            "mbps":"12"//限流，此处1mbps = 1MB/s。
}

参数	描述	是否必选	默认值
datasource	如果您使用的DataWorks版本支持添加ApsaraDB For OceanBase数据源，即可在此处根据数据源名称引用您添加的ApsaraDB For OceanBase数据源。包括 jdbcUrl 和 username 两种配置方式。	是	无
jdbcUrl	到对端数据库的JDBC连接信息。使用JSON的数组描述，并支持一个库填写多个连接地址。如果配置了多个，ApsaraDB For OceanBase Reader可以依次探测IP的可连接性，直到选择一个合法的IP。如果全部连接失败，则ApsaraDB For OceanBase Reader报错。	否	无
username	数据源的用户名。	否	无
password	数据源指定用户名的密码。	否	无
table	选取的需要同步的表。使用JSON的数组进行描述，支持同时读取多张表。当配置为多张表时，您需要保证多张表的Schema结构一致，ApsaraDB For OceanBase Reader不检查表的逻辑是否统一。	是	无
column	所配置的表中需要同步的列名集合，使用JSON的数组描述字段信息。默认使用所有列配置，例如[ * ]。支持列裁剪：可以导出部分列。支持列换序：可以不按照表Schema信息顺序进行导出。支持常量配置：例如 `'123'` 。支持函数列：例如 `date('now')` 。 column 必须显示指定同步的列集合，不允许为空。	是	无
splitPk	ApsaraDB For OceanBase Reader进行数据抽取时，如果指定 splitPk ，表示您希望使用 splitPk 代表的字段进行数据分片，数据同步因此会启动并发任务进行数据同步，提高数据同步的效能。推荐 splitPk 用户使用表主键，因为表主键通常情况下比较均匀，因此切分出来的分片也不容易出现数据热点。目前 splitPk 仅支持整型数据切分，不支持字符串、浮点和日期等其它类型。如果您指定其它非支持类型，ApsaraDB For OceanBase Reader将报错。如果设置 splitPk 值为空，底层将视作您不允许对单表进行切分，因此使用单通道进行抽取。	否	空
where	ApsaraDB For OceanBase Reader根据指定的 column 、 table 、 where 条件拼接SQL，并根据该SQL进行数据抽取。例如，在进行测试时，可以指定 where 条件为 limit 10 。在实际业务场景中，通常会选择当天的数据进行同步，指定 where 条件为 `gmt_create>$bizdate` 。 where 条件可以有效地进行业务增量同步。 where 条件不配置或为空，则视作全表同步数据。	否	无
querySql	在部分业务场景中， where 配置项不足以描述所筛选的条件，您可以通过该配置型来自定义筛选SQL。配置该项后，数据同步系统会忽略 tables 、 columns 和 splitPk 配置项，直接使用该项配置的内容对数据进行筛选。当您配置 querySql 时，ApsaraDB For OceanBase Reader直接忽略 table 、 column 、 where 和 splitPk 条件的配置。	否	无
fetchSize	该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大地提升数据抽取性能。	否	1,024

{
    "type":"job",
    "version":"2.0",//版本号。
    "steps":[
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
            "stepType":"apsaradb_for_OceanBase",//插件名。
            "parameter":{
                "datasource": "数据源名",
                "column": [//字段。
                    "id",
                    "name"
                "table": "apsaradb_for_OceanBase_table",//表名。
                "preSql": [ //执行数据同步任务之前率先执行的SQL语句。
                    "delete from @table where db_id = -1"
                "postSql": [//执行数据同步任务之后率先执行的SQL语句。
                    "update @table set db_modify_time = now() where db_id = 1"
                "writeMode": "insert",
            "name":"Writer",
            "category":"writer"
    "setting":{
        "errorLimit":{
            "record":"0"//错误记录数。
        "speed":{
            "throttle":true,//当throttle值为false时，mbps参数不生效，表示不限流；当throttle值为true时,表示限流。
            "concurrent":1, //作业并发数。
            "mbps":"12"//限流，此处1mbps = 1MB/s。
    "order":{
        "hops":[
                "from":"Reader",
                "to":"Writer"
}

参数	描述	是否必选	默认值
datasource	如果您使用的DataWorks版本支持添加ApsaraDB For OceanBase数据源，即可在此处根据数据源名称引用您添加的ApsaraDB For OceanBase数据源。包括 jdbcUrl 和 username 两种配置方式。	否	无
jdbcUrl	到对端数据库的JDBC连接信息， jdbcUrl 包含在 connection 配置单元中。在一个数据库上只能配置一个值，不支持同一个数据库存在多个主库的情况（双主导入数据情况）。 jdbcUrl 的格式和ApsaraDB For OceanBase官方一致，并可连接附加参数信息。例如， `jdbc:oceanbase://127.0.0.1:3306/database` 。	是	无
username	数据源的用户名。	是	无
password	数据源指定用户名的密码。	是	无
table	需要同步写出的表名称，使用JSON的数组进行描述。	是	无
column	目标表需要写入数据的字段，字段之间用英文所逗号分隔。例如， `"column": ["id", "name", "age"]` 。	是	无
writeMode	控制写入数据至目标表使用的模式，包括 `insert into` 和 `ON DUPLICATE KEY UPDATE` 。	是	无
preSql	写入数据至目标表前，会先执行此处的标准语句。如果SQL中有需要操作的表名称，请使用 `@table` 表示，以便在实际执行SQL语句时，对变量按照实际表名称进行替换。	否	无
postSql	写入数据至目标表后，会执行此处的标准语句。	否	无
batchSize	一次性批量提交的记录数大小，该值可以极大减少数据同步系统与服务器端的网络交互次数，并提升整体吞吐量。	否	1,024

ApsaraDB For OceanBase数据源

支持的版本

离线读写

使用限制

离线读

离线写

实时读

数据同步前准备

准备工作1：配置白名单

准备工作2：创建账号并配置账号权限

创建数据源

数据同步任务开发

单表离线同步任务配置指导

整库实时同步任务配置指导

单表或整库全增量（实时）读同步配置指导

附录：脚本Demo与参数说明

离线任务脚本配置方式

Reader脚本Demo

Reader脚本参数

Writer脚本Demo

Writer脚本参数