百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL

lipiwang 2025-03-26 13:51 10 浏览 0 评论

阿里云AnalyticDB for PostgreSQL(以下简称 ADB PG,即原HybridDB for PostgreSQL)为基于PostgreSQL内核的MPP架构的实时数据仓库服务,可以支持复杂ETL任务,也支持高性能在线查询,同阿里云生态紧密结合。AWS 的Redshift同样为基于PostgreSQL内核引擎的MPP数据仓库服务器,在AWS被广泛作为数据仓库使用。ADB PG和Redshift从架构到语法上同Redshift高度兼容。本文重点介绍两个数仓平台如何进行迁移。

产品架构比较

阿里云AnalyticDB for PostgreSQL最新版本 6.0 基于PostgreSQL 9.4构建,Redshift 基于PostgreSQL 8.2版本,相对ADB PG的功能要更加全面,且全面兼容PostgreSQL生态的工具,包括PostGIS,MADlib等扩展分析。Redshift 只支持列存表,而不支持PostgreSQL原生的行存表,而ADB PG即保留了PostgreSQL行存表支持,实现高吞吐的数据更新操作,也支持面向OLAP大表聚合操作的列存表。

AnalyticDB for PG 与 Redshift的比较

功能项目ADB PGRedshiftPostgreSQL版本PG 9.4PG 8.2SQL语法兼容PG,部分兼容Oracle语法兼容PG事务支持支持行存储支持不支持列存储支持支持表分区支持支持云存储支持OSS数据在线访问支持S3数据在线访问多模分析PostGIS/MADLib/向量检索

关键语法比较及迁移

阿里云AnalyticDB for PostgreSQL与AWS Redshift都基于单机PostgreSQL内核引擎,故语法高度兼容,部分语法描述略有差异如下。

DDL建表语法差异

语法RedshiftADB PG表Hash分布DISTKEY(col)DISTRIBUTED BY(col)表随机分布DISTSTYLE EVENDISTRIBUTED RANDOMLY表复制分布DISTSTYLE ALLDISTRIBUTED REPLICATED数据编码压缩
AZ64/BYTEDICT/DELTA/LZO/RAW/RUNLENGTH/ZSTD(COMPRESSTYPE={
ZStD/ZLIB/QUICKLZ/RLE_TYPE/NONE})列存排序键SORTKEY (col)with(APPENDONLY=true,ORIENTATION=column)sortkey (volume)系统函数PG8.2及部分自定义函数PG9.4及部分自定义函数

语法指南

ADB PG建表指南
Redshift建表指南

DDL转换示例1

Redshift 建表语句,包含分布键DISTKEY和排序列:

CREATE TABLE schema1.table1(
    filed1 VARCHAR(100) ENCODE lzo,
    filed2 INTEGER DISTKEY,
    filed3 INTEGER,
    filed4 BIGINT ENCODE lzo,
    filed5 INTEGER,)
INTERLEAVED SORTKEY (
    filed1,
    filed2);

ADB PG建表语句:

CREATE TABLE schema1.table1
(
    filed1 VARCHAR(100) ,
    filed3 INTEGER,
    filed5 INTEGER
)
WITH(APPENDONLY=true,ORIENTATION=column,COMPRESSTYPE=zlib)
DISTRIBUTED BY (filed2)
SORTKEY
(
    filed1,
    filed2
)
            

DDL转换示例2

Redshift 建表语句,包含ENCODE和SORTKEY选项:

CREATE TABLE schema2.table2
(
    filed1 VARCHAR(50) ENCODE lzo,
    filed2 VARCHAR(50) ENCODE lzo,
    filed3 VARCHAR(20) ENCODE lzo,
)
DISTSTYLE EVEN
INTERLEAVED SORTKEY
(
    filed1
);

ADB PG建表语句:

CREATE TABLE schema2.table2(
    filed1 VARCHAR(50),
    filed2 VARCHAR(50),
    filed3 VARCHAR(20))
WITH(APPENDONLY=true, ORIENTATION=column, COMPRESSTYPE=zlib)
DISTRIBUTED randomly
SORTKEY
(
    filed1
);        

数据迁移

Redshift和ADB PG均支持从云存储的告诉并行数据导入和导出。从Redshift迁移数据到AnalyticDB for PostgreSQL包含如下步骤:

  1. 资源和环境准备,执行操作前需提前准备Amazon Redshift、Amazon S3(Amazon Simple Storage Service)、AnalyticDB for PostgreSQL和阿里云对象存储服务(OSS)的相关资源。
  2. 将Redshift的数据导入到Amazon S3中。
  3. 使用OSSImport将Amazon S3中CSV格式的数据文件导入到OSS。
  4. 在目标AnalyticDB for PostgreSQL中创建和源Redshift对应的对象,包括模式(Schema)、表(Table)、视图(View)和函数(Function)。
  5. 使用OSS外部表将数据导入到AnalyticDB for PostgreSQL。

整体迁移路径如下:

作者:陆封

本文为阿里云原创内容,未经允许不得转载。

相关推荐

小程序-如何获取用户表单控件中的值

背景在小程序开发中,经常有用到表单,我们往往需要在小程序端获取用户表单输入框中的值(通常用户输入的有:switch,input,checkbox,slider,radio,picker)等,通过触发事...

Js基础7:表单元素属性

一、封装获取元素的方法封装思想——函数封装——代码复用 function get_id(id){    //这个函数是专门来通过id获...

泰媒:到泰国曼谷旅游,注意别被嘟嘟车司机坑!

据泰国《世界日报》微信公众号报道,近日,一名导游投诉称,3名外籍游客在泰国曼谷搭载嘟嘟车时,被嘟嘟车司机坑。该导游认为嘟嘟车司机坑害外国游客的行为,破坏泰国的旅游形象,希望能以此为戒。当地时间25日上...

快速了解JavaScript的表单操作

前言在HTML中使用<form>表单元素在JavaScript中对应的是HTMLFormElement类型,而HTMLFormElement继承了HTMLElement接口...

10《Vue 入门教程》Vue 双向绑定指令

1.前言本小节我们将介绍Vue中数据的双向绑定指令v-model。v-model的学习相对简单。我们可以用v-model指令在表单<input>、<textarea&...

手把手教你搭建消防安全答题小程序-实现答题及提交答卷到数据库

手把手教你搭建答题活动小程序系列,第一阶段为界面设计篇,分别描写了如何搭建答题小程序界面。第二阶段为功能交互篇。而上两篇文章分别描写了,如何用云开发实现查询题库功能,以及将获取到的题目数据动态更新到答...

你还在使用Guava的Lists.newArrayList()吗

Guava说起Guava,做Java开发的应该没人不知道吧,毕竟“google出品,必属精品”。虽然应该没有Spring那样让Javaer无法避开,但是其中很多工具类的封装还是让人欲罢不能。而我们今天...

Mybatis参数传递

1.概述Mybatis的sql参数传递就是将接口方法中定义的参数传输到sql中。sql有两种形式,一种是XML格式(Mapper映射器)中的sql;一种是注解方式的sql。常用参数的类型主要包括:基...

python中的map和filter避坑指南

Pythonic的方式使用map和filter列表迭代在python中是非常pythonic的使用方式definc(x):returnx+1>>>list(map...

2025 年 Object 和 Map 如何选择?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力。1.什么是...

如何使用Java读取Excel文件到List&gt;格式

引言在开发过程中,我们经常会遇到需要读取Excel文件并将数据转换成Java对象的需求。ApachePOI是一个强大的库,它提供了读取和写入MicrosoftOffice格式文件的功能,包括Exc...

Nginx L4 stream Solution white list map

nginx正向透明代理nginx正向透明代理安全方面的一些限制对于代理而已,有时候可能还不够安全,而且这个是基于4层的,所以想要在http上,或者所谓的http头上做限制还是比较难实现了。所以变...

Java响应式编程 第五篇 flatMap vs map

1作用不同1.2映射?展平?map只执行映射flatMap既执行映射,也执行展平什么叫只能执行映射?我理解是把一个数据执行一个方法,转换成另外一个数据。举个例子:mapper函数把输入的字符...

Java对象拷贝原理剖析及最佳实践

作者:宁海翔1前言对象拷贝,是我们在开发过程中,绕不开的过程,既存在于Po、Dto、Do、Vo各个表现层数据的转换,也存在于系统交互如序列化、反序列化。Java对象拷贝分为深拷贝和浅拷贝,目前常用的...

mybatis手把手教学,希望大家能拿下它

目录1.jdbc封装中的问题12.mybatis介绍43.框架搭建41)导包52)配置文件6配置dtd约束73)创建SqlSessionFactory对象94.入门案例91.部门实体...

取消回复欢迎 发表评论: