百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

使用COPY命令在Vertica中加载数据

lipiwang 2024-10-15 18:40 10 浏览 0 评论

使用COPY语句批量加载

COPY语句是将大量数据加载到Vertica数据库中的最有效方式。您可以使用COPY命令将一个或多个文件复制到群集主机上。对于批量加载,最有用的COPY命令是:

  • COPY LOCAL:将数据文件或所有指定的文件从本地客户端系统加载到服务器处理文件的Vertica主机。

  • 在Vertica群集中COPY源数据:将数据文件或来自不同来源的所有指定文件(如JSON和CSV)加载到Vertica群集中的Vertica内部格式。

  • 使用自定义源,过滤器或解析器的用户定义加载(UDL)功能COPY:通过控制数据加载设置从定制的用户定义的源,解析器和过滤器加载数据文件或指定的文件。

所有类型的COPY语句共享相同的方法和过程,但它们都有不同的限制。无论差异如何,COPY声明总是有两个阶段:

  • 第一阶段(启动器)加载和解析文件并将文件分发到其他节点。

  • 第二阶段(执行者)处理所有节点上的数据。

通过COPY,您可以使用许多执行引擎操作符进行批量加载。一些用于加载一个或多个文件的执行引擎操作符是加载,解析,加载联合,段,排序/合并和Data Target。

如果目标表被分段,则COPY语句为每个Projection创建段。分段定义了数据如何在集群节点之间传播以用于查询性能和快速数据清除。

COPY语句如何加载数据

加载一个或多个文件的COPY语句工作流分为两个阶段:

  • 第一阶段

1.负载运算符将源文件加载到数据库中。 Parse操作符解析数据库中加载的数据。

2.在分组数据之前,Load Union运算符将解析的数据合并到一个容器中。Operator在加载多个文件时处于活动状态,加载一个文件时无效。

3. Segment operator根据数据的大小将解析的数据分成一个或多个Projection。另外,表分区会隔离每个节点上的数据,以便在多个数据库节点间均匀分布数据。这样做确保所有节点都参与执行查询。

  • 第二阶段

1. 排序运算符对分段数据和Projection进行排序。合并运算符适当地合并排序数据。排序和合并运算符用于聚合数据。

2. Data Target操作员复制磁盘上的数据。

下图显示了两个阶段加载一个或多个文件的工作负载。浅蓝色和深蓝色框代表执行引擎操作员。

在具有分摊负载特性的Vertica 8.0中,如果所有节点都可以访问源数据,则在几个节点上发生阶段I。分摊负载是可分割的负载,因此您可以在多个节点上加载单个数据文件。如果源在多个节点上可用并且可以分割,内置的分隔符可以自动分配负载。如果分配的负载不可用,则阶段I仅在读取文件的节点上发生。

阶段II使用额外的执行引擎操作员预先连接预测和Live Aggregate 预测。下图pre-join Projection显示维度表的附加执行引擎操作符JOIN和SCAN。下图显示了其他GROUP BY / Top-K执行引擎运算符。

Pre-join Projection为维度表添加了额外的执行引擎运算符JOIN和SCAN。

实时聚合预测添加GROUP BY / Top-K执行引擎运算符。

负载方式

根据要加载的数据,COPY语句具有多种加载方法。您可以从三种加载方式中选择:

  • COPY AUTO

  • COPY DIRECT

  • COPY TRICKLE

何时使用COPY AUTO

COPY使用AUTO方法将数据加载到Vertica WOS中。对于较小的批量装载,请使用此默认的自动加载方法; 当您无法确定文件的大小时,AUTO选项最为有用。一旦WOS已满,COPY将继续直接加载到磁盘上的ROS容器。对ROS数据进行排序和编码。

何时使用COPY DIRECT

COPY使用DIRECT方法将数据直接加载到ROS容器中。对于大批量负载(100 MB或更多),请使用DIRECT加载方法。 DIRECT方法通过避免WOS并将数据加载到ROS容器中来提高大文件的性能。使用DIRECT加载许多较小的数据集会导致许多ROS容器,这些容器必须稍后组合。

何时使用COPY TRICKLE

COPY使用TRICKLE方法将数据直接加载到WOS中。 完成初始批量加载后,使用TRICKLE加载方法递增地加载数据。 如果WOS已满,则会发生错误,并回滚整个数据加载。 只有在您的站点上进行了精细调整的负载和移出过程时,才能使用此方法,并且您确信WOS可以保存正在加载的数据。 当将数据加载到分区表中时,此选项比AUTO更有效。

相关推荐

软件测试|MySQL CROSS JOIN:交叉连接的详细解析

简介在MySQL数据库中,CROSSJOIN是一种用于生成两个或多个表的笛卡尔积的连接方法。CROSSJOIN不需要任何连接条件,它将左表的每一行与右表的每一行进行组合,从而生成一个包含所...

「MySQL笔记」left join-on-and 与 left join-on-where 的区别

1.摘要关于这两种写法的重要知识点摘要如下:left-join时,即使有相同的查询条件,二者的查询结果集也不同,原因是优先级导致的,on的优先级比where高on-and是进行韦恩运算连接...

MySQL中的JOIN——联合查询的基本语法

MySQL中的JOIN指令用来将两个或多个表中的数据进行联合查询,根据连接条件来匹配记录,从而得到需要的结果集。在MySQL中,常见的JOIN类型包括INNERJOIN、LEFTJOIN和RIGH...

MySQL 中的 CROSS JOIN:强大的连接工具

CROSSJOIN在MySQL里是一种挺特别的连接操作,它能弄出连接表的笛卡尔积。这就是说,要是表A有m行,表B有n行,那ACROSSJOINB的结果就会有m*n...

大厂必问:MySQL 三表 JOIN 操作的解析与性能优化,效率又如何?

大厂必问:MySQL三表JOIN操作的解析与性能优化策略,效率又如何?点击关注,开启技术之旅!大家好,这里是互联网技术学堂,无论你是一名程序员、设计师、还是对技术充满好奇心的普通人,都欢迎你加入...

面试题:MySQL 的 JOIN 查询优化(mysql查询优化方法)

MySQL的JOIN查询优化是提升数据库性能的关键环节。以下是综合多个技术文档的核心优化策略,按优先级和实现难度分类:一、索引优化:性能提升的基础为连接字段建立索引确保参与JOIN的列(通常...

Flink中处理维表关联技术实现路径

在Flink中处理维表关联大体氛围TableSQLLookupJoin和DataStream算子函数,主要技术实现路径:I.FlinkSQL/TableAPI中的Lookup...

深入剖析Zookeeper原理(一)整体设计

1.ZK集群架构设计与特性1.ZK集群架构设计:ZK主要分为三种角色:Leader(领导者):一个Zookeeper集群同一时间只会有一个实际工作的Leader,它会发起并维护与各Follwer及...

多种负载均衡算法及其Java代码实现

首先给大家介绍下什么是负载均衡负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。负载均衡,英...

一分钟了解SpringCloud中的ribbon到底是什么,原理是啥?

1.概念ribbon是一款客户端负载均衡器,用于微服务之间的负载均衡。首先,什么是客户端负载均衡?如图,ribbon可以通过注册中心获取服务列表,然后自己执行自己的负载均衡策略来决定要访问哪个微服务,...

Step by Step之腾讯云短信-验证码实践

在商城小程序和前端上线用了一阵子之后,用户提出了体验提升的需求,如忘记密码、绑定用户、快捷注册等,作为业界最佳实践的短信验证码登录、重置密码和注册等功能开发也就提上日程了,本文就以重置密码为例,将验证...

10分钟入门响应式:Springboot整合kafka实现reactive

Springboot引入Reactor已经有一段时间了,笔者潜伏在各种技术群里暗中观察发现,好像scala圈子的同仁们,似乎对响应式更热衷一点。也许是因为他们对fp理解的更深吧,所以领悟起来障碍性更少...

使用java随机生成有个性的用户名,LOL地名+水浒传,合计2808个

*随机生成用户名*取水浒传108好汉名字*取LOL地名26个,组合而成*一共可以生成2808个不同特色的用户名如果你在上网的时候,用户名难取的话,这里有很多可选择的用户名,现提供100个...

深入理解Math.random()的概率分布特性

直接上源码/***Returnsa{@codedouble}valuewithapositivesign,*返回一个带符号的double类型的数字,说人话就是返回一个非负...

编程英文 - 创建/生成/构建 (create/generate/build)

在软件开发中,create、generate和build这三个词经常被用到,它们都与"创造"或"产生"某些东西有关,但在具体使用场景和含义上有所不同。基本含义creat...

取消回复欢迎 发表评论: