百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

DuckDB技巧3(Tricks – Part 3)(duckdb安装)

lipiwang 2025-06-12 13:57 3 浏览 0 评论

在 DuckDB 技巧系列的第三篇中,我们继续分享实用的 SQL 功能和性能优化方法,助你更高效地处理数据表和大规模文件。

操作

SQL 指令示例

从表中排除某些列

EXCLUDE/COLUMNS(...)NOT SIMILAR TO

通过模式匹配重命名列

COLUMNS(...) AS ...

使用通配符批量加载文件

FROM '*.csv'

对 Parquet 文件重新排序

COPY (FROM ... ORDER BY ...) TO ...

启用 Hive 分区支持

hive_partitioning = true

这些小技巧可以帮助你更高效地使用 DuckDB。

数据集介绍

本次示例将使用荷兰铁路服务数据集的一个子集。这次我们选取了 2024 年 1 月至 10 月的 CSV 文件合集:https://blobs.duckdb.org/data/services-2024-01-to-10.zip

如果你想跟着示例操作,请先下载并解压该数据集,然后再继续阅读。

排除表中的列

首先,我们来看一下 CSV 文件中的数据。这里选取了八月份的 CSV 文件,并使用 DESCRIBE 语句进行查看。

接下来,我们使用 SUMMARIZE 来查看各列的一些统计信息。

使用 SUMMARIZE,我们可以获得数据的10项统计指标(如最小值、最大值、近似唯一值等)。如果想从结果中排除部分统计项,可以使用 EXCLUDE 修饰符。例如,要排除 minmax 以及分位数 q25q50q75,可以执行如下命令:

另外,我们也可以使用 COLUMNS 表达式配合 NOT SIMILAR TO 操作符,通过正则表达式来实现排除,语法如下:

使用模式匹配重命名列

检查列名后,我们发现它们的名称包含空格和分号(:)。这些特殊字符使得编写查询变得有些繁琐,因为它们需要用双引号括住列名。

让我们看看如何使用表达式重命名列COLUMNS。要替换特殊字符(最多 2 个),我们可以编写以下查询:

DESCRIBE在查询的开头添加,我们可以看到重命名的列:

使用 Glob 加载

现在我们可以简化列名,让我们将所有 10 个月的数据提取到一个表中:

在内部FROM子句中,我们使用*glob 语法匹配所有文件。DuckDB 会自动检测所有文件是否具有相同的架构,并将它们合并在一起。现在,我们得到了一张包含 1 月至 10 月所有数据的表,总计近 2000 万行。

重新排序 Parquet 文件

services此查询大约需要 14 秒。

运行时间约为180毫秒。

如果我们想使用外部二进制文件格式,我们还可以将表导出到单个 Parquet 文件:

然后我们可以直接按如下方式查询:

这种格式的运行时间约为 1秒 - 比 DuckDB 自己的文件格式稍慢,但比读取原始 CSV 文件快 14 倍。

如果我们事先了解查询过滤的字段,我们可以重新排序 Parquet 文件以提高查询性能。

如果我们再次运行查询,速度会明显加快。这要归功于部分读取,它使用区域图(最小-最大索引)来限制需要扫描的数据量。重新排序文件可以让 DuckDB 跳过更多数据,从而缩短查询时间。

Hive 分区

为了进一步加快查询速度,我们可以使用Hive 分区在磁盘上创建与查询中使用的过滤相匹配的目录布局。

目录结构如下:

我们现在可以通过传递标志对 Hive 分区数据集运行查询hive_partitioning = true

由于 DuckDB 可以使用目录结构进一步限制读取,此查询现在大约需要 0.5秒。Hive 分区的妙处在于它甚至可以处理 CSV 文件!

以下是不同格式在查询速度上的性能排序(从快到慢):

  1. Parquet(Hive 分区)
  2. DuckDB 文件格式
  3. Parquet(重新排序)
  4. Parquet(原始)
  5. CSV(Hive 分区)
  6. CSV(原始)


在 DuckDB 技巧系列第三篇中,我们介绍了表列排除、列重命名、批量加载文件、Parquet 文件排序优化和 Hive 分区等实用功能,并通过荷兰铁路数据集演示了查询性能的显著提升,帮助你更高效地处理大规模数据。

相关推荐

如何在 Linux 中压缩文件和目录?(linux压缩文件夹到指定目录)

在Linux系统中,文件和目录的压缩是一项常见且重要的操作。无论是为了节省存储空间、便于文件传输,还是进行备份管理,掌握压缩技术都能极大地提升工作效率。Linux中常用的压缩工具1.tar:打...

什么是LIM模具?与普通硅胶模具有何本质区别?

要深入理解LIM模具及其与普通硅胶模具的本质区别,需从成型逻辑、技术架构、应用价值三个层面拆解,以下是系统性解析:一、LIM模具:定义与核心技术1.定义LIM模具(LiquidInj...

前后端安全机制(前后端分离安全的token)

一、密钥安全管理方案1.动态密钥分发机制密钥与会话绑定后端为每个用户会话生成临时密钥(如AES-256密钥),通过HTTPS加密传输给前端,会话结束后自动失效。例如:javascript//...

Switch 2芯片细节曝光,英伟达专门定制支持DLSS,网友:掌机模式相当于PS4

Switch2处理器,细节被实锤!数毛社(DigitalFoundry)消息,已经确定Switch2采用的是英伟达真·定制版芯片,包含8核CPU和12GBLPDDR5X内存。GPU则基于Amp...

独立站的PageSpeed Insights 指标在seo中的作用?

这是一个非常关键的问题,关于独立站(如Shopify、WordPress、自建FastAPI/Vue等网站)的PageSpeedInsights指标(Google的网页性能评分工具)在...

前端工程化-webpack 分包的方式有哪些?

Webpack的分包(CodeSplitting)是优化应用性能的重要手段,主要通过合理拆分代码减少首次加载体积、提升缓存利用率。以下是常见的分包方式及生产/开发环境配置建议:一、Webpack...

液态硅胶(LSR)套啤注塑件的关键技术难点与解决方案?

液态硅胶(LSR)套啤注塑件(即二次注塑成型,一次成型基材+二次LSR包胶)在医疗、电子、汽车等领域应用广泛,但其关键技术难点需从材料、模具、工艺等多维度突破。以下是核心难点及解决方案:一、关...

spa首屏加载慢怎样解决(spa首屏优化)

SPA(SinglePageApplication,单页应用)首屏加载慢是一个常见问题,主要原因通常是首次加载需要拉取体积较大的JavaScript文件、样式表、初始化数据等。以下是一些常见的...

揭秘|为什么新华三(H3C)要自主研发运维管理软件?

1概述1.1产生背景随着互联网技术的快速发展,企业对计算、网络的需求也越来越大。为了保证整个数据系统可靠、稳定地运行,相关企业对运维系统的要求越来越高,运维成本也在随之逐步增加。H3C公司自主研发的运...

动态主机配置协议——DHCP详解(dhcp动态主机配置协议的功能是?)

一、DHCP简介DHCP(DynamicHostConfigurationProtocol),动态主机配置协议,是一个应用层协议。当我们将客户主机ip地址设置为动态获取方式时,DHCP服务器就会...

OGG同步到Kafka(oggforbigdata到kafka)

目的:测试使用OGG将数据单向同步到Kafka上。简要说明:Kafka使用单节点单Broker部署;单独部署简单ZooKeeper;需要使用到JAVA1.8;OGG需要2个版本,一个fororacl...

Zabbix入门操作指南(zabbix4.0使用手册)

上篇:安装与配置一.概述在开始之前,一些概念和定义需要我们提前了解一下(以下内容摘自官方网站)。1.1几个概念架构Zabbix由几个主要的功能组件组成,其职责如下所示。ServerZabbixs...

绝对干货!升级MySQL5.7到MySQL8.0的最佳实践分享

一、前言事出必有因,在这个月的某个项目中,我们面临了一项重要任务,即每年一次的等保测评整改。这次测评的重点是Mysql的一些高危漏洞,客户要求我们无论如何必须解决这些漏洞。尽管我们感到无奈,但为了满足...

pytorch v2.7.0震撼发布!Blackwell GPU支持+编译性能狂飙,AI开发

重点内容测试版(Beta):oTorch.Compile支持Torch函数模式oMega缓存原型(Prototype):o支持NVIDIABlackwell架构oPyTorch...

kubernetes1.31.3集群搭建(上)(kubectl连接集群)

1集群规划1.1物理机环境电脑操作系统CPU内存硬盘网卡IP地址(静态)虚拟机软件服务器操作系统联想Windows11Intel12900K24核128GB4TBPcIE4.0无线网卡192...

取消回复欢迎 发表评论: