首页

DuckDB技巧3(Tricks – Part 3)（duckdb安装）

lipiwang 2025-06-12 13:57 3 浏览 0 评论

在 DuckDB 技巧系列的第三篇中，我们继续分享实用的 SQL 功能和性能优化方法，助你更高效地处理数据表和大规模文件。

操作	SQL 指令示例
从表中排除某些列	EXCLUDE/COLUMNS(...)，NOT SIMILAR TO
通过模式匹配重命名列	COLUMNS(...) AS ...
使用通配符批量加载文件	FROM '*.csv'
对 Parquet 文件重新排序	COPY (FROM ... ORDER BY ...) TO ...
启用 Hive 分区支持	hive_partitioning = true

这些小技巧可以帮助你更高效地使用 DuckDB。

数据集介绍

本次示例将使用荷兰铁路服务数据集的一个子集。这次我们选取了 2024 年 1 月至 10 月的 CSV 文件合集：https://blobs.duckdb.org/data/services-2024-01-to-10.zip

如果你想跟着示例操作，请先下载并解压该数据集，然后再继续阅读。

排除表中的列

首先，我们来看一下 CSV 文件中的数据。这里选取了八月份的 CSV 文件，并使用 DESCRIBE 语句进行查看。

接下来，我们使用 SUMMARIZE 来查看各列的一些统计信息。

使用 SUMMARIZE，我们可以获得数据的10项统计指标（如最小值、最大值、近似唯一值等）。如果想从结果中排除部分统计项，可以使用 EXCLUDE 修饰符。例如，要排除 min、max 以及分位数 q25、q50、q75，可以执行如下命令：

另外，我们也可以使用 COLUMNS 表达式配合 NOT SIMILAR TO 操作符，通过正则表达式来实现排除，语法如下：

使用模式匹配重命名列

检查列名后，我们发现它们的名称包含空格和分号（:）。这些特殊字符使得编写查询变得有些繁琐，因为它们需要用双引号括住列名。

让我们看看如何使用表达式重命名列COLUMNS。要替换特殊字符（最多 2 个），我们可以编写以下查询：

DESCRIBE在查询的开头添加，我们可以看到重命名的列：

使用 Glob 加载

现在我们可以简化列名，让我们将所有 10 个月的数据提取到一个表中：

在内部FROM子句中，我们使用*glob 语法匹配所有文件。DuckDB 会自动检测所有文件是否具有相同的架构，并将它们合并在一起。现在，我们得到了一张包含 1 月至 10 月所有数据的表，总计近 2000 万行。

重新排序 Parquet 文件

services此查询大约需要 14 秒。

运行时间约为180毫秒。

如果我们想使用外部二进制文件格式，我们还可以将表导出到单个 Parquet 文件：

然后我们可以直接按如下方式查询：

这种格式的运行时间约为 1秒 - 比 DuckDB 自己的文件格式稍慢，但比读取原始 CSV 文件快 14 倍。

如果我们事先了解查询过滤的字段，我们可以重新排序 Parquet 文件以提高查询性能。

如果我们再次运行查询，速度会明显加快。这要归功于部分读取，它使用区域图（最小-最大索引）来限制需要扫描的数据量。重新排序文件可以让 DuckDB 跳过更多数据，从而缩短查询时间。

Hive 分区

为了进一步加快查询速度，我们可以使用Hive 分区在磁盘上创建与查询中使用的过滤相匹配的目录布局。

目录结构如下：

我们现在可以通过传递标志对 Hive 分区数据集运行查询hive_partitioning = true：

由于 DuckDB 可以使用目录结构进一步限制读取，此查询现在大约需要 0.5秒。Hive 分区的妙处在于它甚至可以处理 CSV 文件！

以下是不同格式在查询速度上的性能排序（从快到慢）：

Parquet（Hive 分区）
DuckDB 文件格式
Parquet（重新排序）
Parquet（原始）
CSV（Hive 分区）
CSV（原始）

在 DuckDB 技巧系列第三篇中，我们介绍了表列排除、列重命名、批量加载文件、Parquet 文件排序优化和 Hive 分区等实用功能，并通过荷兰铁路数据集演示了查询性能的显著提升，帮助你更高效地处理大规模数据。

正则表达式空格

上一篇：再杂也无惧在Excel高效提取数字（如何提取excel里面的数字）
下一篇：shell里那些让人眼花缭乱的括号（shell中大括号）

DuckDB技巧3(Tricks – Part 3)（duckdb安装）

数据集介绍

排除表中的列

使用模式匹配重命名列

使用 Glob 加载

重新排序 Parquet 文件

Hive 分区

相关推荐

取消回复欢迎你发表评论:

深圳尚学堂Java面试习题集(六)

MySQL 日期操作函数大全:解锁时间处理的奥秘

Android 工程师必知必会的“AOP知识”

SpringBoot-24-默认Json框架jackson详解

工作3年出去面试Java，被鄙视spring的接口有哪些都不清楚

互联网应用高并发中间件:RabbitMQ的安装和配置

SQLMAP注入参数-其他参数介绍 sqlmap怎么对一个注入点注入

魔兽世界:11.1 武器战大秘境攻略!天赋、手法、饰品、实用宏

JavaScript:如何优雅的创建数组?

JavaScript代码怎样引入到HTML中?

DuckDB技巧3(Tricks – Part 3)（duckdb安装）

数据集介绍

排除表中的列

使用模式匹配重命名列

使用 Glob 加载

重新排序 Parquet 文件

Hive 分区

微信扫一扫：分享

相关推荐

取消回复欢迎 你 发表评论:

深圳尚学堂Java面试习题集(六)

MySQL 日期操作函数大全:解锁时间处理的奥秘

Android 工程师必知必会的“AOP知识”

SpringBoot-24-默认Json框架jackson详解

工作3年出去面试Java，被鄙视spring的接口有哪些都不清楚

互联网应用高并发中间件:RabbitMQ的安装和配置

SQLMAP注入参数-其他参数介绍 sqlmap怎么对一个注入点注入

魔兽世界:11.1 武器战大秘境攻略!天赋、手法、饰品、实用宏

JavaScript:如何优雅的创建数组?

JavaScript代码怎样引入到HTML中?

取消回复欢迎你发表评论: