百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

释放NVMe闪存的性能 nvme闪存速度

lipiwang 2024-10-18 09:38 10 浏览 0 评论

释放NVMe闪存的性能--NVMe over Fabrics在Oracle RAC中的应用实测

一、概述

众所周知,Oracle RAC的架构是Share Disk,共享存储的性能对系统整体表现来说至关重要,而共享存储系统性能又受多方面因素影响,其中比较重要的一点就是存储网络性能。在应用闪存的场景下,如果存储网络性能不足,再好的闪存也发挥不出威力,用一位客户的话说就是“茶壶煮饺子,有货倒不出。“,而存储网络的性能也不只是取决于硬件条件,还会受协议的影响。

我们通过实测来比较一下不同协议在Oracle数据库系统中的性能表现,本次比较的协议是NVMe over Fabrics和iSER。两种协议测试中用到服务器和网络硬件、OS、数据库软件完全一样,区别只在协议相关的软件和配置,看看结果有什么不同。

NVMe over Fabrics(简称NVMoF)是一种新的存储访问协议,相关的技术细节可以参阅:http://www.nvmexpress.org/wp-content/uploads/NVMe_Over_Fabrics.pdf。

而iSER,可以理解为iSCSI+RDMA,也是一种高速存储访问协议,具体的介绍可以参阅https://en.wikipedia.org/wiki/ISCSI_Extensions_for_RDMA。

NVMeoF和iSER都是需要RDMA支持的,RDMA(远程内存直接访问)可以通过NIC直接访问远端主机而不需要本地的CPU参与,是实现高带宽、低延时网络的关键技术。

从理论上讲,虽然这次比较的两种协议都使用了RDMA技术,但是显然NVMeoF比iSER更适合使用NVMe闪存的场景,2016年某闪存厂商使用fio测试结果,NVMeoF协议在访问远端NVMe闪存时,可以达到和本地访问一样的速度,显然iSER做不到这一点。和闪存厂商的测试不同,我们这次主要感兴趣的是在Oracle RAC系统中,两种协议的表现。

二、测试环境

能使用的资源有限,服务器只有3台,配置不高,好在主要看对比值。

项目项目值备注
服务器CPU:E5-2620 v3*1内存:32G3台
NICMellanox ConnectX-3 VPI 双口卡使用以太模式,带宽为40Gb,一个端口连存储,一个端口用来做“心跳”
OSRedHat Enterprise Linux 7.2
Oracle数据库12.1.0.2 RAC
OFEDMellanox OFED 3.4.2
iSER TargetSCST 3.2
NVMeoF TargetLinux 内核自带Linux 4.8.17
NVMe闪存卡Intel P750 1.2T2块

测试环境架构图:

三、环境搭建及测试

过程主要是以下几步:

1.安装OS,OFED(Mellanox OFED可选,也可以使用RHEL自带的驱动及工具,Mellanox的OFED安装后会自动配置启用RDMA),过程略。安装后配置如下:

主机名管理IP地址存储链路IP备注
“el72h1”192.168.0.1710.10.10.17计算节点1
“el72h2”192.168.0.1810.10.10.18计算节点2
“el72h3”192.168.0.1910.10.10.19存储节点

两个计算节点的/etc/hosts文件内容:

# Public Network

192.168.0.17 el72h1.hthorizon.com el72h1

192.168.0.18 el72h2.hthorizon.com el72h2

# Private Interconnect

10.1.1.1 el72h1-priv.hthorizon.com el72h1-priv

10.1.1.2 el72h2-priv.hthorizon.com el72h2-priv

# Public Virtual IP (VIP) addresses

192.168.0.27 el72h1-vip.hthorizon.com el72h1-vip

192.168.0.28 el72h2-vip.hthorizon.com el72h2-vip

# Single Client Access Name (SCAN)

192.168.0.29 rac-cluster-scan.hthorizon.com rac-cluster-scan

2.编译新内核:目前RHEL 7.2 的内核是3.10,而NVMe over Fabrics在Linux 4.8以上的内核中才有。Target端可以用Intel SPDK提供的Target程序代替,这样Target端不必升级Linux Kernel 到4.8以上,但是host(initiator)端目前好像只能用Linux 4.8以上内核才行。(如果谁知道还有别的选择,请一定告诉我)这个编译内核的步骤就不详细写了,网上都有教程。

3.在3台机器的其中一台(el72h3)上安装SCST 3.2,安装iSCSI-SCST,过程略过,先用在这台机器上建3个10G大小的文件,

# fallocate –l 10g /home/disk01

然后用fileio的handler创建3个虚拟盘,用来存放OCR和Voting Disk,这样就可以把RAC先装起来。

SCST配置文件内容:

HANDLER vdisk_fileio {

DEVICE file1 {

filename /home/disk01

nv_cache 1

}

DEVICE file2 {

filename /home/disk02

nv_cache 1

}

DEVICE file3 {

filename /home/disk03

nv_cache 1

}

}

TARGET_DRIVER iscsi {

enabled 1

TARGET iqn.2017-10.tgt1 {

allowed_portal 10.10.10.19

QueuedCommands 128

LUN 0 file1

LUN 1 file2

LUN 2 file3

enabled 1

}

}

4.安装RAC过程省略,存放OCR设备的DG是DATA。

5.在el72h3配置NVMeoF Target,过程省略。如果用Linux内中中的nvmet,配置信息保存成json格式文件,内容如下:

{

"hosts": [],

"ports": [

{

"addr": {

"adrfam": "ipv4",

"traddr": "10.10.10.19",

"treq": "not specified",

"trsvcid": "4420",

"trtype": "rdma"

},

"portid": 1,

"referrals": [],

"subsystems": [

"nvmet2",

"nvmet1"

]

}

],

"subsystems": [

{

"allowed_hosts": [],

"attr": {

"allow_any_host": "1"

},

"namespaces": [

{

"device": {

"nguid": "00000000-0000-0000-0000-000000000102",

"path": "/dev/nvme0n1"

},

"enable": 1,

"nsid": 1

}

],

"nqn": "nvmet2"

},

{

"allowed_hosts": [],

"attr": {

"allow_any_host": "1"

},

"namespaces": [

{

"device": {

"nguid": "00000000-0000-0000-0000-000000000101",

"path": "/dev/nvme1n1"

},

"enable": 1,

"nsid": 1

}

],

"nqn": "nvmet1"

}

]

}

如果使用intel SPDK,nvmf.conf文件内容如下:

[Global]

ReactorMask 0xffffffff

[Nvmf]

MaxQueuesPerSession 256

MaxQueueDepth 512

InCapsuleDataSize 4096

[Subsystem1]

NQN nqn.2016-06.io.spdk:cnode1

Core 3

Mode Direct

Listen RDMA 10.10.10.19:4420

NVMe 0000:10:00.0

[Subsystem2]

NQN nqn.2016-06.io.spdk:cnode2

Core 5

Mode Direct

Listen RDMA 10.10.10.19:4420

NVMe 0000:06:00.0

(安装配置SPDK的方法详见www.spdk.io)

6.Host(initiator)端连接 Target端,为了操作方便,可以先安装nvmecli,这是个开源软件,下载后编译安装。

搜索Target端:

# nvme discover –t rdma –a 10.10.10.19 –s 4420

Discovery Log Number of Records 2, Generation counter 10

=====Discovery Log Entry 0======

trtype: rdma

adrfam: ipv4

subtype: nvme subsystem

treq: not specified

portid: 1

trsvcid: 4420

subnqn: nvmet2

traddr: 10.10.10.19

rdma_prtype: unrecognized

rdma_qptype: unrecognized

rdma_cms: unrecognized

rdma_pkey: 0x0000

=====Discovery Log Entry 1======

trtype: rdma

adrfam: ipv4

subtype: nvme subsystem

treq: not specified

portid: 1

trsvcid: 4420

subnqn: nvmet1

traddr: 10.10.10.19

rdma_prtype: unrecognized

rdma_qptype: unrecognized

rdma_cms: unrecognized

rdma_pkey: 0x0000

连接Target:

[root@el72h1 disks]# nvme connect -t rdma -a 10.10.10.19 -s 4420 -n nvmet1

[root@el72h1 disks]# nvme connect -t rdma -a 10.10.10.19 -s 4420 -n nvmet2

[root@el72h1 disks]# nvme list

Node SN Model Namespace Usage Format FW Rev

---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------

/dev/nvme0n1 f1bb7eb3dcfdb716 Linux 1 1.20 TB / 1.20 TB 512 B + 0 B 4.8.17

/dev/nvme1n1 c57e3999e0865988 Linux 1 1.20 TB / 1.20 TB 512 B + 0 B 4.8.17

远程的NVMe设备Model是“Linux”,而FW Rev直接就是Linux的内核版本。

如果Target端用的是SPDK,使用 ”nvme list” NVMe设备信息如下,和本地查看得到的信息一样:

[root@el72h3 ~]# nvme list

Node SN Model Namespace Usage Format FW Rev

---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------

/dev/nvme0n1 CVCQ514600BF1P2BGN INTEL SSDPEDMW012T4 1 1.20 TB / 1.20 TB 512 B + 0 B 8EV10135

/dev/nvme1n1 CVCQ5146005Q1P2BGN INTEL SSDPEDMW012T4 1 1.20 TB / 1.20 TB 512 B + 0 B 8EV10135

7.使用FIO测试。(NVMeoF)

# fio --rw=randread --bs=8k --numjobs=4 --iodepth=128 --runtime=60 --ioengine=libaio --direct=1 --time_based --name task1 --filename=/dev/nvme0n1

# fio --rw=randwrite --bs=8k --numjobs=4 --iodepth=128 --runtime=30 --ioengine=libaio --direct=1 --time_based --name task1 --filename=/dev/nvme0n1

8.使用ASMCA创建磁盘组NVME,外部冗余,使用两个PCI SSD。

9.使用DBMS_RESOURCE_MANAGER.CALIBRATE_IO测试(NVMeoF)

10.Drop DG NVME (后面的iSER的fio测试会损坏磁盘组,磁盘组删不删都一样需要重建)

11.在el72h3使用iSCSI-SCST配置iSCSI Target(因为启用了RDMA,系统会使用isert)

12.两个计算节点连接iSCSI target,initiator使用的是RHEL7.2自带的initiator工具

13.使用FIO测试。(iSER)fio命令行参数和NVMeoF一样,只是filename不同,iSER会生成SCSI设备,/dev/sd[X],而NVMeoF不会生成SCSI设备,而是直接生成NVMe块设备 /dev/nvme[X]n[X]。

14.使用ASMCA创建磁盘组DATA1,外部冗余,使用两个PCI SSD。

15.使用DBMS_RESOURCE_MANAGER.CALIBRATE_IO测试(iSER)

四、测试结果

测试主要采用Oracle数据库中的DBMS_RESOURCE_MANAGER.CALIBRATE_IO工具,测试在不同情况下的跑分,以及FIO的IO跑分。测试多次,最后结果为平均值。

DBMS_RESOURCE_MANAGER.CALIBRATE_IO 测试 IOPS:

DBMS_RESOURCE_MANAGER.CALIBRATE_IO 测试 MAX_MBPS:

FIO测试结果(8K块,详细命令行见前文):

从测试结果看,NVMeoF的性能的确可以说是和本地访问一样,但是,如果NVMe设备多的话,会达到网络带宽上限,比如数据库内的DBMS_RESOURCE_MANAGER.CALIBRATE_IO测试,是使用2块NVMe 闪存,理论吞吐量应该还要大,4.2G的max_mbps 应该是达到存储端40GbE链路的带宽上限了。

五、感想及后续

  • 从测试结果看,NVMe over Fabrics的确不错,我认为会有越来越多的解决方案应用这项技术,包括基于分布式存储的Oracle数据库系统。但是,要想在生产环境中应用这项技术,个人认为还有很长的路要走,还有很多问题要解决。比如:对linux内核版本要求太高,Oracle的某些功能在这样的内核版本下是不被支持的,比如ACFS。

  • 在做数据库测试时,SPDK nvmf Target和Linux Kernel的 nvmet Target跑分基本没区别,但是在做fio测试时,延时情况SPDK要明显优于Linux Kernel,接近本地fio的指标。另外,从Target端CPU上占用上看,两者也有明显不同,Linux Kernel nvmet Target最高时是~80% sys,idle 15~20%,而SPDK这边最高时是~50% user,idle 45~50%。从理论上讲,SPDK是优于Linux Kernel的,从fio测试结果也证明了这一点,在我这种配置低,闪存少的测试中,两者差别不大,可能需要在更大规模的测试中,SPDK的优势才能体现得更明显。

  • Swingbench或SLOB测试对系统CPU资源有一定要求,测试设备配置太低,这次没有测。

  • 本次测试没有启用jumbo frames,启用以后性能还能好些。后续有时间会做这个测试。

  • 如果有时间,还想对比测试一下SRP和NVMeoF。

相关推荐

一个简单便捷搭建个人知识库的开源项目(MDwiki)

这里我通过自动翻译软件,搬运总结MDwiki官网的部署和使用方法。第一步:下载编译好的后MDwiki文件,只有一个HTML文件“mdwiki.html”。第二步:在mdwiki.html同级目录创建“...

强大、简洁、快速、持续更新 PandaWiki新一代 AI 驱动的开源知识库

PandaWiki是什么PandaWiki是一款AI大模型驱动的开源知识库搭建系统,帮助你快速构建智能化的产品文档、技术文档、FAQ、博客系统,借助大模型的力量为你提供AI创作、AI问答...

DeepWiki-Open: 开源版Deepwiki,可自己构建github文档库

Deepwiki是Devin团队开发的github文档库,用户能免费使用,但代码不是开源,而DeepWiki-Open侧是开源版本的实现。DeepWiki-Open旨在为GitHub和GitLa...

最近爆火的wiki知识管理开源项目PandaWiki

项目介绍PandaWiki是一款AI大模型驱动的开源知识库搭建系统,帮助你快速构建智能化的产品文档、技术文档、FAQ、博客系统,借助大模型的力量为你提供AI创作、AI问答、AI搜索等...

轻量级开源wiki系统介绍(轻量开源论坛系统)

wiki系统有很多DokuWiki、MediaWiki、MinDoc等等都是开源的wiki系统。商业版的wiki,像很多企业在用的confluence等。今天我们讲的是一款轻量级且开源的文档管理系统:...

DNS解析错误要怎么处理(dns解析状态异常怎么办)

在互联网时代,网络已经成为人们生活和工作中不可或缺的一部分。然而,当遇到DNS解析错误时,原本畅通无阻的网络访问会突然陷入困境,让人感到十分困扰。DNS,即域名系统,它如同互联网的电话簿,将人们易于...

网页加载慢?这些方法让你秒开网页!

打开浏览器,信心满满地准备查资料、看视频或者追剧,却发现网页怎么都打不开!是不是瞬间感觉手足无措?别慌,这个问题其实挺常见,而且解决起来并没有你想象的那么复杂。今天就来聊聊网页打不开究竟是怎么回事,以...

windows11 常用CMD命令大全(windows11msdn)

Windows11中的命令提示符(CMD)是一个强大的工具,可以通过命令行执行各种系统操作和管理任务。以下是一些常用的CMD命令,按功能分类整理,供你参考:一、系统信息与状态systeminfo显...

电脑提示DNS服务器未响应怎么解决?

我们在使用电脑的时候经常会遇到各种各样的网络问题,例如最近就有Win11电脑用户在使用的时候遇到了DNS未响应的问题,遇到这种情况我们应该怎么解决呢?  方法一:刷新DNS缓存  1、打开运行(W...

宽带拨号错误 651 全解析:故障定位与修复方案

在使用PPPoE拨号连接互联网时,错误651提示「调制解调器或其他连接设备报告错误」,通常表明从用户终端到运营商机房的链路中存在异常。以下从硬件、系统、网络三层维度展开排查:一、故障成因分类图...

如何正确清除 DNS 缓存吗?(解决你访问延时 )

DNS缓存是一个临时数据库,用于存储有关以前的DNS查找的信息。换句话说,每当你访问网站时,你的操作系统和网络浏览器都会保留该域和相应IP地址的记录。这消除了对远程DNS服务器重复查询的...

网络配置命令:ipconfig和ifconfig,两者有啥区别?

在计算机网络的世界里,网络接口就像是连接你电脑和外部网络的桥梁,而网络配置则是确保这座桥梁稳固、通信顺畅的关键。提到网络配置工具,ipconfig和ifconfig绝对是两个绕不开的名字。它们一...

救急的命令 你会几个?(救急一下)

很多人都说小编是注册表狂魔,其实不完全是,小编常用的命令行才是重点。其实所谓的命令行都是当初DOS时代的标准操作方式,随着Windows不断演化,DOS的命令早已成为Windows的一部分了——开始菜...

电脑有网却访问不了GitHub原来是这样

当满心欢喜打开电脑,准备在GitHub这个“开源宝藏库”里挖掘点超酷的项目,却遭遇了网页无法访问的尴尬。看着屏幕上那令人无奈的提示,原本高涨的热情瞬间被泼了一盆冷水,是不是感觉世界都不美好了...

rockstargames更新慢| r星更新速度 怎么办 解决办法

rockstargames更新慢|r星更新速度怎么办解决办法说到RockstarGames,那可是游戏界的大佬,作品个顶个的经典。但话说回来,每当新内容更新时,那蜗牛般的下载速度,真是让人急得...

取消回复欢迎 发表评论: