本文作者:sukai

云计算网络技术实训报告(云计算实验总结)

sukai 04-07 128

  快网CloudXNS授权转发简述

  有幸全程参与了基于DPDK[^1]下一代高性能CloudXNS[^2]服务器开发,从未知到慢慢熟悉,其中也走了些弯路也踩过一些坑,一路走来有些感受与心得体会,在此进行梳理下,以对这一阶段做下些小的总结,也可以与同僚们进行交流学**。

  背景

  上一代XNS服务器是基于Linux内核进行开发,单机性能达到数百万级别QPS[^3],相对于BIND[^4]来说已经高了很多,平常处理正常毫无压力,但在受大量DDOS攻击时服务质量**降低,虽然我们采用了远端清洗与近地防御的安措施,与受攻击时调度其他应急服务器来抗,但增加了服务器与人工干预成本。为了更好的抗DDOS攻击与服务更多的用户,需求单机处理千万级别的替代方案呼之欲出。

  目标设定

单机处理能力千万级别。

性能,性能,性能。(重要的事重复三遍)

稳定压倒一切。(此话不是我说的)

社区活跃,已有商用案例。

需求调研

  按照上述的目标设定需求,要达到单机处理千万级别的只能采用轮询而非中断方式,在市面上的可实现技术方案有DPDK/pf_ring/netmap等。

  其中DPDK为Intel公司主推,并有BAT之类的大型公司进行商用,而且也比较适合处理UDP类型协议。经过权衡之下,我们决定采用DPDK进行下一代XNS的替代方案。

  优点

云计算网络技术实训报告(云计算实验总结)

性能高

用户态开发

死后易重启

缺点

无网络协议栈

开发困难,周期长

参考资料相对还匮乏

DPDK核心思想组织结构

  DPDK 的组成架构如下图所示,相关技术原理概述如下:

  

  在最底部的内核态(Linux Kernel)DPDK 有两个模块:KNI 与 IGB_UIO。其中,KNI 提供给用户一个使用 Linux 内核态的协议栈,以及传统的 Linux 网络工具(如ethtool, ifconfig)。IGB_UIO(igb_uio.ko 和kni.ko. IGB_UIO)则借助了 UIO 技术,在初始化过程中将网卡硬件寄存器映射到用户态。

  DPDK 的上层用户态由很多库组成,主要包括核心部件库(Core Libraries)、平台相关模块(Platform)、网卡轮询模式驱动模块(PMD-NativesVirtual)、QoS 库、报文转发分类算法(Classify)等几大类,用户应用程序可以使用这些库进行二次开发。

  用户态模式下的PMD Driver

去除了中断影响,减少了操作系统内核的开销,消除了IO吞吐瓶颈;

避免了内核态和用户态的报文拷贝;用户态下软件崩溃,不会影响系统的稳定性;

Intel提供的PMD驱动,充分利用指令和网卡的性能;

HugePage和m_buf管理

提供2M和1G的巨页,减少了TLB Miss,TLB Miss严重影响报文转发性能;

高效的m_buf管理,能够灵活的组织报文,包括多buffer接收,分片/重组,都能够轻松应对;

Ring

无锁化的消息队列,实际验证,性能充足;

82599 SR-IOV NIC

实现虚拟化下高速吞吐;

Vector Instance /向量指令

明显的降低内存等待开销,提升CPU的流水线效率。

项目规划

  为了使DPDK更好的在我司使用与发扬光大,我大致规划了初期、中期与长期三步走策略实现目标。

  初期目标

  实现一个最简单的DNS demo.

  需求:

网络可达。

Dig示例域名可正确响应。

中期目标

  实现一个高性能高并发的DNS服务

  需求:

单机性能提高5倍以上。

形成完整DNS产品服务(XNS、public DNS)。

平台与服务逻辑分离。

长期目标

  实现高性能高并发的网络加速平台与应用体系

  需求:

平台具有可移植性。

可透明承载多种业务(UDP/TCP)服务。

平台与服务物理分离。

可承载其他高级语言与虚拟化。

开发初试

  为了验证其的可行性,我们对它进行了最小原型开发,实现了一个最简单的DNS服务程序,使其网络可达,dig能正确响应。

  由于刚开始对DPDK一无所知,为了网络可达首先要面对的问题是服务器IP在哪儿配置的问题(这也许是一些初学者会面对的幼稚问题),还好已有前辈在QQ大致网上了解一些原理与其源码示例,采用其源码examples目录下l3fwd为基础进行最小原型开发demo。

  为了使网络可达,我们做了如下开发:

先在simpleDNS服务端中临时配置一个服务IP进行过滤.

在DNS客户端通过手工配置ARP表使得客户端ping/dig操作的请求包可达服务端,

在simpleDNS服务端做解析请求包,如果是DNS请求构造响应包,其他类型如ARP/ICMP请求则通过KNI入接口ingress()重入Linux内核由

  其来处理后再通过KNI的egress()接口响应给客户端。

  经过上述编码调试后,最简单的原型验证通过了,为下面的全面开发提供了参考依据。

架构设计

  由于此项目是在基于DPDK进行二次开发,我一般对开源项目的使用原则是:

  应使开源项目融入到项目工程中,而不是项目工程融入到开源项目中

  因此我对它们进行分3层设计与实现:

内核层

  主要为Linux内核本身与**igb_uio.ko与rte_kni.ko.

平台层

分为DPDK原生库与fastNP扩展库,分别在不同目录进行隔离。

DPDK源码树本身,没有任务的修改,是为了更好的升级、开发与维护。

对DPDK某些接口进行二次封装与业务所需的公共库,一般各种业务应用调用。

业务层

  业务应用的各种实现,可直接调用fastNP平台层与DPDK原生层的API。

全面开发源码组织管理

  为了所有源码可以一键编译、一键打包,编写一套符合所需的Makefile进行源码管理。

  fastNP扩展库开发

  扩展库源码不在DPDK源码目录中,需要很好的理解DPDK下面mk/目录下的各种Makefile原理,使其的各种编译选项与属性能够传递到扩展库中。

  扩展库主要实现如下部分功能:

基础数据结构库。

  如:高效双链表、用户态RCU接口等。

轻量级用户态协议栈

  目前主要实现轻量级简易型UDP协议栈,以实现二三层转发为主。

HOOK挂载与处理机制

  仿造了Linux netfilter框架实现5个点钩子挂载与处理。

高性能日志库

  参考了目录主流高性能日志与线程安全,实现了一个数百万行打印的高性能日志系统。

  等等…

业务层开发

  第一个应用主要是把原有内核版本的KANS源码移植到用户态的SANSD中。

  控制查看命令开发

  为了方便对平台与业务层的查看与控制,我们基于Libcmdline库开发了sansctl命令,可支持命令补全等。

  发包工具开发

  为了能进行千万级别的高性能测试,基于pktgen-dpdk进行开发使其可以构造DNS请求与控制发送速率功能的spktgen,主界面如下图:

  

  抓包工具开发

  由于现有tcpdump不能抓取DPDK接管的网卡数据,也在其基础上开发可在DPDK下抓包的spktdump,以便调试与定位。

  其他开发

  从略。

  踩过的坑架构模式选择

  DPDK提供了两种模式可供选择:Run-to-completion与pipeline模式。在官网文档与DPDK开发者大会中都提到了这两种模式,但都没说哪种模式更好,要看场景而定。我们在最初设计时,不仅考虑DNS服务器还考虑以后负载均衡设备的使用,选择了可支持这两种模式。

  在测试性能时,发现某种情况下不同模式都有优缺点,经常在这两种模式中来回切换测试,造成了一些干扰与浪费了点时间。

  编译选项一致

  在测试性能时一定使用-O3选项并且编译选项需与DPDK本身app编译选项一致。否则会影响很大的性能。

  DPDK本身app编译选项可以在编译目录下的.XXX.o.cmd文件查看到。

  变量percore化

  所用的全局变量尽量percore化,这样可以防止cache miss。例如统计部分要用percore化,计算或显示时再把他们加到一起,这个也影响不小的性能。

  代码逻辑简化

  由于业务层代码是从内核版本中移植过来的,老早功能就通过了,但性能一直上不来,后来经过代码review发现很多影响性能点,又重新优化或精简了下代码逻辑,去掉了不少冗余代码。

  RCU锁占用性能

  扩大RCU临界区

  域名压缩占用性能

  应答区中的域名不压缩。

  有待完善DPDK 缺少配置文件

  现在DPDK代码与核数越来越多,依然使用命令行参数的方式进行启动,可配置与阅读性比较差,应该有自己的配置文件进行解析即可。

  尤其是网卡、队列、逻辑核配置序列太难配置了,尤其是使用核数比较多的情况。

  例如:(0,0,2),(0,1,4),(0,2,6),(0,3,8),(0,4,10),(0,5,12),(0,6,14),(0,7,16),(0,8,18),(0,9,20),(0,10,22),(0,11,24),(0,12,26),(0,13,28)

  不知道各位同学知不道有什么国际规范的缩写方式配置,请麻烦告知一下,OK?

  pktgen-dpdk驱动bug

  当使用pktgen-dpdk进行测试时,频繁的启停可能会使万兆光纤网卡处于DOWN状态,重启命令或reboot系统都不管用,必须对服务器进行冷重启才行,这对测试比较浪费时间或者远程调试操作堪忧。

  examples下编码质量参差不齐

  DPDK库本身的编码质量还是比较规范统一的,而其examples下的示例代码编码质量参差不齐。

  fastNP本身

BOND与多网卡有待支持。

邻居发现与路由功能有待支持。

TCP协议栈有待支持。

虚拟化功能有待支持。

更高级语言功能有待支持。

Libc与系统调用劫持功能有待支持。

总结

  经过这一段时间的开发,使得我对DPDK、内存、CPU、用户态网卡驱动有了更深的了解,使得性能达到了万兆网卡线速水平,单机抗攻击能力为1300万QPS,收发平衡能力为1000万QPS的预期目标,总之DPDK框架代码写得还是挺不错的,值得仔细研究,现在我只是对它怎么使用与部分源码有了一定的认识,很多精华部分有待深入剖析。

  Footnotes

  [^1]: DPDK: intel dpdk(Data Plane Development Kit,数据面开发套件)是 intel 公司发布的一款数据包转发处理套件;

  [^2]: CloudXNS: 面向云计算的权威智能DNS。

  [^3]: QPS: 每秒查询率(Query Per Second).

  [^4]: BIND: Bind是一款开放源码的DNS服务器软件,Bind由美国加州大学Berkeley分校开发和维护的,全名为Berkeley Internet Name Domain, 它是目前世界上使用最为广泛的DNS服务器软件.

  近期技术活动 ,期待与你线下相见

  「北京、上海」 技术风暴强势来袭,4月22号北京上海双城联动

  「北京」你离优秀架构师有多远?

  商务合作,请加微信yunweibang555

阅读
分享