加入收藏 | 设为首页 | 会员中心 | 我要投稿 海洋资讯信息网_我爱站长网 (https://www.haijunwang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

php采集类 PHP7 革新与性能优化 | 雄文

发布时间:2022-09-13 16:37:54 所属栏目:PHP教程 来源:
导读:  有幸参与2015年的PHP技术峰会(PHPCON),听了鸟哥(惠新宸)的关于PHP7的新特性和性能优化的分享,一切都令人感到激动。鸟哥是国内最权威的PHP专家,他的分享有很多非常有价值的东西,我通过整理分享的PPT和收集
  有幸参与2015年的PHP技术峰会(PHPCON),听了鸟哥(惠新宸)的关于PHP7的新特性和性能优化的分享,一切都令人感到激动。鸟哥是国内最权威的PHP专家,他的分享有很多非常有价值的东西,我通过整理分享的PPT和收集相关资料,整理为这篇解读性质的技术文章,希望能给做PHP开发的同学一些帮助。
 
  PHP已经走过了20年的历史,直到今天,PHP7都发布了RC版,据说,PHP7正式版应该会在2015年11月份左右发布。PHP7对于上一个系列的PHP5.*,可以说是一个大规模的革新,尤其是在性能方面实现跨越式的大幅提升。
 
  PHP是一种在全球范围内被广泛使用的Web开发语言,PHP7的革新也当然会给这些Web服务带来更深刻的变化。这里引用鸟哥PPT中的一个图表(82%的Web站点有使用PHP作为开发语言):
 
  php采集类_php采集百度新闻标题_飞飞影视系统php版定时采集插件
 
  注:一个web站点可以会使用多种语言作为它的开发语言
 
  注:本文含有不少从鸟哥PPT里的截图,图片版权归鸟哥所有
 
  我们先看看两张激动人心的性能测试结果图:
 
  Benchmark对比(图片来自于PPT):
 
  飞飞影视系统php版定时采集插件_php采集类_php采集百度新闻标题
 
  PHP7的性能测试结果,性能压测结果,耗时从2.991下降到1.186,大幅度下降60%。
 
  WordPress的QPS压测(图片来自于PPT):
 
  php采集类_php采集百度新闻标题_飞飞影视系统php版定时采集插件
 
  而在WordPress项目中,PHP7对比PHP5.6,QPS提升2.77倍。
 
  看完令人激动的性能测试结果对比,我们就进入正题哈。PHP7的新增特性很多,不过,我们会更聚焦于那些主要的变化。
 
  一、新增特性和改变
 
  1. 标量类型和返回类型声明(Scalar Type Declarations & Scalar Type Declarations)
 
  PHP语言一个非常重要的特点就是“弱类型”,它让PHP的程序变得非常容易编写,新手接触PHP能够快速上手,不过,它也伴随着一些争议。支持变量类型的定义,可以说是革新性质的变化,PHP开始以可选的方式支持类型定义。除此之外,还引入了一个开关指令declare(strict_type=1);,当这个指令一旦开启,将会强制当前文件下的程序遵循严格的函数传参类型和返回类型。
 
  例如一个add函数加上类型定义,可以写成这样:
 
  如果配合强制类型开关指令,则可以变为这样:
 
  php采集百度新闻标题_php采集类_飞飞影视系统php版定时采集插件
 
  如果不开启strict_type,PHP将会尝试帮你转换成要求的类型,而开启之后,会改变PHP就不再做类型转换,类型不匹配就会抛出错误。对于喜欢“强类型”语言的同学来说,这是一大福音。
 
  更为详细的介绍:
 
  PHP7标量类型声明RFC[翻译]
 
  2. 更多的Error变为可捕获的Exception
 
  PHP7实现了一个全局的throwable接口,原来的Exception和部分Error都实现了这个接口(interface), 以接口的方式定义了异常的继承结构。于是,PHP7中更多的Error变为可捕获的Exception返回给开发者,如果不进行捕获则为Error,如果捕获就变为一个可在程序内处理的Exception。这些可被捕获的Error通常都是不会对程序造成致命伤害的Error,例如函数不存。PHP7进一步方便开发者处理,让开发者对程序的掌控能力更强。因为在默认情况下,Error会直接导致程序中断,而PHP7则提供捕获并且处理的能力,让程序继续执行下去,为程序员提供更灵活的选择。
 
  例如,执行一个我们不确定是否存在的函数,PHP5兼容的做法是在函数被调用之前追加的判断function_exist,而PHP7则支持捕获Exception的处理方式。
 
  如下图中的例子(截图来源于PPT内):
 
  飞飞影视系统php版定时采集插件_php采集类_php采集百度新闻标题
 
  3. AST(Abstract Syntax Tree,抽象语法树)
 
  AST在PHP编译过程作为一个中间件的角色,替换原来直接从解释器吐出opcode的方式,让解释器(parser)和编译器(compliler)解耦,可以减少一些Hack代码,同时,让实现更容易理解和可维护。
 
  PHP5:
 
  php采集类_php采集百度新闻标题_飞飞影视系统php版定时采集插件
 
  PHP7:
 
  php采集百度新闻标题_飞飞影视系统php版定时采集插件_php采集类
 
  更多AST信息:
 
  4. Native TLS(Native Thread local storage,原生线程本地存储)
 
  PHP在多线程模式下(例如,Web服务器Apache的woker和event模式,就是多线程),需要解决“线程安全”(TS,Thread Safe)的问题,因为线程是共享进程的内存空间的,所以每个线程本身需要通过某种方式,构建私有的空间来保存自己的私有数据,避免和其他线程相互污染。而PHP5采用的方式,就是维护一个全局大数组,为每一个线程分配一份独立的存储空间,线程通过各自拥有的key值来访问这个全局数据组。
 
  而这个独有的key值在PHP5中需要传递给每一个需要用到全局变量的函数,PHP7认为这种传递的方式并不友好,并且存在一些问题。因而,尝试采用一个全局的线程特定变量来保存这个key值。
 
  相关的Native TLS问题:
 
  5. 其他新特性
 
  PHP7新特性和变化不少,我们这里并不全部展开来细说哈。
 
  (1) Int64支持,统一不同平台下的整型长度,字符串和文件上传都支持大于2GB。
 
  (2) 统一变量语法(Uniform variable syntax)。
 
  (3) foreach表现行为一致(Consistently foreach behaviors)
 
  (4) 新的操作符 , ??
 
  (5) Unicode字符格式支持(\u{xxxxx})
 
  (6) 匿名类支持(Anonymous Class)
 
  … …
 
  二、跨越式的性能突破:全速前进
 
  1. JIT与性能
 
  Just In Time(即时编译)是一种软件优化技术,指在运行时才会去编译字节码为机器码。从直觉出发,我们都很容易认为,机器码是计算机能够直接识别和执行的,比起Zend读取opcode逐条执行效率会更高。其中,HHVM(HipHop Virtual Machine,HHVM是一个Facebook开源的PHP虚拟机)就采用JIT,让他们的PHP性能测试提升了一个数量级,放出一个令人震惊的测试结果,也让我们直观地认为JIT是一项点石成金的强大技术。
 
  而实际上,在2013年的时候,鸟哥和Dmitry(PHP语言内核开发者之一)就曾经在PHP5.5的版本上做过一个JIT的尝试(并没有发布)。PHP5.5的原来的执行流程,是将PHP代码通过词法和语法分析,编译成opcode字节码(格式和汇编有点像),然后,Zend引擎读取这些opcode指令,逐条解析执行。
 
  而他们在opcode环节后引入了类型推断(TypeInf),然后通过JIT生成ByteCodes,然后再执行。
 
  php采集类_飞飞影视系统php版定时采集插件_php采集百度新闻标题
 
  于是,在benchmark(测试程序)中得到令人兴奋的结果,实现JIT后性能比PHP5.5提升了8倍。然而,当他们把这个优化放入到实际的项目WordPress(一个开源博客项目)中,却几乎看不见性能的提升,得到了一个令人费解的测试结果。
 
  于是,他们使用Linux下的profile类型工具,对程序执行进行CPU耗时占用分析。
 
  执行100次WordPress的CPU消耗的分布(截图来自PPT):
 
  飞飞影视系统php版定时采集插件_php采集百度新闻标题_php采集类
 
  注解:
 
  21%CPU时间花费在内存管理。
 
  12%CPU时间花费在hash table操作,主要是PHP数组的增删改查。
 
  30%CPU时间花费在内置函数,例如strlen。
 
  25%CPU时间花费在VM(Zend引擎)。
 
  经过分析之后,得到了两个结论:
 
  (1)JIT生成的ByteCodes如果太大,会引起CPU缓存命中率下降(CPU Cache Miss)
 
  在PHP5.5的代码里,因为并没有明显类型定义,只能靠类型推断。尽可能将可以推断出来的变量类型,定义出来,然后,结合类型推断,将非该类型的分支代码去掉,生成直接可执行的机器码。然而,类型推断不能推断出全部类型,在WordPress中,能够推断出来的类型信息只有不到30%,能够减少的分支代码有限。导致JIT以后,直接生成机器码,生成的ByteCodes太大,最终引起CPU缓存命中大幅度下降(CPU Cache Miss)。
 
  CPU缓存命中是指,CPU在读取并执行指令的过程中,如果需要的数据在CPU一级缓存(L1)中读取不到,就不得不往下继续寻找,一直到二级缓存(L2)和三级缓存(L3),最终会尝试到内存区域里寻找所需要的指令数据,而内存和CPU缓存之间的读取耗时差距可以达到100倍级别。所以,ByteCodes如果过大,执行指令数量过多,导致多级缓存无法容纳如此之多的数据,部分指令将不得不被存放到内存区域。
 

(编辑:海洋资讯信息网_我爱站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!