在软件领域,数据库是毫无疑问的中流砥柱。在这片历史悠久、玩家众多的沃土上,流传着着无数技术和商业交织的故事。如今,老一代商业数据库日薄西山,开源数据库步步为营,处在浪潮之巅的我们已然可以看见其中的暗流涌动。在这场群雄逐鹿的戏码里,MySQL与PostgreSQL之争渐趋白热化。MySQL的衰落不再是某个耸人听闻的预言,而正在成为不可避免的现实。
日前,Stack Overflow面向90000名开发人员进行的一项调查显示,PostgreSQL在数据库引擎的选择上领先于MySQL,这与往年的调查相比有了显著变化。
其中,45.55%的受访者使用PostgreSQL,而MySQL和SQLite的比例分别为41.09%和30.9%。而就在三年前,同一项调查显示,MySQL和PostgreSQL的使用率分别为55.6%和36.1%,由此可见,使用PostgreSQL的用户群体的增速有多快。
图源:Stack Overflow
不过,需要指出的是,由于这是一项开发人员调查,因此并不反映生产中的使用情况。根据DB-Engines的数据库流行度排名,其中Oracle排名第一,其次是MySQL、SQLServer和PostgreSQL。还要注意的是,MySQL或其分支MariaDB通常被非常流行的WordPress内容管理系统使用,占了大量的生产使用。
尽管如此,不能否认的事实是,越来越多的开发人员倾向于为他们正在开发的应用程序选择PostgreSQL。而且结合DB-Engines上总结的历年来MySQL和PostgreSQL分数的趋势变化来看,PostgreSQL从2014年开始进入高速增长状态,而MySQL自2016年以来开始缓慢下降。
图源:DB-Engines
相较于MySQL的日渐式微,PostgreSQL为何能取得高速发展呢?我们可以从其发展履迹中一窥端倪。
一、脱胎于Ingres的开源数据库
PostgreSQL拥有很长的发展史。
其前身是美国国防部与加州大学伯克利分校合作的一个名为Ingres研究项目。1985年Ingres项目终止,随后开源,Postgre诞生。后来为了强调对SQL的支持,又更名为PostgreSQL,这一名字延用至今。粗略估算一下,不包括Ingres时期的开发,这一项目的开发历史也差不多38年了。
作为开源数据库的PostgreSQL有其鲜明的特点。
其一,跨平台属性强,支持几乎所有的操作系统和CPU硬件平台,如AIX,HPUX,Linux,BSD,Windows等。
其二,社区支持强大。项目由全世界超过1000名贡献者所维护,社区成员来自于全球的商业公司、高校、研究机构。而且PostgreSQL基于自由的BSD/MIT许可,组织可以使用、复制、修改和重新分发代码,只需要提供一个版权声明即可。目前国内有很多公司基于PostgreSQL数据库开发自己的商业产品。
另外,PostgreSQL提供了单个完整功能的版本,而不像MySQL那样提供了多个不同的社区版、商业版与企业版。部分粉丝甚至会说PostgreSQL堪与Oracle相媲美,而且没有那么昂贵的价格和傲慢的客服。
相较于MySQL,PostgreSQL还有一些明显的特点,比如,支持更广泛的高级数据类型,更精细的索引系统,支持用各种语言编写的存储过程,能够满足绝大多数企业级应用的需求。
二、MySQL衰退,并不出奇
PostgreSQL和MySQL同为开源的关系型数据库,两者都经历了几十年的发展,并且已被证明高可靠、安全和可扩展。但是回顾其发展历程,两者又有着显著不同。
到2023年,PostgreSQL仍然是完全开源和社区驱动的,而MySQL在许可方面有着更复杂的历史。MySQL的开发主体是瑞典MySQLAB公司,最初MySQL是作为公司的商业产品开发的,同时提供免费版和付费版。
2008年1月,MySQLAB被Sun公司以10亿美元的价格收购。此后不久,Oracle又以74亿美元得价格收购了Sun,这一系列收购事件一度让MySQL数据库前途未卜,也引起了部分开发人员对其开源未来的担忧。后来,包括MariaDB和Percona在内的原始MySQL的几个开源分支帮助缓解了这些问题,但这些动荡依旧为MySQL的发展留下了挥之不去的暗影。
多年前,PostgreSQL创始人之一的Bruce Momjian在接受对外采访时就曾表示:“MySQL衰退,这并不是一件很令人惊奇的事情。”在他看来,MySQL的衰退可以归因于两点,其一,MySQL目标定位不明晰,其二,MySQL不是一个纯粹的开源数据库。
Momjian对此解释道:“之所以说MySQL目标定位不明晰,是因为其目标定位是在网络应用的用户层面上,而互联网企业要求的是一个快速反应时间和较小的用户量,但相对大用户来说,MySQL就有点捉襟见肘了,虽然他们非常努力去试图满足大客户的应用,想扩展企业级大客户的应用标准,但因为前期开发的框架不是很明晰,导致不是很成功。”
在关于开源的纯粹性上,Momjian认为:“MySQL数据库是一个公司的一产品,是一个公司做了绝大部分开发的工作,所以MySQL不是完全意义上的开源数据库,这是个劣势,不能得到绝大多数人的支持,或让社区更多人参与进来。”
在他看来,与MySQL不同,PostgreSQL一开始就是定位在Oracle这些大数据库能做的事情。所以MySQL势力越来越小,而PostgreSQL却在变大。尽管谁也不知道未来会如何发展,但PostgreSQL的增长是有目共睹的。
三、在曲折中探索:多进程还是多线程
立足当下,回顾过往,PostgreSQL能在开发者调查中超越MySQL,并非一朝一夕之功。至于未来如何,及时了解其最新的发展动向至关重要。
最近就有一项关于PostgreSQL的重大提案正在发生。
众所周知,和线程架构的MySQL不同,PostgreSQL数据库为进程架构模型,每一个连接都会启动一个服务进程为该连接服务。
一个PostgreSQL实例作为一大组协作进程运行,包括一个用于每个连接的客户端的进程。这些进程使用精心设计的库通过多个共享内存区域进行通信,该库允许在并非所有进程都具有映射到相同地址的相同内存的设置中创建复杂的数据结构。长期以来,这个模型都在如此为这个项目服务。
但PostgreSQL开发团队觉得到了需要改变的时候,要重新考虑是否延用这种面向进程的模型,还是将其迁移到线程模型。
事实上,多进程的优缺点都很分明。
好处在于:可以并行地执行多个任务,提高运行效率,数据安全,空间独立,一个进程崩溃也不会影响其他进程;不足在于:进程的创建和销毁过程需要消耗较多的计算机资源,在需要频繁创建和删除较多进程的情况下,资源消耗过多,不适宜使用多进程完成任务。
6月初,PostgreSQL的核心贡献者之一Heikki Linnakangas跟进了一些相关的讨论。从讨论走向来看,支持和反对的双方都各有其缘由。
支持方代表Andres Freund提出,开发团队已经遇到了诸多与进程模型相关的限制。比如:
1、跨进程上下文切换的开销本来就比同一进程中线程之间的切换要高,合理怀疑这种开销会继续增加;
2、进程模型增加了开发成本,迫使项目维护大量重复代码,包括在单个地址空间中不需要的几种内存管理机制。
反对方代表则认为不应该贸然进行这种根本性变革,“这将是一场灾难。有太多的代码会被破坏”。主要理由集中如下:
1、安全性会降低,变革成本过大。可能产生“不止一个安全级漏洞”,而且收益无法抵消成本。
2、可能还有其他工作应该具有更高的优先级。
3、失去由单独进程提供的隔离,可能会降低系统的整体健壮性。
网友评论
不过,总体而言,仍有许多PostgreSQL开发人员还是谨慎地赞成至少探索这一变化。Robert Haas表示 ,PostgreSQL在大型系统上的扩展性不佳,这主要是因为所有这些进程都消耗了资源。“并非所有数据库都有这个问题,如果不进行某种重大的架构更改,PostgreSQL将无法解决这个问题”。在他看来,仅仅切换到线程可能还不够,但他认为,这种探索性的尝试将带来许多其他改进。
如果再进一步思考,我们会注意到,无论是支持基于进程还是基于线程的模式,可能都不会有终极答案。
因为线程可能不会在所有用例中都表现得更好,或者一些重要的扩展可能永远不会获得在线程中运行的支持。移除进程支持是一个只有在线程运行良好时才能真正考虑的问题。虽然讨论的结果表明大多数PostgreSQL开发人员认为这种探索式的变化在抽象上是好的,但也明显担心它在实践中如何运作。在不进则退的开源世界,不断迭代更新才能顺应时代变化,但变化的方向从来没有确定的航标,如何在螺旋中上升是开源开发者们需要审慎考虑的永恒命题。