都说数据库是三大基础软件中的一块硬骨头,技术门槛高、研发周期长、工程要求高,市场长期被几大巨头所把持。
因此,实现突破一直是中国数据库产业的夙愿。自上个世纪80年代起,中国数据库产业走过艰辛坎坷的四十余载,终于拥有一席之地。但当中国逐渐成长为全球最大数据圈之际,中国数据库产业又面临着全新局面:
一方面,数字经济带来持续且丰富的数据库需求,中国数据库市场的未来普遍被看好;另一方面,市场涌现出上百家数据库公司,重复建设的现象突出,出现一定的乱象;更加重要的是,面对日趋复杂且多样的数据处理需求,数据库理论和核心技术亟待突破,以更好适应未来市场需求。
洗尽铅华始见金,中国数据库产业之路该走向何方?近日深圳计算科学研究院(以下简称深算院)YashanDB团队接受大数据在线的专访,畅谈中国数据库产业发展等话题。YashanDB产品总监王南认为数据库的发展必须突破关键核心技术,唯有潜心实干才是出路。目前,YashanDB正积极探索一条产学研用的新路,即致力于数据库理论与核心技术的突破,利用前沿研究成果,紧密贴合市场需求,打造出世界一流的数据库产品。
野蛮生长不可取IDC数据显示,年中国关系型数据库市场规模为34.3亿美元,同比增长23.9%;到年,规模有望达到.7亿美元,年复合增长率为24.5%。中金研究报告也显示,-年数据库整体国产替换市场空间约亿元。
毋庸置疑,中国数据库市场潜力巨大。与此同时,信通院《数据库发展白皮书》中提到,中国数据库公司数量已达到家,数据库产品更是高达款。在外部环境不确定性持续增加的大背景下,百花齐放的确让市场欣欣向荣,却也让野蛮生长和重复建设的现象逐渐突出。
作为基础软件,数据库有其自身规律,短时间涌现出如此数量的公司可能会造成两个挑战:
其一、短期资本涌入造成繁荣的假象,但市场总体规模体量并不足以养活如此多公司,多数公司未来前景存疑;其二、数据库是一项需要持续投入的基础软件领域,重复建设会让市场人才、资金走向割裂,整体竞争力受损。
再仔细研究中国数据库公司,大部分跟MySQL、PostgreSQL两大开源数据库有着千丝万缕的联系。不可否认,开源在推动中国数据库产业高速发展中发挥着关键性作用,也绝对是数据库产业未来重要的发展趋势之一。但开源≠免费,在云计算兴起的当下,甚至频出各种利益纠葛,像MySQL的GPL协议在开源协议中要求最为严格,未来如何发展取决于Oracle的态度。如果通过利用开源快速包装出“速成”产品,以达到抢夺市场的目的,这种做法未来存在巨大风险。
当下,这种“走捷径”的做法已产生一定影响。例如,CSDN《-中国基础软硬件-数据库开发者调查报告》显示,只有31%的开发者对国产数据库持正面看法,69%的开发者均对国产数据库持负面看法。
“数据库等基础软件没有捷径可走。数据库要想持续发展,需要有足够的战略定力,围绕理论创新与技术突破,才能真正解决数据库的基本问题。”YashanDB产品总监王南如是说。
数据库核心技术突破没有捷径可走本质上,数据库属于软件重工业,工程化程度极高,投入大、见效慢,并且回报带有极大不确定性。要想在数据库领域有一番作为,需要直面资金、技术、人才和商业化四个最为关键的挑战。
例如,数据库的研发需要持续投入大量资金,投入少、依靠开源“走捷径”,本质上很难获得核心竞争力,又如面临核心内核人才不足、商业化落地等难题。
但最为重要的挑战无疑就是技术突破。当前的数据库市场类似新能源汽车市场早期,市场存在大量公司,但真正掌握核心技术的公司却是不多。在数据库关键技术挑战中,又以数据库理论创新最为关键,核心技术发展有赖于数据库理论创新。
显然,在用户业务类型、场景规模、数据量等均发生翻天覆地变化的今天,数据库的理论创新迫在眉睫,也正是当下中国数据库企业需要潜心实干的方向。只有在数据库理论实现创新与突破,才能点到面带来产品技术的全面变革,从而支撑起未来业务场景的需求。
在当下的中国数据库市场,深算院是为数不多致力于数据库理论研究与创新的机构,深算院的理论研究团队原创有界计算(boundedevaluation)、数据驱动的近似计算(data-drivenapproximation)、并发事务调度理论等系列创新理论,致力于持续探索数据库核心技术的突破。
像有界计算理论是把大数据计算规约成小数据上的处理,近似计算则可在硬件规模投入有限的情况下,实现大数据精确高效查询。深算院的理论研究成果对于很多身处大数据时代的行业用户极具现实价值。
当前,性能与成本依然是数据库产品选型的核心要素。然而,计算资源的增长速度远远跟不上数据增长的速度,尽管堆叠机器增加算力也难以应对海量数据的计算要求,还会导致成倍的运维问题和成本。而有界计算和近似计算则有望打破传统数据库理论的束缚,让数据库的性能与成本达到新高度。
例如,曾经通过测试发现,在某业务场景数十亿条数据的实时查询场景下,91%的查询可以用有界计算来解决,并且70%以上的查询效率可以提升25倍到14万倍,剩余9%不具备有界计算条件的查询,可以通过数据驱动的近似计算理论来解决。
但从理论创新到落地产品的过程绝非易事,需要持续的验证、迭代和优化。YashanDB研发团队从原型开始验证,历经各种困难与挑战,逐步在YashanDB中融入这两大理论研究成果。在最新的YashanDB版本中,YashanDB实现在大数据分析时不需要访问全部数据,只需取其中的小数据集就能得到想要的结果。经过实测,数据量从10GB增长到1TB,YashanDB响应时延维持亚秒级,性能提升千倍以上且未衰减,性能与成本表现出色。
据悉,YashanDB从核心理论到关键技术均为原创,且高度兼容主流数据库。YashanDB自身产品能力较为全面,基于YashanDB内核,打造出单机/主备、共享集群、分布式等多种产品形态,覆盖OLTP/HTAP/OLAP负载场景,并提供完整的工具体系。王南透露,YashanDB会根据用户场景来推荐不同的产品形态。
“我们以提高单位资源成本下的计算效能为目标设计产品,不是堆叠机器追求‘规模上限’。”王南说道。在OLTP场景中,YashanDB通过细粒度并发控制、免锁事务优化和自适应并发调度算法等技术,最大程度提升单机的事务处理性能,提供可用于生产的Benchmark性能测试配置和测试数据,性能超出主流商业数据库30%以上。
“几年前,大家可能还认为中国数据库内核需要好多年才能成熟起来。”王南表示道,“但现在从咱们一些数据库产品在核心业务场景中的表现来看,数据库核心技术只要沉下心去攻克,是一定能解决的。”
就如国产新能源汽车逐渐率先攻克自动驾驶、智能车机、底盘等核心技术,在市场中脱颖而出一样,扎根关键技术研发与突破的数据库公司,从一开始就把地基打牢固,也有望在未来的市场中逐步实现引领。“数据库不存在弯道超车,掌握核心技术才是关键所在。如果核心技术不足,哪怕一开始‘走捷径’,未来也走不远。”王南如是说。
商业化不能“纸上谈兵”总体来看,我国数据库产业发展正处于欣欣向荣的阶段,加速由“数量型”向“质量型”关键转变。这其中,商业化就是摆在很多中国数据库公司面前的一道必答题。
在数据库市场,光有突破性的数据库核心技术、能力强大的数据库产品还远远不够,商业化则是将产品技术实现价值化的关键所在。众所周知,我国数据库公司相对还较为年轻,过去由于Oracle等数据库巨头长期占领市场,使得很多中国数据库公司哪怕有诸多技术与产品的创新,却很难有较多机会在金融等核心业务场景中得到验证,从而陷入“技术、产品、场景”不能良性循环的怪圈,商业化之路极为曲折。
如今,随着自主可控技术体系成为中国数字经济发展的重要支撑,中国数据库也迎来了打破怪圈的契机。在王南看来,中国数据库公司需要从场景验证、应用改造、选型成本、服务能力四个方面发力,从而加速推动商业化。
首先是场景验证,比如金融核心业务场景,对于数据库的性能、可靠性、稳定性要求极高,随着硬件层面的自主可控技术逐步进入到核心业务场景中,会带来数据库适配、性能波动等一系列挑战。王南直言:“数据库要想实现规模化复制,必须在关键行业和关键场景中去验证,一步一步往前走,才能在行业广度、业务场景中做到规模复制。”
以YashanDB为例,围绕金融、央国企等重点行业的等他客户和重点场景已经做了相当范围的覆盖和验证。
其次是应用改造的挑战。像银行等金融机构,由于历史积累丰富、业务系统庞杂,比如分布式架构的改造,需要解决规模化带来的成本问题,“这是一个关键矛盾,对于数据库公司、用户等都是巨大挑战。”王南补充道。
第三是降低客户选型的成本。由于产品质量参差不齐,客户选型判断成本过高。提供诚实可信的高性价比产品、公正透明的价格、完善的生态体系以及放心省心的服务方是破局之道。
最后则是需要解决好服务能力,目前国内数据库公司普遍面临的困境就是面对场景的复杂性,需要有很重的服务投入,对于DBA团队极为倚重。
相比于其他商业数据库公司,依托深算院,YashanDB作为产学研“一体化”数据库的代表,其商业化之路更加为业界所