所在的位置： mysql >> mysql前景 >> 一次支付系统升级过程经

一次支付系统升级过程经

一、主旨分享

众人好！我当日讲的不是甚么精深的技巧也许产物安排，不过前一段功夫产生的确实的上线经过。众人就权当我讲一个故事。内部波及的技巧也对比容易，请众人能够不惜指教~

1.布景

公司要上线付出系统V3.0，重要增进复式账系统。新老版本不兼容。即一笔付出生意必需完备走老系统记账也许走新系统记账。

数据库的重要影响是在已有的焦点表（3kw）增进几许字段。数据库统统操纵MySQLInnoDB引擎。一切上线的经过特别惨，折腾了一黄昏。

2.晋级经过

破晓2点到7点，5个小时的上线经过中，始末了没法彻底樊篱流量、数据库导入主键龃龉、上线环节脱漏、分隔的UAT处境和建设革新繁杂、MySQL5.5和5.6不兼容等题目。

3.上线经过

如下依功夫产生循序讲解上线经过。为了便利敷陈，咱们倘若D日为正式上线日，D-2日是指上线前两天。

3.1D-2日

RD、QA决计上线，RD发端评审上线CheckList，咱们称为CheckListA。众人一致感觉直接在焦点表增进字段危险较大，由于表特别大，况且临盆机械数据库磁盘不是SSD。

实测，按咱们临盆处境的机械建设，一个3kw的表，加一个字段，也许需求20分钟，此次上线波及4个这个量级的表，这个功夫显然不能接纳。

MySQL5.5纵使是pt-online-schema-change也特别难用，曾经有过训诲。从来效劳晋级没法达成kw级大表的schema改变。

pt的重要题目在于pt太慢了，一切经过会建不少的触发器，相当于SELECT出来再INSERT出来。其它一个题目是，生意数据库会见对比频仍，抢锁对比严峻，pt抢不到锁反而会加剧肩负，也影响一切改表领会。

原来MySQL5.6官方曾经供给了OnlineDDL的办理计划，除个体情景外，原生的OnlineDDL都是最优的筛选。mysql5.6原生OnlineDDL懂得，不过咱们那时的临盆处境数据库仍是MySQL5.5，是以仍是用不了。

商议后的意见计划是

从新布置一套数据库（磁盘操纵SSD），在新数据库上线建好更始后的schema，尔后苏息线高贵量，将全库数据用mysqldump出来，再load到新数据库中。

苏息线高贵量再导出数据库，是为了保证数据一致性。（如今咱们没有读写离别，况且保存只读机能意义不大）在新库上建好更始后的schema再导入，云云功用瓶颈便是数据库的写入INSERT。而不是数据库的ALTER。实测在kw级MySQL表上效率更高。

办理了数据库加字段的题目，背面便是生意考证的题目。

如今公司还没有美满的UAT处境（UserAcceptanceTest，能够了解是彻底和临盆处境一致的处境，即连正式的数据，正式的API，不过过失外宣布，普遍是内部生意考证的结尾一步）。

由于波及到记账，此次上线对比重大。关于生意机能考证，指望彻底苏息线高贵量后，布置一个分隔的UAT处境，操纵确实数据，供QA施行线上考证。也便是说，咱们要针对此次上线手工制造一个UAT处境。（处境的建设是个大坑，也是背面多数题目的缩影）

3.2D-1日

按既定计划，SYS和RD施行了完备的预演，主假如数据库职掌。由于波及模块多，上线环节繁杂，SYS对RD的上线CheckList从便利职掌的角度施行了优化，生成了CheckListB。（注意：这边差别于前方的CheckListA，是SYS又搞了一个上线CheckList。）

数据库意见计划从练习上看是没题目的，不过由于数据库过大，理论耗时需求1个小时左右。4个3kw左右的表，全豹加二十多个字段，1小时搞定。

QA操纵预演处境（差别于UAT处境的点只在于不是确实数据）施行了生意机能考证，无误。黄昏9点发端，给用户推送付出机能晋级的大字报。D日破晓2点到5点停服保护。

3.3D日

破晓，某会议室，RD负责人，QA负责人，SYS。

0点~1点半

SYS牵头施行了第二遍预演。经过遇到了数据库导入主键龃龉题目，不过重试后办理。那时并没有定位道理，不过感觉很稀奇。

破晓2点

SYS发端按职掌环节摘流量，樊篱临盆处境流量。不过觉察按环节都职掌结束，数据库仍旧有新的接连进入，纵使强逼杀了数据库接连，尚有新的。彻底不相符预期。（后来觉察是一些年久失修的离线功课）为保证数据一致性，祭出大杀器：FLUSHTABLESWITHREADLOCK，见到数据库接连写梗阻的就kill，读链接无所谓。

新的数据库曾经谋划好，新的schema也革新好了。如今发端做数据库导入，履行了半个小时，挂了。导入主键龃龉！不过怎样大概会有主键龃龉呢？真是墨菲法则啊。第二遍预演遇到的题目，到正式履行的时刻又遇到了！！适才从线上库导出来的数据，不该该有主键龃龉的啊！

这是一切上线的第一步，当头一棒，就挂了！

破晓4点排查了一遍，思疑是预演经过中，有QA的程序从来在跑主动化Case致使的。断掉QA的接连，从新履行数据库导入，导入胜利。等数据库履行完，曾经是4点了。（第一步导库，咱们就比预期多花了一个小时。）

SYS建设了UAT的APP接入域名，QA发端打APP包施行考证。包打好了，不过安设后直接crash，没法翻开。此次倒不是大题目，经排查，是由于QA建设Jenkins职责时参数填写过失致使。从新打包后，APP翻开平常。

不过觉察每一步都不顺的时刻，真实的不顺大概才适才发端。

这类今夜上线，原来众人是有压力的，觉察每一步都不顺时，每集体心田都发端有一些改变，不过那时又不好疏导。

破晓4点半

ready了，背景效劳上完线了，发端施行生意机能考证。此时是破晓4点半。

虽然在预演经过中，生意考证特别告成，不过在临盆经过中，生意考证特别不告成。基础上每个场景都走不通。QA做了冒烟测试，每个场景都不通。不过在预演处境时，都没有题目啊！那末这惟独一种表明，处境建设有题目。

RD负责人发端逐一排盘诘题，由于波及到网关、生意进口、付出焦点、账务等各个模块，纵使有LogTrace协助施行日记排查，仍旧特别耗时。LogTrace是咱们自研的一个系统，能够凭借一个logid串连起这个央求贯通全数模块的高低文。

早晨5点半

通了一些场景，又卡到一个关键的场景，生意考证不经过。

QA负责人从危险的角度发端打断RD，想要回滚。这时RD负责人压力特别大，感觉考证不告成和代码没相相关，都是处境建设题目，波及模块建设太多，很快就可以办理。（这个项目组付出的太多了，连结一个多月的加班，每周单休，期间项目构成员还伤风，牙痛。）RD负责人懂得项目回滚象征着甚么，是以想维持不回滚。不过QALeader不依。

连结三次打断后，RD负责人不得从来下来交（chao）涉（jia），“到早晨7点，有任何肩负我背”。

这个经过中，牵涉至多的原来是处境和建设。咱们有外网的接中计关，内部又有ESB网关，各个模块的挪用特别繁杂。

题目点如下：

由于CheckListA和CheckListB不等价;

有一些上线环节被脱漏

UAT处境怎样治理;

新布置的MySQL5.6mysql.ini和MySQL5.5不一致致使代码不兼容

每一个点，都是一个大坑。都不是甚么技巧难点，不过会妨碍场景测试。

为甚么在验收的时刻没题目呢？一到线上就有题目呢？

由于咱们想手工造一个UAT处境出来，又要思考到回滚计划（一旦决计回滚，怎样快速的将全数的建设复原）内部波及大批手工改建设的场合。

历来建设都有建设效劳器治理的，由于咱们要手工改这些建设，就会形成临盆效劳器和建设效劳器不一致，要人为在黑板上记着都更换了哪些。（这是第二块黑板了。。。）

早晨6点半

主过程都曾经没有题目了。

早晨7点

正式对外切流量。

后续

公司对这个项目Review了三遍，从各个角度，项宗旨角度，开垦测试经过，上线经过等。

论断

破晓上线未必是好的筛选：固然破晓是生意流量低峰，但也是人大脑行动的低峰，难以维持激昂。像中心漏建设；确实施行UAT考证时，接中计关建设没有翻开，这类初级别过失就很难懂释。特么这么容易怎样大概忘啊！

做好充足的停服预报：一切上线经过，过分匆促，停服功夫高出预期，也没有充足评价用户影响。停服并不解说计划的安排不好，停服并不是甚么出丑的事变。RD一发端的上线计划评审想从来服，感觉停服仿佛特别shame。但原来不是，保证账务不出乱子，用户能平常达成生意机能才是最重大的。停服没甚么大不了的。

做好止损红线：各方提早疏导明了计划和功夫点，甚么时刻冲，甚么时刻停。将在外君命有所不受。当时没有商定的管束，在计划履行中不能提，只会增进扯皮的谈资，没蓄谋义。（会上能够随便宣布意见，一旦会议打成一慰问见，会议记要一发，就不要再提意见了）

固然结尾项目危险上线胜利了，不过危险仍是对比大的。倘使7点还办理不了，回滚不仅是项目组情绪上接纳不了的事变，会影响到公司平常生意，才是更大的题目！

分享佳宾特别详细地描摹了上线经过中遇到的各个题目，结尾给出一些警告。对付出研发而言，每一个坑都要用资本去填平的。智者见智，接待众人留住您的意见。

二、QA

Q1、这么重大的上线没有当时预演一次呀？A1、没用的，终归处境不同样！况且UAT处境还都是现搭建起来的。A2、在第二次出题目时就应当停止了！普遍都市有同样的模仿处境。A3、有预演过，预演的题目在于，预演处境的建设和确实临盆处境不一致。

Q2、新老数据能否能够双写？A1、双写的题目，不要做一致性校验啊，思考过双写的计划。A2、云云的计划有没有思考过：存量数据迁徙到新库增量数据在一段功夫内同步到老库，待考证没有题目后据情景下掉老库，防止双写，不然一旦出题目都不懂得谁人数据是切确的了。双写计划普遍DB也是不意见做的。咱们这儿有几个计划，不过普遍都是DB帮助。

Q2-1、增进数据同步到老库上，这个普遍怎样做？由于新老过程的记账形式都不同样。重要感觉此次上线时，最大的点在于，新老版本过程不兼容。又要保证数据强一致，很难有兼容的计划。A1、好比经过binLOG将增量数据同步到新库。固然这边边是有一套基于binLOG的数据同步机制的。有临盆端和花费端。临盆端便是新库，花费端便是老库，不需求运用管教。DB层直接搞定。

Q3、这个和主从同步有甚么差别？懂得binlog？A1、是的！

本文档来自“付出产物架构交换群”的闲聊纪录整顿，由意愿者整顿并宣布到本网站。如需求准时收到来自“付出产物架构交换群”的最新音讯，请扫码

转载请注明：http://www.aierlanlan.com/cyrz/1053.html

上一篇文章： CentOS服务器下对mysql的优化

下一篇文章：没有了