我是如何成功删库并手动进行数据恢复的

数据库刘宇帅 7年前阅读量: 2601

事情起因

有个同事需要一个管理系统，需要管理一些图片什么的，我就想着让他用我写的这套系统，然后就想着把代码和库复制一份出来给他用就可以了，然后我顺便可以把一些需要写到配置里的东西提炼下，让这套系统成为一个可复制部署的 CMS 系统。

实操删库过程

第一步

很熟练的把代码复制一份，nginx 配置复制并修改一份。

第二步：删库

登陆数据库
新建库、切到新建库
删库：因为我部署这个博客系统的时候有把初始化数据库的 sql 文件放到服务器上，我看了下还在。然后直接source init.sql。

3步完成之后，有种莫名的感觉涌上心头，然后打开我的博客，发现里面数据已经空了。。其实我这里使用了Phalcon框架自带的 migrate 功能，但由于 Phalcon 这个功能做的并不好用，并且还需要下载一个工具库，所以第一次部署的时候就直接导出 sql 来搞了。

为什么会删库

我系统上的 init.sql 是用 mysqldump 从开发机器上导出的，我一直以为里面只包含建表数据，所以才有了上面的很溜的操作，这一出事很显然就是”我以为“错了，然后查看 init.sql 文件有以下代码。

CREATE DATABASE /*!32312 IF NOT EXISTS*/ `lfuture` /*!40100 DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci */;

USE `lfuture`;

--
-- Table structure for table `app_activity_info`
--

DROP TABLE IF EXISTS `app_activity_info`;

欲哭无泪。
mysqldump 导出数据的几种方式。

mysqldump -uroot -p -d dbname >~/Downloads/dbname.sql 只有表结构
mysqldump -uroot -p dbname >~/Downloads/dbname.sql 表结构及数据
mysqldump -uroot -p --databases dbname >~/Downloads/dbname.sql 库的创建、切换及表结构和表数据

而我用的就是第三种，这种方式导出的 sql 会去尝试建库切库、删表、新建表、导入数据。

数据恢复

我这个博客刚上线两周，还没有做数据库备份、也没开启binlog，不过幸亏我在 nginx log 里添加了 request_body，而我的博客里目前只有几博客、几条评论，并且博客刚上线两周，我配置的 crontab 去删除30天以前的 nginx 日志也还没起作用，所以说使用日志来恢复是完全没问题了。。

解析nginx日志

其中一条日志例子(有些敏感信息我替换成了secret)

remote_addr=[218.30.116.3] http_x_forward=[-] time=[20/Jun/2018:10:45:00 +0800] request=[POST /adminApiGate HTTP/1.1] status=[200] byte=[514] elapsed=[0.015] refer=[secrete~~] body=[{\x22module\x22:\x22Dashboard\x22,\x22handler\x22:\x22Statistics\x22,\x22method\x22:\x22statistics\x22}] ua=[Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36] cookie=[secret] gzip=[-] x_from=[-] msec=[1529462700.279] http_host=[secret] http_accept=[application/json|gzip, deflate, br|zh-CN,zh;q=0.9,en;q=0.8] upstream_response_time=[0.015] sent_http_set_cookie=[-]

用 grep、awk 找出所有的 adminApiGate 的日志的request_body字段（adminApiGate 是后台 api 接口地址）

grep 'adminApiGate' lfutur* |awk -F 'body\=\\[' '{print $2}'|awk -F '] ua' '{print $1}' >/home/work/recovery.data

nginx 默认会把 request_body 转换成16进制，所以直接当成 json 是无法处理的，需要做一步转换，这里使用 PHP 来做，代码如下.

$file = "/Users/liushuai/Downloads/recovery.data";
$saveFile = "/Users/liushuai/Downloads/result.csv";
$fp = fopen($file, 'r');
$csvFp = fopen($saveFile, 'w');
fputcsv($csvFp, array('module', 'handler', 'method', 'payload'));
while ($line =fgets($fp)) {
    $pt = 0;
    $str = '';
    while ($pt < strlen($line)) {
        if ($line[$pt] == '\\' && $line[$pt + 1] == 'x') {
            $str .= $this->hexToStr($line[$pt + 2]. $line[$pt + 3]);
            $pt += 4;
        } else {
            $str .= $line[$pt];
            $pt += 1;
        }
    }
    $result = json_decode($str, true);
    $payload = $result['payload']?? [];
    fputcsv($csvFp, array($result['module'], $result['handler'], $result['method'], var_export($payload, true)));
}

function hexToStr($hex){
    $str="";
    for($i=0;$i<strlen($hex)-1;$i+=2)
        $str.=chr(hexdec($hex[$i].$hex[$i+1]));
    return  $str;
}

数据恢复

因为我需要的只是博客、标签的信息，我如果可以拿到 module handler method 字段过滤下就可以，所以我直接把解析结果放到了 csv 文件里，然后筛选，手动入库。
这里有思考如果数据量比较大，可以在日志里取出请求时间，然后对一个资源的 add update接口做排序取最后一条即可，然后直接程序写库。