数据库 - Felix021 - So far so good

Dec 14

MySQL/MariaDB 主从同步

felix021 @ 2025-12-14 19:12 [IT » 数据库] 评论(0) , 引用(0) , 阅读(369) | Via 本站原创

== Master ==

$ vi /etc/mysql/mariadb.conf.d/50-server.cnf

引用

server-id = 1
log_bin = /var/log/mysql/mysql-bin.log
expire_logs_days = 10
max_binlog_size = 1024M
binlog_do_db = testdb

$ mysql

CREATE USER 'username'@'%' IDENTIFIED BY '12345678';
GRANT ALL PRIVILEGES ON giteadb.* TO 'username'@'%';
GRANT REPLICATION SLAVE ON testdb.* TO 'username'@'%';
[/code

[code]
mysqldump --databases testdb --master-data > testdb.sql

== Slave ==

$ vi /etc/mysql/mariadb.conf.d/50-server.cnf

引用

server-id = 2
relay_log = /var/log/mysql/mysql-relay-bin.log
log_bin = /var/log/mysql/mysql-bin.log
binlog_do_db = testdb
read_only = 1

mysql> CHANGE MASTER TO
MASTER_HOST='HOSTNAME',
MASTER_USER='testdb',
MASTER_PASSWORD='12345678',

$ mysql < testdb.sql

mysql> start slave;

mysql> SHOW SLAVE STATUS\G

另：如果报错

引用

mysql error 1273 (hy000) at line 33: unknown collation: 'utf8mb4_0900_as_cs'

需要把 sql 里的 utf8mb4_0900_as_cs 替换成 MariaDB 的 utf8mb4_unicode_520_ci

Oct 21

ClickHouse Playground

felix021 @ 2025-10-21 16:39 [IT » 数据库] 评论(0) , 引用(0) , 阅读(804) | Via 本站原创

docker-compose.yml

引用

services:
clickhouse:
image: clickhouse/clickhouse-server:latest
container_name: my-clickhouse
ports:
- "8123:8123" # HTTP API 端口，用于Web界面和HTTP请求
- "9000:9000" # 原生TCP协议端口，用于clickhouse-client连接
volumes:
- ./data:/var/lib/clickhouse # 数据持久化到主机的 ./data 目录
environment:
- CLICKHOUSE_DB=default
- CLICKHOUSE_USER=default
- CLICKHOUSE_PASSWORD=123456
- CLICKHOUSE_DEFAULT_ACCESS_MANAGEMENT=1
deploy:
resources:
limits:
cpus: '4.0'
memory: 8G
reservations:
cpus: '1.0'
memory: 2G

启动

$ docker compose up -d

连接

$ docker exec -it my-clickhouse clickhouse-client --user default --password 123456

CREATE DATABASE learn;

CREATE USER 'learn' IDENTIFIED WITH sha256_password BY '123456';

GRANT ALL ON learn.* to 'learn';

Playground:

$ git clone https://github.com/VKCOM/lighthouse.git

访问（替换 $CLICKHOUSE 为部署的 IP 或域名）
http://127.0.0.1/lighthouse/#http://$CLICKHOUSE:8123/?user=learn&password=123456

Oct 16

ClickHouse: Dictionary

felix021 @ 2025-10-16 10:18 [IT » 数据库] 评论(0) , 引用(0) , 阅读(654) | Via 本站原创

备查

CREATE DICTIONARY xxx.ip_region_dict
ON CLUSTER default_cluster
(
`prefix` UInt32,
`province` Nullable(String),
`province_code` UInt32,
`city` Nullable(String),
`city_code` UInt32,
`area` Nullable(String),
`area_code` UInt32
)
PRIMARY KEY prefix
SOURCE(CLICKHOUSE(HOST '127.0.01' USER 'user' PASSWORD 'xxxx' DB 'test' TABLE 'ip_region' ))
LIFETIME(MIN 0 MAX 0) -- 需要手动刷新
LAYOUT(HASHED())

or from mysql:

SOURCE(MYSQL(HOST '127.0.0.1' PORT 3306 USER 'root' PASSWORD 'xxxxx' DB 'test' TABLE 'xxx'))
LIFETIME(MIN 300 MAX 600) -- 5~10分钟自动刷新
LAYOUT(HASHED())

Manually reload:

SYSTEM RELOAD DICTIONARY
ON CLUSTER default_cluster
ip_region_dict;

Usage

dictGet('xxx.ip_region_dict', 'city', intDiv(IPv4StringToNumOrDefault(ip), 256))

UDF:

CREATE FUNCTION getIPCity
ON CLUSTER default_cluster
AS (ip) ->
dictGet('xxx.ip_region_dict', 'city', intDiv(IPv4StringToNumOrDefault(ip), 256));

Jun 8

解析一个简单的分布式事务Case

felix021 @ 2018-6-8 21:41 [IT » 数据库] 评论(0) , 引用(0) , 阅读(3840) | Via 本站原创

注：这篇是3月初在公司内部平台上发布的，搬一份到 blog 存档。
===

我注意到过去几个月有些同学还在踩一个简单的分布式事务Case的坑，而这个坑我们在两年以前就已经有同学踩过了，这里简单解析一下这个case和合适的处理方案，供各位参考。

# 1. 踩过的坑

这个case有很多变种，先说说我们在 X 业务踩过的坑开始，大约是16年9月，核心业务需求是很简单的：在用户发起支付请求的时候，从用户的银行卡扣一笔钱。负责这个需求的同学是这么写的代码（去除其他业务逻辑的简化版）：

$dbTrans = $db->beginTransaction();
try {
$order = PayRequest::model()->newPayRequest(...); #在数据库中插入一条支付请求记录，状态为待支付
//其他业务改动
$result = PaySvr::pay($order->id, $order->amount); #请求PaySvr（或第三方支付通道）扣款
if ($result['code'] == PaySvr::E_SUCCESS) {
$order->setAsSucceeded();
} else {
$order->setAsPending();
}
$dbTrans->commit();
} catch (Exception $e) {
$dbTrans->rollback();
}

乍一看好像是没有什么毛病，测试的case都顺利通过，也没有人去仔细review这一小段代码，于是就这么上线了。但问题很快就暴露出来，PaySvr在支付成功以后尝试回调，业务系统报错”订单不存在”。查询线上日志发现，这笔订单在请求第三方支付通道时网络超时，Curl抛了timeout异常，导致支付记录被回滚。有心的同学可以自己复现一下这个问题，观察BUG的发生过程。

代码修复起来倒是很简单，在请求PaySvr之前提交事务，将支付请求安全落库即可。

$dbTrans = $db->beginTransaction();
try {
$order = PayRequest::model()->newPayRequest(...);
$order->setAsPending();
//其他业务改动
$dbTrans->commit(); #先将支付请求落地
} catch (Exception $e) {
$dbTrans->rollback();
}

#再请求PaySvr
$result = PaySvr::pay($order->id, $order->amount);

#根据PaySvr结果修改支付请求和其他业务记录的状态
$dbTrans = $db->beginTransaction();
try {
if ($result['code'] == PaySvr::E_SUCCESS) {
$order->setAsSucceeded();
//其他业务改动
} elseif ($result['code'] == PaySvr::E_FAIL) {
$order->setAsFailed();
//其他业务改动
} else {
//等待后续cron补单
}
$dbTrans->commit();
} catch (Exception $e) {
$dbTrans->rollback();
}

把这个实现代入多个不同的业务下，还会衍生出更多问题，比如被动代扣业务，就可能因为重试导致用户被多次扣款，引起投诉（支付通道对投诉率的要求非常严格，甚至可能导致通道被关停）；更严重的是放款业务，可能出现重复放款，给公司造成直接损失。据说某友商就是因为重复放款倒闭的，所以请各位同学在实现类似业务时特别注意，考虑周全。

# 2. 归纳总结

我们往后退一步再审视这个case，这段简单的代码涉及了两个系统：X 业务系统（本地数据库）、PaySvr（外部系统）。可以看得出这段代码的本意，是期望将当前系统的业务和外部系统的业务，合并到一个事务里面，要么一起成功提交，要么一起失败回滚，从而保持两个系统的一致性。

之所以没能达到预期，直接原因是，在失败（异常）回滚的时候，只回滚了本地事务，而没有回滚远端系统的状态变化。按这个思路去考虑，似乎只要加一个 PaySvr::rollbackRequest($order->id) 好像就可以解决问题。但仔细想想就会发现远没这么简单，从业务上来说，如果已经给用户付款了，那实际上就是要给用户退款，而往往这时候是掉单（支付请求结果未知），我们又无法直接给用户退款；更极端一点，如果这个rollback请求也超时了呢，那本地可以rollback吗？

这就是分布式事务棘手的地方了，只靠这样的逻辑是无法保证跨系统的一致性的。解决这个问题的方法是引入两段式提交（2 Phase Commit，常常简写为2PC），其基本逻辑是，在两个系统分别完成业务，然后再分别提交。

例如我们上面的解决方案，实际上就是2PC的一个实现：我们把业务需求作为一整个事务，它可以拆成两个子事务（第三方支付通道完成代扣，在业务系统记录支付请求成功并修改相应业务状态），每个子事务又分成两个阶段：第一阶段，是在本地先记录支付请求（状态为待确认），并向第三方支付发出代扣请求（结果不确定）；第二阶段，在确认第三方代扣成功以后，修改本地支付请求的状态修改为成功，或者是代扣结果为失败，本地支付请求状态记为失败。两个阶段都完成，这个事务才是真的完成了。

# 3. Case变种

仔细思考我们曾经实现过的需求，可能会在很多看似不起眼的地方发现分布式事务，例如我们在存管匹配系统里面，就有这样一个Case。

由于与银行存管系统交互的延迟比较大，所以我们的匹配系统实现是异步的，匹配系统在撮合了资金和资产以后，会生成一条债权关系记录在本地，随后再发送到银行系统执行资金的划拨。为了提高执行的效率，我们希望在债权关系生成以后，尽快执行资金的划拨，因此我们会把资金划拨的指令通过LPush放进Redis的list里；List的另一端，那些使用BLPOP监听数据的worker会立刻被激活去执行。

如果没有仔细思考，代码可能会这么写：

#匹配系统
function matcher() {
$dbTrans = $db->beginTransaction();
try {
foreach (matchCapitalAndProject() as $match_result) {
list($capital_id, $project_id, $amount) = $match_result;
$relation = Relation::model()->create($capital_id, $project_id, $amount);
$redis->lPush($relation->id);
}
$dbTrans->commit();
} catch (Exception $e) {
$dbTrans->rollback();
}
}

#Worker
function Worker() {
while (true) {
$id = $redis->brPop();
$relation = Relation::model()->findByPk($id);
if ($relation) {
HengfengApi::invest($relation->capital_id, $relation->project_id, $amount);
}
}
}

在实际执行这段代码的时候，如果没有仔细测试（尤其是在有补单逻辑，捞出未执行成功的划拨指令再发送给银行），可能就不会发现，实际上有很多指令并不是马上被执行的，因为relation_id被送进list以后，worker马上就会读出来执行，但这时事务可能还没有提交。但这只是影响了业务的效率，还没有对业务的正确性产生影响。

为了修复这个问题，似乎可以这么做：把 [capital_id, project_id, amount] 发送到redis，worker直接取出执行，这样就不用从数据库读取relation，保证尽快将请求发送到银行。但如果因为某些原因，事务最终没有被提交呢？找银行rollback这些指令的执行，那就麻烦多了。

正确的做法是，在事务提交了以后，再lPush到Redis里：

#匹配系统
function matcher() {
$arr_relation = [];
$dbTrans = $db->beginTransaction();
try {
foreach (matchCapitalAndProject() as $match_result) {
list($capital_id, $project_id, $amount) = $match_result;
$relation = Relation::model()->create($capital_id, $project_id, $amount);
$arr_relation[] = $relation;
}
$dbTrans->commit();
} catch (Exception $e) {
$dbTrans->rollback();
$arr_relation = []; #清空，避免被push到队列里
}
foreach ($arr_relation as $relation) {
$redis->lPush($relation->id);
}
}
注：foreach要放到try-catch后面。

最后想补充一点，相信有很多同学知道这个Case，或者就算不知道也不会犯这样的错误，因此也许会觉得没必要专门揪出来这样分享 —— 但“知识的诅咒”就是这样，“我会的东西都是简单的”，然而对于没有踩过坑的同学来说，其实都是宝贵的经验；另一方面，有些别人觉得简单的问题、踩过的坑，也许自己是不知道的。所以，希望大家都能分享自己在工作学习中踩过的坑、解决过的问题，互相交流，互相提高。

Mar 29

浅析嵌套数据库事务

felix021 @ 2018-3-29 22:00 [IT » 数据库] 评论(0) , 引用(0) , 阅读(10761) | Via 本站原创

大家都知道，数据库事务提供的强一致性，让我们只需要在业务开始之前执行begin、结束后执行commit，并在异常的情况下执行rollback，就能够保证业务数据的强一致性。

## 1. 转一笔账

以一个转账操作为例，从from账户往to账户转一笔钱，涉及到两个账户的操作，我们用事务来保证数据的一致性：

如上面的栗子所见，我们往往会把数据库操作封装到底层模块（常常是model）里，对上层提供API，这样既保证了上层业务的可读性，也使得代码的可复用性提高了。

## 2. 充一笔钱，踩一个坑

说到复用性，那就是说，可能会有另一个业务需要调用它，比如充值，这个业务很简单，只涉及到一个账户，似乎可以简单点：

function actionDeposit(Account $account, int $amount)
{
$account->deposit($amount);
}

这样看起来好像也没啥问题，对吧？但细心的小伙伴可能注意到了，代码里的 `changeBalance` 函数挖了个坑：在修改完账户余额以后会创建一条流水记录。如果没有开启事务的话，极端情况下会出现账户余额改好了，却没记录流水的情况，这就尴尬了。

当然这里只要在 `actionDeposit` 里开启了事务就能解决这个问题，但是基于防御性编程的习惯，`changeBalance` 这个方法本身作为一个独立的业务，应当尽最大努力确保其内业务的一致性，更直白一点说，就是也开启一个事务：

protected function changeBalance($amount)
{
$this->db->begin();
try {
$this->db->exec("update account set balance ...", ...);
AccountLog::create($this->id, $amount);
$this->db->commit();
} catch (Exception $e) {
$this->db->rollback()
throw $e; //确保上层业务知晓发生了异常
}
}

我们期望每一段代码都像这样对自己的业务负责，那么程序员不管在哪一层写代码，都能写得放心。

## 3. 嵌套事务

但到目前为止还没有到到期望的这么美好：如果只是在同一个流程里连续使用 begin ，实际上只会启动一个事务，遇到第一个 commit 就会结束事务，后续如果出现异常，rollback 无法达到预期的效果：

引用

mysql> begin;
Query OK, 0 rows affected (0.00 sec)

mysql> update account set balance = balance + 1 where id = 1;
Query OK, 1 row affected (0.01 sec)

mysql> begin;
Query OK, 0 rows affected (0.01 sec)

mysql> update account set balance = balance - 1 where id = 2;
Query OK, 1 row affected (0.01 sec)

mysql> commit;
Query OK, 0 rows affected (0.00 sec)

mysql> rollback;
Query OK, 0 rows affected (0.00 sec)

mysql> select * from account;
+----+---------+
| id | balance |
+----+---------+
| 1 | 1001 |
| 2 | 999 |
+----+---------+

还好的是，MySQL提供了嵌套事务的支持，可以使用其 SavePoint 特性来达到这个效果：

引用

mysql> begin;
Query OK, 0 rows affected (0.00 sec)

mysql> update account set balance = balance + 1 where id = 1;
Query OK, 1 row affected (0.00 sec)

mysql> savepoint level1;
Query OK, 0 rows affected (0.00 sec)

mysql> update account set balance = balance - 1 where id = 2;
Query OK, 1 row affected (0.00 sec)

mysql> release savepoint level1;
Query OK, 0 rows affected (0.00 sec)

mysql> rollback;
Query OK, 0 rows affected (0.00 sec)

mysql> select * from account;
+----+---------+
| id | balance |
+----+---------+
| 1 | 1000 |
| 2 | 1000 |
+----+---------+

利用这一点，我们就可以写出一个支持嵌套事务的数据库模块：

class Database
{
protected $level = 0;
public function begin()
{
if ($this->level == 0) {
$this->exec("begin");
} else {
$this->exec("savepoint level{$this->level}");
}
$this->level += 1;
}

public function commit()
{
$this->level -= 1;
if ($this->level == 0) {
$this->exec("commit");
} else {
$this->exec("release savepoint level{$this->level}");
}
}

public function rollback()
{
$this->level -= 1;
if ($this->level == 0) {
$this->exec("rollback");
} else {
$this->exec("rollback to savepoint level{$this->level}");
}
}
}

当然，对于不支持 savepoint 特性的DBMS，也不是不能解决这个问题，只要在 `level != 0` 的时候不执行 commit 或者 rollback 就行，只是无法达到 savepoint 的效果。

加上这个改动的具体实现这里就不贴了，感兴趣的小伙伴建议自己动手写写看，实在太懒也可以查看 Yii2.0 中`yii\db\Transaction` 的实现 —— 其实上面这段代码就是对 Yii2.0 实现的一个简化版本。喜欢 Laravel 的小伙伴，在 `Illuminate\Database\Concerns\ManagesTransactions` 也能找到类似的应用。

## 4. 找坑和填坑

我们实现的这个嵌套事务方案，使得每一部分代码都能够健壮地实现其业务。但是，在具体编码过程中会常常还会遇到两个大坑：坑一是 begin 和 commit/rollback 不配对，坑二是出了错忘记反馈给上层。在上面的实现里，要避开这两个坑，完全依赖程序员的编码习惯。但墨菲定律告诉我们……说多了都是泪，总之就是“依赖人来保证正确性”这件事情永远是不靠谱的。

那怎么改变这一点呢？Laravel 的解决方案是由代码本身来填坑，所以实现了 `ManagesTransactions->transaction` 这个方法（以下略作简化，省略了失败重试机制及相应的死锁处理，这一部分建议详读 laravel 的相关代码）：

public function transaction(Closure $callback)
{
$this->begin();
try {
$value = $callback();
$this->commit();
return $value;
} catch (Exception $e) {
$this->rollback();
throw $e;
}
}

于是程序员们就可以这么干了：

public function actionTransfer($from, $to, $amount)
{
DB::transaction(function () use ($from, $to, $amount) {
$from->withdraw($amount);
$to->deposit($amount);
})
}

当然，这个方案也不是完全没代价的，其中最重要的是，程序员们要严格遵守一个基本约定：**遇到错误的时候抛出异常**，以便封装层自动执行rollback。虽然也是约定，但是不像前面那两个约定那么晦涩，应该更容易遵守吧。

另外，如果在rollback之前还希望做一些清理操作（包括打log之类的），需要在callback里面再包一层 try-catch ；但如果遇到 commit 失败这种极端情况，清理操作仍无法被执行。这可以通过一个更复杂的约定（比如返回一个包含清理操作的 $clean_callback），但鉴于实际上不太有这种需要，得不偿失，所以大概就这样吧。

这种方案，在 C++ 里面有很多类似的例子，甚至还有一个专有名词 RAII （Resource Acquisition Is Initialization），“资源获取即初始化”，念起来有点拗口，其逻辑是在获取一个资源的时候立即初始化，并且在资源生命周期结束的时候自动销毁，避免因为程序员遗忘导致非预期的异常。常见的应用场景，包括打开文件（自动关闭）、多线程并发获取互斥锁（自动解锁）、申请内存资源（自动释放）等等。

如果你觉得看明白了，不妨试着写一个文件锁(flock)的代码练练手？

Sep 22

MySQL Alter Table锁表相关的....提纲?

felix021 @ 2017-9-22 00:07 [IT » 数据库] 评论(0) , 引用(0) , 阅读(11754) | Via 本站原创

（瞅一眼才发现四个月没写了，确实是好久没写代码了，没啥心得，不过想想好像可以写个提纲凑个数）

我们的业务主要还是用 MySQL 存储业务数据。

MySQL 一个很麻烦的问题是，alter table 的时候往往要锁表，而业务在最初设计的时候，又没法为未来的所有改动预留合适的字段，结果就是，要么另外建一张表横向扩展，要么熬到半夜，忍受锁表带来的业务中断；不过在多次实践中还是有一些心得体会，可以简单列一下。

1. alter table 是否都会锁表？

不都会，有些情况可以不锁表，例如，修改默认值，或者对 enum 类型字段增加一个 value

2. 对 enum 类型字段加 value 就不会锁表吗？

不一定，如果新增的 value 是最后一个就不会锁表，但也要注意，还是有坑（不能超过当前的bit数能表示的最大值）（为什么？）

3. 有没办法即 alter table 但又不长时间锁表？

有，percona-toolkit 有个工具能做到，原理很简单，新建一个表A的副本A'，在A'上加字段，并同步数据，最后用一个 alter 语句对换两张表，但据说有BUG

4. 安利一下与 MySQL 协议基本兼容的 TiDB ，可以直接在线不锁表 alter table

Mar 21

Moving the database out of /var/lib/mysql

felix021 @ 2013-3-21 23:44 [IT » 数据库] 评论(1) , 引用(0) , 阅读(25673) | Via 本站原创

After wasting over 45 minutes on moving database out of the default "/var/lib/mysql" on Ubuntu, I think this crazy problem should be written down, in case someone get confused by the same problem again.

I thought this problem to be very simple: go to /etc/mysql/, edit my.cnf, change the "datadir = /var/lib/mysql" to a new place, say, /home/mysql, and run "service mysql restart". But mysqld just refused to start, it says something like this:

引用

/usr/sbin/mysqld: Can't find file: './mysql/plugin.frm' (errno: 13)
130321 22:48:26 [ERROR] Can't open the mysql.plugin table. Please run mysql_upgrade to create it.
130321 22:48:26 [Note] Server hostname (bind-address): '127.0.0.1'; port: 3306
130321 22:48:26 [Note] - '127.0.0.1' resolves to '127.0.0.1';
130321 22:48:26 [Note] Server socket created on IP: '127.0.0.1'.
130321 22:48:26 [ERROR] /usr/sbin/mysqld: Can't find file: './mysql/host.frm' (errno: 13)
130321 22:48:26 [ERROR] Fatal error: Can't open and lock privilege tables: Can't find file: './mysql/host.frm' (errno: 13)

I'm very sure I've done chmod/chgrp to "/home/mysql", so it won't be file permission problem. It occurred to me that the original database 'mysql' may contain some path information, since it's a newly installation, so I backed up the mysql directory, tried to run "mysql_install_db --user=mysql --datadir=/home/mysql", and failed again:

引用

$ mysql_install_db --user=mysql --datadir=/home/mysql/
Installing MySQL system tables...
130321 23:18:17 [Warning] Can't create test file /home/mysql/localhost.lower-test
130321 23:18:17 [Warning] Can't create test file /home/mysql/localhost.lower-test

Installation of system tables failed! Examine the logs in/home/mysql/ for more information.

and two more lines were added to the error.log:

引用

ERROR: 1005 Can't create table 'db' (errno: 13)
130321 23:06:48 [ERROR] Aborting

That was weird. I used bash -x to run mysql_install_db again (it's a bash script) and found out that It started mysqld with some certain parameters which printed the Warning message shown above. So the problem went back to mysqld. A forum thread somewhere also noticed the problem but didn't come up with a solution.

With no choice, I went through the manual of mysql_install_db, and fortunately found a comment at the end of the page:

引用

Ubuntu 9.10
Moving the database from /var/lib/mysql to /data/databases/mysql

You'll get errors when running mysql_install_db until you go into /etc/apparmor.d, update the usr.sbin.mysql file, and run /etc/init.d/apparmor restart

You may also get an error when running /etc/init.d/mysql start:

Access denied for user debian-sys-maint at localhost

Check /etc/mysql/debian.cnf for the account information.

You'll need to run mysql, add the grant tables, and then restart mysql.

As the 'usr.sbin.mysql' requests, I added two lines to the end of "/etc/apparmor.d/local/user.sbin.mysql" and restarted apparmor(/etc/init.d/apparmor restart), thus fixed the problem.

引用

/home/mysql/ r,
/home/mysql/** rwk,

Dec 31

蛋疼的mysql_ping()以及MYSQL_OPT_RECONNECT

felix021 @ 2012-12-31 02:56 [IT » 数据库] 评论(3) , 引用(0) , 阅读(42091) | Via 本站原创

昨天@Zind同学找到我之前的一篇blog(已经修改)，里面提到了mysql_ping和MYSQL_OPT_RECONNECT的一些事情。

之所以写那篇blog，是因为去年写的一些代码遇到了“2006:MySQL server has gone away”错误。这个问题是因为wait_timeout这个参数的默认值是28800，也就是说，如果一个连接连续8个小时没有任何请求，那么Server端就会把它断开。在测试环境中一个晚上没有请求很正常……于是第二天早上来的时候就发现这个错误了。

其实我有考虑这个问题的，真的……因为我知道php里面有个函数叫做mysql_ping()，PHP手册上说：“mysql_ping() 检查到服务器的连接是否正常。如果断开，则自动尝试连接。本函数可用于空闲很久的脚本来检查服务器是否关闭了连接，如果有必要则重新连接上。”

回想起来，以前真是很傻很天真。根据MySQL官方C API里mysql_ping()的文档："Checks whether the connection to the server is working. If the connection has gone down and auto-reconnect is enabled an attempt to reconnect is made. ... Auto-reconnect is disabled by default. To enable it, call mysql_options() with the MYSQL_OPT_RECONNECT option"，也就是说，它实际上还依赖于MYSQL_OPT_RECONNECT这个配置，而这个配置默认（自5.0.3开始）是关闭的！

虽然想起来很愤怒很蛋疼，不过看到 libmysql/client.c: mysql_init() 里的注释就淡定了：

引用

By default we don't reconnect because it could silently corrupt data (after reconnection you potentially lose table locks, user variables, session variables (transactions but they are specifically dealt with in mysql_reconnect()). This is a change: < 5.0.3 mysql->reconnect was set to 1 by default.

好吧，既然有问题，那就正视它。解决办法是调用 mysql_options ，将MYSQL_OPT_RECONNECT设置为1:

char value = 1;
mysql_options(mysql, MYSQL_OPT_RECONNECT, &value);

但是!! 在mysql 5.0.19 之前，mysql->reconnect = 0 这一句是放在 mysql_real_connect() 里面的！也就是说，如果你不能像处理其他选项一样，而是必须在mysql_real_connect()之前设置MYSQL_OPT_RECONNECT，坑爹啊！

好吧好吧，总之，关于坑的问题暂告一段落，结论就是，不管是哪个版本，如果你想要启用自动重连，最好都是在mysql_real_connect()之后，反正不会错。

然后这篇的重点来了（前面似乎太罗嗦了点）：MYSQL_OPT_RECONNECT的文档里头说了，这个选项是用来启用/禁用（当发现连接断开时的）自动重连，那么，MYSQL什么时候会发现链接断开呢？

这个问题可能太大了，不过不妨先去追一下，mysql_ping()做了啥。

下载源码 http://cdn.mysql.com/Downloads/MySQL-5.1/mysql-5.1.67.tar.gz ，解压以后ctags -R，再vim -t mysql_ping ，马上就定位到了，似乎太简单了点：

int STDCALL
mysql_ping(MYSQL *mysql)
{
int res;
DBUG_ENTER("mysql_ping");
res= simple_command(mysql,COM_PING,0,0,0); //试着向服务器发送一个ping包
if (res == CR_SERVER_LOST && mysql->reconnect) //如果server挂了，而mysql->reconnect为true
res= simple_command(mysql,COM_PING,0,0,0); //再ping一次？？
DBUG_RETURN(res);
}

好吧，看来关键在于这个simple_command了。ctrl+]，原来是这样：

#define simple_command(mysql, command, arg, length, skip_check) \
(*(mysql)->methods->advanced_command)(mysql, command, 0, 0, arg, length, skip_check, NULL)

好吧，先去追一下MYSQL，里头有个 const struct st_mysql_methods *methods ，再追一下 st_mysql_methods ....

typedef struct st_mysql_methods
{
my_bool (*read_query_result)(MYSQL *mysql);
my_bool (*advanced_command)(MYSQL *mysql, enum enum_server_command command,
const unsigned char *header, unsigned long header_length,
const unsigned char *arg, unsigned long arg_length,
my_bool skip_check, MYSQL_STMT *stmt);
......

坑爹啊！又是这种鸟代码！蛋疼的C语言！struct只有属性没有方法！没办法，只能暴力了：

引用

find -name '*.c' -exec /bin/grep '{}' -Hne 'mysql->methods *=' ';'
./libmysql_r/client.c:1907: mysql->methods= &client_methods;
./sql-common/client.c:1907: mysql->methods= &client_methods;
./libmysql/client.c:1907: mysql->methods= &client_methods;
./libmysqld/libmysqld.c:120: mysql->methods= &embedded_methods;
./sql/client.c:1907: mysql->methods= &client_methods;

果断追到client_methods:

static MYSQL_METHODS client_methods=
{
cli_read_query_result, /* read_query_result */
cli_advanced_command, /* advanced_command */
...

也就是说simple_command最后调用了cli_advanced_command这个函数。前面的 simple_command(mysql,COM_PING,0,0,0) 相当于是调用了 cli_advanced_command(mysql, COM_PING, 0, 0, 0, 0, 0, NULL) 。

这个函数做了啥呢。。。其实也不复杂：
1. 设置默认返回值为1 （意外出错goto时被返回）
2. 设置sigpipe的handler（以便忽略它）
3. 如果 mysql->net.vio == 0 ，那么调用mysql_reconnect重连，失败的话就返回1
4. mysql没准备好，返回1
5. 清除之前的信息（错误码、缓冲区、affected_rows）等等
6. 调用net_write_command将命令发送给server，如果失败：
6.1 检查错误信息，如果是因为发送包太大，goto end
6.2 调用end_server(mysql)关闭连接
6.3 调用mysql_reconnect尝试重连，如果失败goto end
6.4 再次调用net_write_command将命令发送给server，失败则goto end
7. 设置result = 0（发送成功）
8. 如果参数中要求检查server的返回，则读取一个packet进行检查（失败的话就result=1）
9. (end标签)
10. 恢复sigpipe
11. 返回result

可以看到，这里两次调用了mysql_reconnect，但都是有条件的：第一次是在mysql->net.vio == 0的情况下，第二次是net_write_command失败且不是因为包太大的情况。vio相关的代码看得一头雾水，实在找不出头绪，于是决定暴力一点：直接修改这个函数，加入一堆fprintf(stderr, ...)（具体加在哪里就不说了，反正使劲塞就是了），然后写了一个C代码：

#include <stdio.h>
#include <stdlib.h>
#include <mysql/mysql.h>

void do_err(MYSQL *mysql) {
if (mysql_errno(mysql)) {
fprintf(stderr, "%d:%s\n", mysql_errno(mysql), mysql_error(mysql));
exit(mysql_errno(mysql));
}
}

int main()
{
MYSQL * mysql = mysql_init(NULL);
do_err(mysql);

mysql_real_connect(mysql, "127.0.0.1", "root", "123456", "test", 3306, NULL, 0);
do_err(mysql);

char value = 1;
mysql_options(mysql, MYSQL_OPT_RECONNECT, &value);

char cmd[1024] = "SELECT * FROM t";
while (1) {
mysql_query(mysql, cmd);
do_err(mysql);

MYSQL_RES *result = mysql_store_result(mysql);

MYSQL_ROW row;
while ((row = mysql_fetch_row(result)) != NULL) {
int i, num_fields = mysql_num_fields(result);
for (i = 0; i < num_fields; i++)
printf("%s\t", row[i] ? row[i] : "NULL");
//注意上一句是不是二进制安全的，因为row里头可能包含\0，也可能末尾没有\0
printf("\n");
}

mysql_free_result(result);
printf("press enter..."); getchar();
}
mysql_close(mysql);
return 0;
}

运行输出：

引用

inside mysql_real_query
mysql->net.vio = 0x90e760
mysql->status = 0
net write_command
after send_query
---
1
2
press enter...//按回车之前先重启一下mysql server，下面这几句按照函数调用层次进行手动缩进了……
inside mysql_real_query
mysql->net.vio = 0x90e760 //进入cli_advanced_command
mysql->status = 0
net_write_command
end_server //说明net_write_command失败了
inside mysql_reconnect //它会调用mysql_real_query
inside mysql_real_query
mysql->net.vio = 0x919990 //于是又回到了cli_advanced_command
mysql->status = 0
net_write_command //这次成功了
after send_query //这句我是写在mysql_real_query里面的
reconnect succeded
after reconnect: mysql->status = 0
after send_query //所以又来一次。。

根据fprintf的输出，发现在正常情况下，mysql->net.vio这个指针并不等于0，所以第一个mysql_reconnect不会被调用。而net_write_command也是正确执行，第二个reconnect也没被调用。

而在执行完一个query，然后重启mysql server再执行query (mysql_query => mysql_real_query => mysql_send_query => cli_advanced_command)，就会发现，mysql->net.vio仍然不等于0，但是net_write_command失败了，于是先调用了end_server()（这里面会将mysql->net.vio设置为0，不过不影响后面的流程...），然后调用了第二个reconnect，这个reconnect会调用mysql_init()以及mysql_real_query()执行一些初始化的命令，于是又回到cli_advanced_command，再一步一步回溯。。。

综上可知，如果设置了MYSQL_OPT_RECONNECT()，那么mysql_query()是可以完成自动重连的。实际上，由于cli_advanced_command会在必要情况下调用mysql_reconnect（实际上这个函数也只在这里被调用），因此，所有用到了cli_read_query_result的地方（或者simple_command），也都可以完成自动重连。

完结。

//混蛋，这篇纯粹是为了凑一月至少一篇这个目标啊！

分页： 1/3

1 2 3

[ 显示模式：摘要 | 列表 ]