数据库中的重型字段迁移优化（golang）

最近在数据迁移中的一些优化点，在这里分享一些，当然也不一定是最优的，欢迎讨论。

首先，在某些数据表中的字段，存着非常大的json数据。

并且有几十万行数据，需要更改json中的某个数组字段，追加一些元素。

常规方式

读取所有的行
json反序列化
修改数据
json序列号并保持到数据库

有几个问题

内存占用非常大，每行大概至少有8KB的数据，各种对象，内存申请，这个迁移程序可能会吃到数G的内存。
性能也不好，在读取数据库期间，其实是浪费了的

第二次优化

按每个团队划分，分别查询，内存降低了一点，因为golang中，使用过的对象并不会立即GC掉。

由于频繁的make对象，所以内存不会立即gc，内存还是比较高的。

第三次优化

使用golang中的Pool功能来复用对象：

var issueTypePool = sync.Pool{ New: func() interface{} { return make([]*IssueType, 0) }, }

数据库查询

issueTypes := issueTypePool.Get().([]*IssueType) _, err := tx.Select(&issueTypes, sql, teamUUID) if err != nil { return nil, err }

恢复对象到对象池：

defer issueTypePool.Put(issueTypes[:0])

这样已经不错了，对象能复用，内存占用取决于最大的团队的内存占用。。

第四次优化

使用golang中的游标方式。

下面的代码中有第二个参数就是channel缓冲区，并且在rows中边读边丢入channel

func AllObjects(tx sq.DB, issueTypeChan chan<- IssueType) error { // 。。。。 for rows.Next() { it := new(IssueType) err = rows.Scan(&it.UUID, &it.TeamUUID, &it.DefaultConfigs) if err != nil { return err } issueTypeChan <- it } return nil }

启动goroutine，并在持续从chan缓冲区读取数据，同时对数据修改迁移，并写入数据库。

issueTypeChan := make(chan IssueType, 1000) doneChan := make(chan bool) timer := time.NewTimer(5 time.Second) defer timer.Stop()

go func() { for { select { case <-timer.C: close(doneChan) fmt.Println("done...") return case it := <-issueTypeChan: timer.Reset(5 * time.Second) // TODO .... } } }()

这样就比较满意了，但是这种方式还没有经过测试，理论上读写分离之后，性能是更优的。

数据库中的重型字段迁移优化（golang）

常规方式

第二次优化

第三次优化

第四次优化

Comments

More from this blog

会有越来的多的side projects出现

Hello world

Xbox Cloud Gaming 游戏加速尝试

github codespaces 在ipad上的最佳浏览器

基于binlog检查数据错误

Command Palette

常规方式

第二次优化

第三次优化

第四次优化

Comments

More from this blog