100 万行的 xml 文件存入数据库，文件每周更新，求解最佳办法？

已经用 python 写好了读取文件并存入数据库的程序，但现在不知道更新功能应该如何实现。如果是从 mysql 把数据拿下来并一一比较的话太耗时。现在想到的一个方法是写一个 python class 储存所有 xml 里面的内容，然后利用旧文件和新文件创造两个 instance ，并比较得出区别。想问问大家这个是否是最佳选择？

文件内容是一家公司的产品，内容就是<product>（中间有很多 subtag 包含产品具体描述）</product>。

不允许抹掉数据库重新载入内容。文件内的产品信息会改变，产品本身也会有增删的情况。每个产品有独立的型号。

文件

Python

数据库

product

21 条回复 • 2016-03-17 21:50:23 +08:00

knightdf

2016 年 3 月 17 日

"现在想到的一个方法是写一个 python class 储存所有 xml 里面的内容，然后利用旧文件和新文件创造两个 instance ，并比较得出区别。想问问大家这个是否是最佳选择？"
这和 MySQL 拿下来对比有什么区别。。。我觉得一周一次你真不用在乎时间问题。
可以分块算 hash 做局部更新

3dwelcome

2016 年 3 月 17 日

这就是 mysql 的差异化更新策略嘛，两个不同的 mysql 数据库，一个本地一个服务器的，本地的每周清空导入 100 万行数据，然后服务器数据库用差异化对比更新成和本地库一样的。

Sparty

2016 年 3 月 17 日

@knightdf 因为用 python 来比较避免了对服务器的访问，虽然对于少量内容来说消耗时间差不多，但是从服务器上取下所有内容还是很耗时的，这一点我在做 insert 的时候感觉很明显。你说的分块 hash 具体是怎么样，可以展开说一下嘛？

Sparty

2016 年 3 月 17 日

@3dwelcome 谢谢指教，能详细说一下 "差异化更新" 具体指的是什么吗？是在 python 里面实现吗？

icedx

2016 年 3 月 17 日

100 万行的 xml
直接解析 XML 对比 XML 啊

3dwelcome

2016 年 3 月 17 日

我可能说的不严谨，"差异化更新"应该是"差异化同步"。就是利用第三方的 mysql 双数据库同步功能，你只要每周把 py 的数据，直接到入一个本地数据库，然后用现成的工具，(比如 Red-Gate's MySQL Schema & Data Compare, Maatkit, liquibase, Toad, Nob Hill Database Compare, MySQL Diff, SQL EDT)，同步到网上 MYSQL 服务器数据库就可以了。

工具会对比服务器和本地库的差异性，只提交和更新一部分被修改过的数据，做双数据库热更新，这样产生的流量就会很少。

Sparty

2016 年 3 月 17 日

@icedx 这个工作量比读取两个文件生成 python instance 的工作量要大得多吧？毕竟文件是完全格式化的，大概一百行的代码就可以读取到每一条信息，速度也很快。我对文件检查异同没有什么经验，如果有什么好的方法麻烦介绍一下，谢谢。

Sparty

2016 年 3 月 17 日

@3dwelcome
感觉这个方法在技术上最可行而且最能达到需求。
现在情况是这样：服务器上的数据库是被用来给移动端更新本地数据库使用的。他们的要求是移动端建立本地数据库并且每周在服务器数据库更新之后来更新本地数据库。（应用程序的使用场景是离线）这样的话双数据库热更新是否能进一步做到移动端数据库与服务器数据库的同步？