Mysql插入数据去重方法 - 好文

最近写爬虫，有需求需要将数据插入mysql，由于爬虫采用分布式，可能会多次爬重复页，这时候就需要对数据去重

假设：

表：test 含 id，a，b （3个字段）

主键id自增。

1.根据单个字段去重

以navicat为例，右键设计表-》索引，选择字段加上unique即可。

输入插入语句：

INSERT into test(a,b) VALUES('a','b')

再次运行：（会报出一个错：Duplicate entry 'a' for key 'ix_a'）这时再在代码里捕捉异常即可，说明已经存在a字段有重复值了。

上面是根据一个字段去重只有在a字段相同，如果想根据两个字段来去重
比如：当a和b字段都不同，即允许其中一个可重复，如插入(a,b)(a,c)(a,d)这样，但两个都相同则无法插入，只需要再添加一个b字段，这样即可：

如果两个字段插入重复值（报错！）：

如果保存表报出这个错误

1071 Specified key was too long; max key length is 1000 bytes

是因为我的a，b字段使用varchar（两个字段和长度超过了最长）只需要将varchar长度改小即可正常保存

热门工具换一换