作者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)




前方高能预警,非战斗人士请火速撤离……




今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获
918 star 了。




项目地址:

https://github.com/EBazarov/nsfw_data_source_urls









在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:




*
159个 不同的类别

*
158.9331 万个 URL

*
下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像




以下为项目中图片截图示例:









注意事项:




1. 建议下载后清洗下数据集,例如:




*
删除重复图片

*
移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

*
找出损坏的数据并将其删除




2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。




3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。




值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。




项目地址:

https://github.com/alexkimxyz/nsfw_data_scrapper




(本文为AI科技大本营原创文章,转载请微信联系 1092722531)
精彩推荐


推荐阅读:

*
深圳一AI公司人脸数据泄露,超256万用户敏感信息在“裸奔”!
<https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/87400010>

*
成长路线图:如何成为一名Python开发者?
<https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/87310640>

*
5行代码就能入门爬虫? <https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/87568920>

*
Python助你抢红包
<https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=2247484717&idx=1&sn=d844404fdaef06a4fff5f674ff5f2a8a&scene=21#wechat_redirect>

*
干了一年区块链,工作没了,负债累累
<https://blog.csdn.net/Blockchain_lemon/article/details/87399845>

*
讲讲亿级PV的负载均衡架构!
<https://blog.csdn.net/FL63Zv9Zou86950w/article/details/87399857>

*
35 岁程序员,年后第一天被辞退 <https://blog.csdn.net/csdnsevenn/article/details/87219854>

*
手机辐射排行榜:小米、一加远超 iPhone;阿里开工彩票最高奖金 1000 万;苹果再遭集体诉讼 | 极客头条
<https://mp.weixin.qq.com/s?__biz=MjM5MjAwODM4MA==&mid=2650713787&idx=1&sn=aef97ebe827ef4fb5389e0f47acbd96e&scene=21#wechat_redirect>

*
2月报告:Python逆袭成功?踢馆Java,碾压C++!
<https://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559415&idx=2&sn=9f537a4cbb9bc34aa3906e1b0ac014dc&scene=21#wechat_redirect>

                         

点击“阅读原文”,打开CSDN APP 阅读更贴心。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信