游戏蛮牛学习群(纯技术交流,不闲聊):159852603
游戏蛮牛 手机端
开启辅助访问
 找回密码
 注册帐号

扫一扫,访问微社区

开发者专栏

关注:2310

当前位置:游戏蛮牛 技术专区 开发者专栏

__________________________________________________________________________________
开发者干货区版块规则:

  1、文章必须是图文形式。(至少2幅图)
      2、文章字数必须保持在1500字节以上。(编辑器右下角有字数检查)
      3、本版块只支持在游戏蛮牛原创首发,不支持转载。
      4、本版块回复不得无意义,如:顶、呵呵、不错......【真的会扣分的哦】
      5、......
__________________________________________________________________________________
查看: 718|回复: 5

[士郎] 这是一份非常全面的开源数据集,你,真的不想要吗?

[复制链接]  [移动端链接]
排名
3
昨日变化

6796

主题

7320

帖子

2万

积分

Rank: 16

UID
1231
好友
185
蛮牛币
7210
威望
30
注册时间
2013-7-29
在线时间
3496 小时
最后登录
2018-9-19

社区QQ达人活力之星原创精华达人突出贡献奖财富之证游戏蛮牛QQ群会员蛮牛妹VIP

发表于 7 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册帐号

x
选自Medium,作者:Bharath Raj,机器之心编译,参与:高璇、王淑婷。
近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~)

最近新增数据集












自然图像数据集

  • MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
  • http://yann.lecun.com/exdb/mnist/









  • ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
  • http://image-net.org/

  • LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
  • http://lsun.cs.princeton.edu/2016/





地理空间数据




————————我是深度学习图像的分割线————————

人工数据集

  • Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
  • https://github.com/caglar/Arcade-Universe









人脸数据集

  • Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。
  • [url=http://link.zhihu.com/?target=http%3A//vis-www.cs.umass.edu/lfw/]http://vis-www.cs.umass.edu/lfw/[/url]














————————我是深度学习视频的分割线————————

视频数据集


文本数据集

  • 20 newsgroups:分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,通常可用作纯分类的基准或任何 IR /索引算法的验证。
  • http://qwone.com/~jason/20Newsgroups/



  • UCI‘s Spambase:来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的组织细节,可以将它作为学习私人垃圾邮件过滤的基线。
  • https://archive.ics.uci.edu/ml/datasets/Spambase






  • Common Crawl:网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集,因为它可在万维网进行抓取。
  • http://commoncrawl.org/the-data/



————————我是深度学习文本的分割线————————

问答数据集







情感数据集




推荐和排名系统






  • Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
  • http://www.netflixprize.com/

————————我是深度学习图表的分割线————————

网络和图形

  • Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
  • http://snap.stanford.edu/data/#amazon


语音数据集


  • LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
  • http://www.openslr.org/12/

  • VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
  • http://www.voxforge.org/


  • CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
  • http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


————————我是深度学习音频的分割线————————

音符音乐数据集





其它数据集







健康 &生物数据




政府&统计数据






跟我念“站长妹纸萌萌哒!”我说站长,你说YO!爱你们么么哒~
回复

使用道具 举报

7日久生情
1548/5000
排名
1494
昨日变化
4

11

主题

228

帖子

1548

积分

Rank: 7Rank: 7Rank: 7Rank: 7

UID
99182
好友
0
蛮牛币
2019
威望
0
注册时间
2015-5-10
在线时间
515 小时
最后登录
2018-9-19
发表于 7 天前 | 显示全部楼层
感谢分享,非常实用!

回复 支持 反对

使用道具 举报

4四处流浪
407/500
排名
12792
昨日变化
10

3

主题

143

帖子

407

积分

Rank: 4

UID
216830
好友
2
蛮牛币
292
威望
0
注册时间
2017-4-9
在线时间
197 小时
最后登录
2018-9-19
发表于 7 天前 | 显示全部楼层
看起来就很厉害的样子

回复 支持 反对

使用道具 举报

6蛮牛粉丝
1383/1500
排名
2079
昨日变化
19

0

主题

364

帖子

1383

积分

Rank: 6Rank: 6Rank: 6

UID
136635
好友
0
蛮牛币
1400
威望
0
注册时间
2016-2-15
在线时间
399 小时
最后登录
2018-9-19
发表于 前天 13:10 | 显示全部楼层
很好,感谢分享

回复

使用道具 举报

排名
21896
昨日变化
2227

0

主题

39

帖子

75

积分

Rank: 2Rank: 2

UID
292646
好友
0
蛮牛币
66
威望
0
注册时间
2018-8-6
在线时间
16 小时
最后登录
2018-9-19
发表于 前天 17:18 | 显示全部楼层
谢谢大佬的资源6

回复 支持 反对

使用道具 举报

5熟悉之中
743/1000
排名
3693
昨日变化
21

0

主题

185

帖子

743

积分

Rank: 5Rank: 5

UID
14313
好友
8
蛮牛币
851
威望
0
注册时间
2014-2-13
在线时间
186 小时
最后登录
2018-9-19
QQ
发表于 前天 18:57 | 显示全部楼层
楼主真厉害。。。。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册帐号

本版积分规则

关闭

站长推荐 上一条 /1 下一条

快速回复 返回顶部 返回列表