本人产品狗,想问下目前深度学习的应用,比如人脸识别,采用的数据源是经过人工筛选标记的图片才能用来训练么
还有:比如我们现在应用产生的大量数据能在以后用于训练我们的算法么?因为目前团队无 AI 团队,但是每天会有很多数据产生包括语料和图片。这种数据我们有占硬盘的意义么?
1
davy1995 2017-08-29 16:55:30 +08:00 via Android
建议搜索下监督学习和无监督学习
|
2
davy1995 2017-08-29 16:59:29 +08:00 via Android
机器之心 - 从自编码器到生成对抗网络:一文纵览无监督学习研究现状(分享自知乎网) https://zhuanlan.zhihu.com/p/26751367?utm_source=qq&utm_medium=social
|
3
XinLake 2017-08-29 17:00:41 +08:00
图像识别是提取了图像的特征,用一些数据(计算机能理解的数据)去表达一些图像,比如人脸。
具体的技术算法 OpenCV 里有。 可以人工筛选出各种正常人脸拿去训练,得到的数据当然就比较容易识别。如果拿一堆鬼脸,带帽子人脸去训练那估计你也要做鬼脸或带帽子才更容易识别。 现在普通的应用与其说 “人脸识别”,不如说 “人脸检测” 更准确,因为只有人脸就判定 OK。 如果拿特定某一个人各种情况下的脸来训练,那识别出来的可能就是这个人,这才到了真正 “人脸识别” 即通过一张图认出你这个人。 |
4
timetolo 2017-08-29 17:02:30 +08:00
入门级 ML\DL 从业人员前来回答
1.不是 2.1 可以 2.2 有 |
6
cqcn1991 2017-08-29 17:15:53 +08:00
|
7
wzha2008 2017-08-29 18:15:32 +08:00
对你们没用不一定对比别人没用啊,可以把不敏感的拿出来卖
|
8
st2udio 2017-08-29 18:17:58 +08:00
数据很重要,也许现在没想好怎么用。不过可能以后就有用了。留好。占点硬盘罢了
|
9
marenight 2017-08-29 18:23:52 +08:00 via iPhone
对于第一个问题,你了解一下聚类算法,根据生成的 embedding 计算图片之间的距离,自动分类。
|
10
zetary 2017-08-29 19:29:18 +08:00
还是个学生,不过听说对于大部分 AI 创业公司来说技术都差不多是用论文能读到的那些,最有价值的部分就是数据和人才.数据不是一定要标注,这样会有半监督学习和无监督学习的方法可以用,但是目前最成熟的都是监督学习的.标注数据这件事情,有一段时间众包很火,但是现实中似乎很多大公司不缺钱都是用外包的形式去标注数据.
|
11
neosfung 2017-08-29 19:33:55 +08:00
我举个很取巧的例子吧,如果你们经常登录 Google 或者 Facebook
他们的验证码就是让你填写一些他们扫描书籍中的识别出来但是 confidence 不高的单词,或者点击图片中含有汽车的方格 |
12
lightening 2017-08-29 19:40:29 +08:00
1. 不是,但有人工筛选的数据难度远远低于没有人工筛选
2. 能。有。 |
13
TuSDK 2017-08-30 14:28:59 +08:00
首先并不是经过人工筛选标记的图片才能用来训练,但是难度会降低。之前我们在做实时鉴黄的时候,训练的图片就是经过人工标记的,我们会把涉黄的部位分裸露的等级来进行标记,然后用于机器训练。
其次平常产生的大量数据都是可以拿来训练的,甚至在像我们这样的公司,平常在进行市场活动的时候,产品经理会希望我们能拿回更多的人脸图片,这都是非常宝贵的资料,所以把这些资料都留存下来吧,很有意义! PS:楼主也可以了解下我们哦,传送门→https://tutucloud.com/docs/face/features |