文| 铅笔道 许梦

近日,“星尘数据”创始人章磊向铅笔道透露,项目于今年1月完成1000万Pre-A轮融资。
本轮融资紧张用于数据模型研发。

“星尘数据”是一家面向机器学习模型和演习数据的人工智能平台,供应数据采集和标注的众经办事。
其平台通过数据运维处理系统,将数据标注精度提高到 99% ;并用智能标注工具去赞助人工,从而降落数据做事本钱,节省了近1/3的韶光本钱。
在“星尘数据”的模式中,人工标注在70%旁边,机器占30%。
平台用户(数据标注职员)超过20万人。

2017年8月,铅笔道曾对“星尘数据”做过宣布《天使湾领投 这家数据做事公司核心成员来自华尔街硅谷 标注准确度99.9%》。
目前,公司已覆盖图像/人脸识别、文本分析、语音识别、无人车等各种AI运用处景的数据标注,做事客户数十家,包括百度、京东、小米等。

首发|这家数据公司又融1000万 用AI赞助人工标注 做事京东小米

注:章磊承诺文中数据无误,为内容真实性卖力。
铅笔道作客不雅观真实记录,已备份速记录音。

章磊认为,在人工智能领域,算法+数据=机器学习模型。
除了日渐完善丰富的算法理论,大量精准的数据已成为深度学习模型的关键。

章磊曾因找不到得当的数据标注做事商,自己创办一家数据公司,为人工智能公司供应深度学习所须要的数据标注、数据网络、数据交易等做事。

刚开始时,章磊和团队一度认为B2B做事中,掩护好客户关系是重中之重。
但是他们在大量的数据业务做事中创造,客户在采购过程中,大多会将本钱作为第一考虑成分,末了通过比价、询价来决定签约哪家做事商。
因此,真正核心竞争力在于降落数据做事本钱。

掌握本钱意味着团队要从管理、职员、技能上严格把控。
由于大量数据须要很多人力来进行详细数据标注做事,章磊及团队利用运维系统,管控数据和职员的全事情周期。
数据方面,系统可以对数据的标注和审核以及完备状态的准确度进行验证,并担保准确率在99%以上;职员方面,系统会从上岗、培训、考察、实操等阶段实时进行检测。

比如常规准确率为为95%的系统,在常规情形下,只有通过增加更多轮次的检测来提升精度,这就意味着花费更多的本钱。
一些分外项目,人力需求可能会由于超高精度的需求而翻几倍。
平台通过动态准确度打算以及多用户渐进式标注等方法来办理这一问题。

图片标注流程掌握展示。

技能上,“星尘数据”有几十类工具模板以知足常见的机器学习的数据标注、网络的事情,包括图像、视频、音频以及数据网络等。

除了人工、机器处理数据外,“星尘数据”有一个赞助标注的模块,通过人机互动的办法赞助数据加工以降落人力本钱,可节省1/3的韶光本钱。
部分标注可用打算机逐步调度,目前团队正在开拓各种类型的数据标注赞助工具。
其平台上人工标注占70%旁边,机器标注占30%。
在前期严格掌握本钱的根本上,以图片为例,平台上一张图的数据标注价格最低5分钱。

机器赞助标注效果图

此外,“数据黄牛”也是让章磊和他的团队非常头疼的问题。
在数据标注行业,分包征象非常严重,“数据黄牛”将任务逐层转包下去。
数据做事公司支出高昂本钱,用户付出大量劳动后却拿到较少报酬,而“二道贩子”轻松赚到差价。
因此,团队和渠道商互助,通过相应的勉励机制,吸引用户直接到“星尘数据”平台完成任务,没有中间商,平台直接向用户支付报酬。
目前,平台用户已超过20万。

数据标注行业用户流动性很大,“对付数据公司而言,百万级注册用户固然主要,但更有代价的是一定质量的用户长期在一个平台做数据处理,这就够了。
”为增强平台上用户粘性,完成用户快速裂变,章磊及团队借鉴游辱弄法,设计了类似于“通关游戏”勉励机制,不仅有现金褒奖,还设置了履历值。
用户完成任务越多、等级越高,褒奖越多,就像玩游戏一样完成任务。

无人车、安防、人脸识别、在线教诲、电商、工业质量检测、图片网络、音频网络等行业,“星尘数据”都有涉及,做事客户也从最初的几家拓展到几十家,个中包括百度、小米、京东等。
值得一提的是,百度无人车Apollo的形状数据标注便是由星尘数据供应。

“星尘数据”团队有20多人,工程师也从原来6人拓展到十几人。
其核心成员来自于天下银行、硅谷、CMU、清华、MIT、百度idl等公司或机构,长期从事数据剖析和建模事情。

章磊向铅笔道透露,“星尘数据”已于今年1月完成1000万Pre-A轮融资,资金紧张用于数据模型研发。
下一步,章磊团队操持开拓一款数据开源工具,帮助AI从业者免费得到数据。

/The End/

编辑 | 付文学 校正 | 程用杰