过去我们过(guò)多(duō)地把目光聚焦于“人工智能三要素”中的算力(lì)和模型上;但(dàn)随着(zhe)人(rén)工智能的深入,好的算(suàn)力(lì)和模型已不再是稀(xī)有物种,被(bèi)标注好的优质数据却成(chéng)为时下最为(wéi)稀(xī)缺的“黑金(jīn)”。AI的(de)崛起离不开“好的”数据作为地(dì)基,这也是云(yún)测数据(jù)成立的初衷所在。现在戳右边链(liàn)接(jiē)上新智元小程序了解更多!
算力、模型和数据构成(chéng)了人工(gōng)智能的三要素(sù),过去,我们过多(duō)的(de)把(bǎ)目光聚(jù)焦于算力和(hé)模型(xíng)上(shàng),殊不知,随着(zhe)人工智能的深入,好的算力和模(mó)型已不再(zài)是稀(xī)有物种,反而那些(xiē)被标注好(hǎo)的(de)优质数据成为时下(xià)最为稀缺的“黑金”。
“公司的(de)壁垒(lěi)不再(zài)是算法,而是数据。让算法利用足够的数据,使得产品运行起来。”人工智(zhì)能和机器学习(xí)领(lǐng)域国(guó)际的权威(wēi)学者吴恩达在发(fā)表以“AI is the new electricity”为(wéi)主题(tí)的演讲时,就重点(diǎn)强调了(le)数据的重要性。无独有偶,李开复在清华大学“清华学堂计(jì)算机科学实验(yàn)班”题(tí)为《人工智能的黄金时代(dài)》的演讲中也(yě)讲到(dào)了此类观点,“如(rú)果你有垄断性(xìng)的大(dà)数据,你就会有很大的优势。”
以上种种,都表明着一件事,即AI的崛起离不(bú)开“好的”数据(jù)作为地基,这也是云测数据成立的初衷(zhōng)所在。
溯源云测(cè)数据(jù)的AI数据服务(wù)之路
“自(zì)2011年(nián)切(qiē)入(rù)企(qǐ)服市(shì)场以来,Testin云测不断致力于助(zhù)力(lì)产业(yè)智能(néng)化,除(chú)了测试业务我(wǒ)们(men)已经(jīng)成为专业领域(yù)的垄断品牌(pái),专(zhuān)注于(yú)AI数据(jù)服务(wù)的云测(cè)数据(jù)也成(chéng)为数据领域的标杆品牌。目前(qián)我们整个数据服务团队规模已超过1000人,通(tōng)过(guò)标审(shěn)分离的流程化作业模式和(hé)数(shù)据安全机制(zhì),更好的保证数据的高质(zhì)量产出和(hé)数据隐私(sī)性,从而更好地为人工(gōng)智能落(luò)地提供定制化‘数据养(yǎng)料’。”在接受钛(tài)媒体专访时,云(yún)测数据总经理贾宇(yǔ)航如(rú)是说(shuō)。
AI数据服(fú)务作为一个非标领域,往(wǎng)往需要(yào)根据不同行业领域、不同的需求进(jìn)行特定化的场景(jǐng)定制,而数据标注的过程,规范化、标(biāo)准化(huà)以及可机读性又不可或缺,这就意味着(zhe)云测数据所从事的(de)领域,并没有捷径可以走。
早期的数据标注(zhù)服(fú)务门槛(kǎn)并不(bú)高,几个(gè)人、几台电(diàn)脑便可展开操作,导致了行业(yè)鱼(yú)龙混杂、同质(zhì)化竞争(zhēng)等现(xiàn)象,而这(zhè)时的人工智能(néng)也处(chù)在初(chū)期发展阶(jiē)段。但(dàn)当人工智(zhì)能(néng)驶入(rù)深水区,“应用人智能(néng)”声势逐(zhú)渐火热(rè),相对应的算法对(duì)数据的精准程度和质量要求也水涨船高,就要求着作为(wéi)AI数据服务(wù)的提供者(zhě),要为人(rén)工智能提供定制化(huà)的、还原应(yīng)用场景(jǐng)的优质(zhì)数据(jù)。
针对于此,贾(jiǎ)宇(yǔ)航告诉钛媒体,“以人(rén)脸关键(jiàn)点识别为(wéi)例,早(zǎo)先的相关数据(jù)标注往往用一句话便(biàn)可描述完它(tā)的任务需求(qiú),到了(le)现(xiàn)在,已经发展到几(jǐ)百个关键点。通常数量级的人(rén)脸数(shù)据标注任(rèn)务(wù),有时候4张A4纸都未必能写完这些需求,而(ér)人脸的数据标注只是(shì)众多(duō)领域的任务需(xū)求(qiú)之一。”
庞大(dà)数据标注任务量级之下(xià),是当下业内(nèi)需求(qiú)端对(duì)精准和高(gāo)质(zhì)数据的普遍共识。
这就要求(qiú)着数据服务要在数(shù)据标注和采(cǎi)集上下(xià)足功夫,而小团队(duì)的(de)能(néng)力范围则显得捉襟见(jiàn)肘。回归到(dào)数据标注面向多领域这件事的本质(zhì)时(shí),你(nǐ)又会发现(xiàn),光(guāng)靠人(rén)多或者说采用“众(zhòng)包”模式往往只能解决量(liàng)的(de)需求,数据标注人员是否能统一化协同管(guǎn)理以及是否具备相(xiàng)关领域知识,才是决定(dìng)某项数据任务完(wán)成质量的好坏。
同时,这也是(shì)云测数据当下正专注的事情。正如医生可以标注得好(hǎo)ct诊疗片,而云测数(shù)据团队在进(jìn)行自动驾驶车外环境数据标(biāo)注(zhù)时发现(xiàn),那些能(néng)够快速、精准进行数据标注的人员往往拥有(yǒu)驾(jià)驶经(jīng)验。
云测数据快速成长的秘诀是(shì)什么?
至此,我(wǒ)们还需要思考一(yī)个(gè)问(wèn)题,为什么云测数据能(néng)做到且做(zuò)好AI数据服务?
通(tōng)过(guò)观察Testin云测的发(fā)展(zhǎn)历史,我们便能找到答案。
自(zì)2011年Testin云测成立到现在,已(yǐ)经为全球超(chāo)过(guò)百万的企业及开发者提供(gòng)服务,积累了丰富(fù)且完善的技术(shù)能(néng)力和流程化(huà)管理能力。而云测数据AI数据服务正式(shì)开展于2017年,换句换说(shuō),Testin云测的数(shù)据(jù)业务(wù)线从一出生便拥有(yǒu)7年企业服务所积攒的经验(yàn),并继承(chéng)了行业独立第三方的角(jiǎo)色,天然的“以客(kè)户为中心”的企服基因是云(yún)测(cè)数据区(qū)别于同(tóng)行的最大护城河,而客户最(zuì)为关键的(de)诉求则是“降本增效”。
“与企业服务在美国环境更侧重标准不同的是,中国更重服务,通(tōng)过这么(me)多年的(de)观察我们(men)发现,是否能切实满足用户的真实需求,其(qí)实是一个非常重要(yào)的点,并不是说(shuō)企业一定要做出一个平台(tái)或者一(yī)个(gè)工具,更多是(shì)从企业(yè)或(huò)行业需求出发,构建对应的服(fú)务模(mó)式。”贾宇(yǔ)航对(duì)钛媒体补充到。
以新(xīn)零售门店巡检为例,通常来说,每个门店每月(yuè)都要巡检一次,门店(diàn)巡检(jiǎn)模式是让一(yī)个人拿着调研表去盘点,随着人(rén)工成本的增加,而门店(diàn)数越来越多现实情况,已经让这成为(wéi)一(yī)笔不小的开销。通过引入AI数据服务,现(xiàn)在工作(zuò)人员可以(yǐ)拿一个手机APP直接巡(xún)检,物品的(de)数量、sku的数量以及对应的sq数量,都(dōu)能一目(mù)了然。
“从不同客(kè)户反(fǎn)馈(kuì)得知,通过我们(men)云(yún)测数据的数据标注服务而落地AI产品的企(qǐ)业(yè),可(kě)为(wéi)企业减少(shǎo)大概(gài)1/3的(de)人工成(chéng)本。”贾宇航如是说。
门(mén)店巡检只是案(àn)例之一,就目前来(lái)说,云测数(shù)据主(zhǔ)要关注智能驾驶、智(zhì)慧城市、智慧金融和智能家居几大方向,这也是当下市场需求最大的几(jǐ)个领域。面(miàn)对不(bú)同的数据领域,云(yún)测(cè)数据(jù)通过(guò)流水化作业,将各个环节打(dǎ)造(zào)成不同模块(kuài),并配合自己(jǐ)的流(liú)程(chéng)管理工具(jù),优化人员管(guǎn)理、数据采集(jí)、数据清洗和数据标注的(de)各(gè)个环节流程,确保内部的持续高效能运转,最终保证AI数据高质产出。
根据IDC调查显示,目前中国大(dà)数据发展处(chù)于应用落地(dì)阶段(duàn),整个市场预计未来(lái)五年将(jiāng)保持持续增(zēng)长的趋势,年复合增长率将达到17.3%。而得益于人工智能(néng)、5G、区块链、边缘计算的发展,未来多(duō)方技术融合,数据增长(zhǎng)必然呈现井喷态势,数据采集和标准业(yè)务作为其伴生体(tǐ),必(bì)然有较大(dà)的增长空间(jiān)。
得益于对(duì)AI趋势的判断,Testin云测认为,“人工智能正在逐(zhú)渐(jiàn)往应用(yòng)人工智能”方向发(fā)展,因而云(yún)测数(shù)据(jù)在成立之初,就确定了定制化“精准高(gāo)质(zhì)、独立安全”业务方针。本着(zhe)这张“王牌”,云测数据(jù)部门迅速扩充(chōng),在以往企业(yè)服务经验的完美嫁接之下,最终让云测数据成为AI数据服务领域的头部企业。”
“云(yún)测(cè)数据业务规(guī)模(mó)量每年都(dōu)在以倍(bèi)数的规(guī)模增长,这也(yě)与我们所处赛道的市场深度息(xī)息相关,在我看来,整个市场仍(réng)然(rán)呈现非线性的几何增长(zhǎng)态(tài)势,还(hái)有很多机会蕴(yùn)含其中,有待挖掘(jué)。”谈及云测数据(jù)业务线(xiàn)发展状态时,贾宇航如是说。
“安全(quán)”是AI数据服务提供商绕不开的(de)命(mìng)题
机会之下,企(qǐ)业端在(zài)提供优(yōu)质数据的同时,也要注意数据服务过程(chéng)中的规范和安全。
在这方面,云测数(shù)据通过自(zì)建(jiàn)数据采集(jí)实(shí)验室和自建数据(jù)标(biāo)注(zhù)基(jī)地的方式,规范管理专职数据服务团队。这种措(cuò)施除了(le)保证标注(zhù)数据(jù)的质量(liàng)和效率(lǜ),也最大限度地保证了数据产出的(de)安全(quán)隐(yǐn)私(sī)性。
贾(jiǎ)宇航对(duì)钛(tài)媒体强调(diào)到,云测数据自伊始便将数(shù)据安(ān)全放在首位,集中(zhōng)表现(xiàn)在以下几个方面:
第一,不滥用(yòng)数据,数据交付(fù)后清毁数据(jù)不留底,绝不二(èr)次使用;
第二,不侵犯隐私,与(yǔ)所有(yǒu)数据采集的用户都签订(dìng)数据授权协议,确保AI企业用于训(xùn)练的数据合法(fǎ)合规(guī);
第三(sān),建立(lì)相(xiàng)关的数据保障机制,如从(cóng)防火(huǒ)墙的设置、内(nèi)部信息系统的管护、乃(nǎi)至标(biāo)准(zhǔn)化的流程作业体系等(děng)。
正(zhèng)如Testin云测CMO张鹏飞多(duō)次强(qiáng)调:“即便(biàn)说云测数据从安(ān)全到(dào)隐私防护这套体系会加(jiā)重(chóng)运营成本(běn),但从我们行业大局(jú)发展来看,只有(yǒu)以这种负责的(de)态(tài)度来执行工作,我们的行业才能‘良币驱除劣币’。”