Top
首页 > 正文

2020年中国AI基础数据行业品牌数据服务商应居安思危

目前,人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地并解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说,数据决定了AI的落地程度。对比中国与世界的发展情形来看,人工智能行业发展前景良好,而作为强关联性的AI基础数据服务行业受其发展红利的影响,未来市场仍有不小的上升空间。“品牌数据服务商” 在这1-2年内应该“居安思危”,注重品牌认可度塑造、提高规模化生产能力、大力发展如预标注、项目进度可视化等精细化运营方式,最终追求单位价格的利润最大化。
发布时间:2020-05-07 10:55        来源:赛迪网-互联网经济杂志        作者:张阳

人工智能基础数据服务市场现状

中国人工智能基础数据服务市场规模:2025年市场规模将突破100亿元,年化增长率为21.8%。

艾瑞通过对中国AI基础数据服务行业中主要需求方、品牌数据服务商、主要中小型数据供应商等多方调研描绘市场情况。根据数据显示,2019年中国AI基础数据服务行业市场规模可达30.9亿元,其中图像类、语音类、NLP类数据需求规模占比分别为49.7%、39.1%和11.2%;根据需求方投入情况和供应方营收增长情况推算,预计2025年市场规模将突破100亿元,年化增长率为21.8%,该行业核心业务与当下以监督学习为主的人工智能市场具有强相关联系,市场发展前景向好。

从需求方角度看市场增速的话,整体增速平稳向上,增量市场将替代存量市场成为主要拉力。AI基础数据服务市场从需求角度看可以分为存量市场和增量市场。存量市场中巨头互联网科技公司和AI创业公司为主要需求方,项目落地所需要的采集、标注数据逐渐成为需求核心,存量市场仍是目前AI基础数据服务市场的需求主体。增量市场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的AI创业公司需求为主。增量市场虽然近些年对于整体市场规模的贡献率不够明显,但随着中国人工智能技术的不断深入与国际化,在未来将成为主要的拉动力量。从短期来看,AI基础数据服务市场增速仍然与存量市场增速紧密相关,主要依赖于已有客户常规业务委托,以及如语音识别业务中方言、小语种数据需求增加等内容更新需求支撑发展,随着存量市场需求逐渐长尾化,供应方将会更加关注增量市场的拓展,来减轻对已有客群的依赖,达到良性的可持续发展。

从供应方角度看市场格局的话,CR5(前五大企业市场份额)为26.2%,处于低集中竞争阶段,中小企业占比仍较大。

品牌数据服务商、中小数据供应商和需求方自建团队是市场中的主要供应方。在2019年AI基础数据服务市场规模中的份额占比分别为30.4%、47.0%和22.6%,可见中小型数据供应商仍然是市场中的主要供应力量。通过对行业头部公司进行集中度计算,可知2019年AI基础数据服务行业CR5为26.2%,处于低集中竞争阶段,行业活力充足,发展空间良好。

中小型供应商份额持续缩小,品牌商地位确立价值逐渐凸显

从供应方的发展来看,行业内部处于“洗牌”阶段,虽然中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期人员成本的压力,该群体在未来1-2年内将迎来一阵“倒闭潮”。通过数据显示,2019年中小型数据供应商份额比预期值缩小了20.8%,而这部分份额按7:3的比例,向品牌数据服务商和需求方自建团队释放,作为行业的头部阵营品牌数据服务商在这一阶段受益最多,不仅营收方面得以增长,也逐步稳固了自身领头羊的地位。而根据增量市场的特征,品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,在未来增量市场成为主要拉动力的竞争阶段将占有更大的主动性。从这两方面看,未来品牌数据服务商阵营将替代中小型供应商阵营,占有市场的主要份额。

品牌数据服务商竞争环境和趋势分析:1-2年窗口期后进入竞争阶段,品牌商应提前布局

由于目前AI基础数据服务行业对于劳动力存在密集性需求,所以人力输送和项目转包等服务形式会持续存在,因此中小型数据供应商仍会占有一定的市场份额,不过大部分玩家将逐渐远离“利润中心”。

以中小型数据供应商份额缩小的速度看,未来1-2年内“红利份额”将释放完毕,所以该阶段对于品牌数据服务商而言是行业窗口期,品牌之间不需要产生太强的竞争,就会带来较为可喜的营收增长。

这一时期过后,品牌数据服务商阵营将占有市场的主要份额,各家品牌商都经过不同阶段的打磨,具备了较强的竞争力,市场进入充分竞争时代,出现价格战几乎成为必然。

因此在这一阶段中,能够利用精细化运营、提高单位价格利润的公司将具有更强的价格承受能力,可以在激烈的市场竞争中胜出。

为了在后续的竞争中占据先发优势,品牌数据服务商在这1-2年内应该“居安思危”,面对存量市场时注重品牌认可度塑造、增加技术投入提高规模化生产能力、提高技术壁垒发展精细化运营方式、增加如语音合成(TTS)数据处理等差异化服务,最终追求单位价格的利润最大化。

增量市场尚未形成充分的竞争环境,应注重打造品牌影响力,增加曝光度、提高服务意识,增加自身对AI算法的理解能力,积极主动配合客户的探索性需求、重视培养海外营销团队,将业务出海视作重要战略、增加数据采集能力,快速迭代自身业务以适应需求变化,最终追求打造品牌与实力的双重口碑效应,扩大市场影响力。

人工智能基础数据服务行业壁垒

人工智能基础数据服务业务流程和壁垒:经验、渠道、能力、管理和技术

AI基础数据服务行业的产品形式主要为数据集产品和数据资源定制服务,二者在业务流程方面基本相同,都按照数据库设计→数据采集(或需求方提供)→数据处理→质检的步骤执行, AI基础数据服务商凭借多年的服务经验,在各环节中均可建立壁垒,以巩固行业地位。通过对需求方和供应方样本的调研分析,发现拥有对计算机视觉、智能语音、NLP等算法训练需求的深刻理解能力、拥有更专业的数据库设计能力、拥有更具前瞻性的数据集产品设计能力,以及参与过更多探索型项目的公司在获取新客户和新任务时具有明显优势;拥有更丰富的方言、小语种、全球各地人脸采集渠道、场景搭建能力,特殊场景数据采集能力和如语音合成、3D点云等高门槛数据标注能力的公司业务更加稳定;拥有稳定的供应链团队、实时量化的可视化管理系统以及AI算法加持的公司在精细化管理和利润把控方面更具优势。

管理和执行系统平台化融合能力

集数据标注、项目管理和质量把控于一身,以平台管理替代人员管理,是该行业科技化转型的关键一步。

随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的执行方式在能力和效率上都显得捉襟见肘,尤其对于品牌数据服务商而言,客户类型丰富、数据需求多样、并发项目众多,仍使用传统方式,将会因产能天花板的压力,而限制发展规模。如单纯扩大人员团队又会陷入重资产运营和边际效益低的漩涡,难以快速确立行业地位以面对下一阶段的竞争。因此,拥有一套自主研发贯通数据库设计、数据采集、数据处理、质量检测、质量控制和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处理的管理和执行一体化平台,提升人机协作效率、扩大产能、灵活可变地增加标注能力,准确地把控每一环节的数据安全和质量问题,才可将全公司综合实力集中体现,这也是实现人力驱动向技术驱动的关键一步。

人工智能算法预处理能力

在数据采集和处理环节中应用感知智能,进行人机协作,能降低标注难度,提升生产力。如果说人工智能是加速数字化革命的发动机,那数据资源服务行业就在为其生产汽油,同时这台发动机也在反哺行业。

AI在数据标注领域主要应用于数据采集和数据处理环节,在数据采集中无论是图像或是语音数据都会出现重复样本和不合格样本,人工通过抽查或是遍历每一个样本的方式校验,在准确率、成本把控和时效性方面都大有不足,而通过使用计算机视觉和语音识别技术对采集到的样本进行初步识别,可以在短时间内达到90%以上的校验正确率,实现几倍于人力的工作效率,更有如海天瑞声的应用案例,将其研发的语音识别设备直接用于声音收录阶段,省去了校验后的返工流程,进一步减少执行阻力。在数据处理环节中,标注员需要对图像数据中每一个目标元素进行拉框或标点,目标边界需要勾描得十分精准,进行语音标注时需要聆听每一个词语的发音,判断并转写其语义,这对于标注员在长时间多任务下的专注力有极高要求,在此环节应用人工智能可以对图像数据进行场景分割、人脸和物体识别,对于语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还变相增加了生产力。目前人工智能尚不能取代人力,清楚认识其价值,并积极应用到人机协作中,将成为AI基础数据服务行业精细化管理中鲜明的竞争壁垒。

语音合成数据处理能力:专业门槛高而鲜有服务商涉足

语音合成技术已经广泛应用于人们的日常生活中,如手机助手、智能客服、智能音箱、语音导航都是其应用场景。目前语音合成的主流方式可以分为波形拼接合成和参数合成两种。

其中参数合成是利用文本参数和声学参数间形成映射模型,从而完成文本内容向语音转化的过程,所以在有限样本数据的情况下,参数合成语音成为了众多智能语音算法团队的首选。

随着深度学习在语音领域的突破,利用神经网络取代传统映射建模的参数合成方式,在合成效果上更进一步,逐渐减少了合成语音的机械感。

在语音合成中AI公司着重于映射模型算法的创建和训练,而语音片段数据和相应的声学参数标注则交由数据服务商提供,其间数据服务商需要对录制的发音人语音片段进行音素、韵律、音节边界、音素边界、词性、重音、声调等内容进行标注,然后切分、截取音素边界;并且在项目初期需要向客户展现合成demo,在项目交付时需校验合成效果,这就要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力。未来随着物联网的普及,将会有更多交互设备出现,语音合成需求将会持续增长,在此趋势下,拥有语音合成数据处理能力,将成为具有排他性的竞争壁垒。

行业发展机遇与挑战

下游利好和洗牌红利期将推动品牌公司发展壮大,但竞争已悄然开始。结合报告上述分析内容,目前人工智能行业仍以有监督学习的模型训练方式为主,对于标注数据有着强依赖性需求,但随着AI商业化进程的演进,更具有前瞻性的数据集产品和高定制化服务成为了AI基础数据服务行业的主要服务形式。

从全球角度来看,人工智能发展依旧火热,逐渐形成以北美、欧洲和东亚为代表的发展集群,产学研各方人才向其中涌入,世界范围内的产业交流与合作逐渐形成规模,并日趋常态化。对比中国与世界的发展情形来看,中国正处于补全短板、丰富产业、培养人才进而向外输出技术能力的快速发展阶段,人工智能行业发展前景良好,而作为强关联性的AI基础数据服务行业,受其发展红利的影响,未来市场仍有不小的上升空间。

着眼行业内部,伴随着上一轮AI创业热潮的平息,行业经过了一轮洗牌,脱颖而出的品牌数据服务商和中小型数据供应商形成了主要的供应方力量,但随着需求方市场由粗犷向精细化过渡,项目要求提高、利润压缩、管理成本上升等问题,迫使了一众中小型厂商提前离场,在未来一到两年内行业将再次迎来洗牌。

这于对品牌公司的生产力、精细化管理能力、利润把控能力、营销能力和品牌影响力都带来了巨大的考验。为应对竞争,品牌公司应在红利期就早早布局,以技术应用和研发为驱动力,产生更多行业壁垒换取更多主动性。

每日必读

专题访谈

合作站点