“产业智能化离不开数据治理这一基础,数据治理在很大程度上也决定了产业智能化进程。”9月15日,“万物智能——百度世界2020”在线上举行,下午的智能云分论坛上,百度技术委员会理事长陈尚义从“智能数据治理”视角,阐述智能数据治理在产业智能化过程中的重要作用,并分享了百度在数据采集、标注及治理等领域所作出的探索。
(百度技术委员会理事长陈尚义:智能数据治理在推动产业智能化的过程中扮演着越来越重要的角色)
陈尚义表示,数据治理在产业智能化过程中起到至关重要的作用,但企业往往面临很多困难,如数据获取难、加工难等。为此,百度向业界提供了综合的面向多场景、多种类型客户的数据采标解决方案,帮助客户释放数据价值。
同时,在服务于企业的基础上,百度进一步探索出了一条以数据采标基地、数据交易平台为核心的数字经济解决方案,帮助地方政府培育数字产业生态。
陈尚义介绍,百度智能云的数据采标解决方案,处于行业领先地位。
从数据采集能力来说,百度拥有业内领先的采集资源,采集主体覆盖全球40多个国家和地区;仅国内的语音数据采集,就覆盖全国八大方言区及不同年龄段的人群。
从数据标注能力来看,百度拥有支持全场景的标注工具、高效的流程管理平台、智能化的标注算法,同时构建了庞大的标注资源为项目执行作支撑,能够提供高质量、定制化的数据标注服务。
在数据采集和标注过程中,数据安全、数据质量等,是行业最关注的话题。在保证数据安全方面,百度在业内最早建立了完整的、符合全球各国数据法规的隐私合规流程,得到客户安全部门的高度认可。在提升数据质量方面,百度设定了智能审核与人工质检双流程,准确率行业领先。此外,团队创新性地引入了预标注算法与辅助标注算法,使得标注效率和准确率大幅提升。
这些能力,使百度能够满足几乎所有场景的采集需求,覆盖语音、图片、视频、文本、3D等多种标注类型。目前在典型场景中,人像每周采集可达3万人,语音每周采集可达5万人。
另一方面,在先进的智能技术支撑之外,面对巨大的数据加工量,产业发展仍然需要强大的人力资源支撑。陈尚义表示,百度智能云通过线上众包和线下自建标注基地的方式,构建了业内人员最多、专业性最强的标注人力资源体系。
“目前,线上众包人员已超过20万人,线下签约标注代理商超过300家,专业标注人员达到2万人。”陈尚义介绍,“此外,百度还联合山西省政府建立了山西数据标注基地,拥有2300名全职标注员,他们稳定、专业,可承担自动驾驶、语音、图像、人像等高难度数据标注任务。”
“庞大的标注资源为我们提供了业内最强的标注能力,如今,我们每天语音数据标注量超过500小时,图像数据超过2万张,自动驾驶道路数据超过4万张。”陈尚义说。
“我们希望构建以人工智能非结构化数据为特色的数据交易平台,加速区域数据流通与开放共享,释放数据要素价值。”陈尚义表示,“我们致力于将数据开放平台打造成为区域数字经济发展的新型基础设施,将数据作为区域支持创新创业的新型孵化器。
山西省工信厅副厅长刘勇出席了分论坛,他对双方合作取得的成果表示认可。他表示,近年来,山西省大力实施大数据战略,高点位谋划、高位推动,山西大数据产业发展已取得长足进步。
“下一步,我们将以标注产业为牵引,集聚人工智能发展势能,着力构建集数据采集、清洗、标注、交易、应用为一体的基础数据服务体系,在转型发展上率先趟出一条新路来。” 刘勇表示,真诚欢迎百度及各企业与山西携手,共创共享大数据创新发展的美好未来。
陈尚义表示,未来百度将联合地方政府和企业,汇聚双方优势资源,培育数据服务能力,解决区域数字经济发展中面临的数字环境缺失、数据要素流通难、数据价值挖掘难等问题,促进数据的开放、共享与流通,降低企业技术创新的门槛,构建数字产业发展新基础设施。
“以数据为关键要素的数字经济,将成为国家创新驱动的重要战略载体。在数字经济发展的浪潮中,百度智能云将与各位同行携手,共建数据生态,促进产业智能化发展。”陈尚义说。