Top
首页 > 文章 > 正文

十亿数据,百度打造史上最“大”数据竞赛

发布时间:2015-10-19 21:18        来源:hexun.com        作者:

十亿数据有多大?如果把人们每天读取与获得的文字信息按照A4纸的篇幅来计算,假设一个人一天的阅读量是20页,那么一个人平均每天从各类渠道中所总共可以获得大约20000字的信息量,那么十亿条文本数据则相当于一个人约2596年时间所获取的信息数量。

在十亿条数据中畅游是一种什么样的体验?百度、西交大大数据竞赛的参赛选手们或许最能给出答案。五个月前,由百度公司与西安交通大学联合举办的首届“百度、西交大大数据竞赛”成功举行。本次比赛基于百度的“知识图谱”技术展开,进而构建知识挖掘系统,选手被要求在任意给定的对象间自动构建该实体的关系网络,然后对实体进行候选关联实体的分层、排序和截断,最终形成针对该对象的三层关系网络,即该对象的知识图谱。

  在十亿条数据中畅游是一种什么样的体验?百度、西交大大数据竞赛的参赛选手们或许最能给出答案。五个月前,由百度公司与西安交通大学联合举办的首届“百度、西交大大数据竞赛”成功举行。本次比赛基于百度的“知识图谱”技术展开,进而构建知识挖掘系统,选手被要求在任意给定的对象间自动构建该实体的关系网络,然后对实体进行候选关联实体的分层、排序和截断,最终形成针对该对象的三层关系网络,即该对象的知识图谱。

  为了让选手们获得更加真实的实战体验。本次大赛组委会特意抛出了高达十亿量级的原始文本数据包,天量数据级堪称行业竞赛第一。除了人物关系,十亿条大数据中可以提炼的信息还可以涉及到我们生活中衣、食、住、行等等许多方面。因此,在本次百度西交大大数据竞赛中,赛题使用的数据包本身就可称得上是一件学术资源的宝藏。百度方面特别表示,除本次竞赛本身的应用外,出题方之所以将如此大量的数据包投入比赛,也是希望实现一次业界与学界的资源共享。此次赛题发布的数据不仅可以供比赛使用,也可以继续被选手们应用于非商业目的学术研究。

  多年以来,百度始终致力于与高校展开合作。此次与西安交通大学合作举办大数据竞赛,旨在通过与高校的合作在大数据研发领域取得双赢,并在全国高校范围内挖掘、发现大数据尖端人才。此次大数据竞赛只是百度-西交大这一次强强联合的开端,在后续的合作中,百度将为西安交大数学实验班、少年班、工科试验班的学生提供客座教授和企业导师进行专业指导,并开放最先进的大数据内容与技术,定期发布课题供突出人才实践研究;与此同时,西安交大则在百度自有在线教育平台——百度传课设立专属频道,为百度的大数据开发提供学术支持。 

合作站点
stat