IDC预测,到年,中国的数据量将增长到48.6ZB,80%是非结构化数据,并且将成为全球最大的数据圈。在我们的日常生活中,非结构化数据的查询使用场景也越来越多见,比如以图搜图、视频搜索等等。
随着非结构化数据应用的增加,此类数据的处理分析需求也在随之增加,而现有的数据库产品绝大多数都是面向结构化数据的处理,非结构化数据处理工具寥寥。基于此现状,Zilliz在年开源了向量数据库Miivus,专注非结构化数据的处理。
9月15日,Zilliz合伙人和技术总监、LFAIDATA基金会技术咨询委员会成员栾小凡以“挖掘非结构化数据潜能——向量数据库的探索之路”为主题,全面介绍了非结构化数据处理与向量数据库技术发展概况,以及Zilliz在数据库技术云服务上的探索。
此外,9月24日Zilliz还将举办“非结构化数据大会”,深度解读非结构化数据处理技术。
以下正文部分为“挖掘非结构化数据潜能——向量数据库的探索之路”主题直播回顾。
栾小凡栾小凡是Zilliz合伙人和技术总监,同时是LFAIData基金会技术咨询委员会成员。在加入Zilliz前,他在阿里云担任研发经理,负责NoSQL数据库Lindorm的研发工作。此前,他曾先后在美国甲骨文公司和软件定义存储公司Hedvig担任软件工程师。栾小凡拥有康奈尔大学计算机工程硕士学位。
非结构化数据与向量数据库OSCHINA:非结构化数据的格式和标准非常多样,而且在技术上它会比结构化信息更难以标准化和理解,目前非结构化数据的技术发展情况大概是怎样的?
栾小凡:
我是做传统数据库出身的,非结构化数据对我来说,也是一个非常新的一个领域。
传统的数据库,无论是OLTP、OLAP数据库,还是NoSQL数据库,主要面向的是一些结构化的数据,比如说像string、int等数值类型的。非架构化数据会更加多样化,比如生活中常见的图片、视频,或者是推荐系统中的用户信息、商品信息,都被归到非结构化数据范畴中。其实非结构化数据的体量在整个业界的规模是更大的,而且增长数独也很快。
据调查报告显示,到年,80%以上的数据都会是非结构化数据。但传统的数据库没办法很好地去处理这种非结构化数据。所以其实我们在做大数据转型的过程中,发现很多非结构化数据的价值被浪费了。因此我们现在的核心在于