中科院赵军带你认识知识图谱的关键技术读 - 数据

TUhjnbcbe - 2023/6/14 19:06:00

中科与白癜风患者同在 http://m.360xh.com/xinwen/3260/56604.html

不到现场，照样看最干货的学术报告！嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会，百度为支持单位，读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第九期“个性化内容推荐”专场已于年9月22日下午在中科院举行。中科院赵军为大家带来报告《知识图谱关键技术及其在推荐系统中的应用》。

赵军，中国科学院自动化研究所模式识别国家重点实验室，研究员，博士生导师；中国科学院大学人工智能学院岗位教授。研究领域为自然语言处理、知识图谱、信息抽取、问答系统等。作为项目负责人承担国家自然科学基金重点项目等多项国家级重要科研项目以及企业应用项目。在ACL、IJCAI、SIGIR、AAAI、COLING、EMNLP、TKDE等顶级国际会议和重要学术期刊上发表论文80余篇。曾获第25届国际计算语言学大会COLING最佳论文奖，年他主持研发的“大规模开放域文本知识获取与应用平台”获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。兼任中国中文信息学会常务理事，语言与知识计算专委会副主任，计算语言学专委会副主任，《中文信息学报》编委，ACMTALLIP副主编等学术职务。在中国科学院大学主讲《知识图谱导论》等课程，主持编著《知识图谱》一书年12月由高等教育出版社出版发行。

报告内容：推荐系统需要为用户主动推荐有用的信息，而知识图谱是当前学术界和产业界在描述知识方面的“事实标准”。该报告首先介绍知识图谱的发展脉络，特别是与传统知识表示方法的区别和联系，然后介绍知识图谱构建和应用中的关键技术，进而讨论知识图谱及其构建与应用中的关键技术如何服务于大数据环境下的推荐系统，最后简要介绍基于知识图谱的推荐系统的前沿学术进展。

知识图谱关键技术及其在推荐系统中的应用

赵军老师首先介绍了大数据时代的信息过载问题：1）全球数据以每年58%的速度增长，而且全球数据的基数很大，其使人们淹没在数据海洋中；2）其中3%的数据具有标注信息，0.5%的数据被分析，所以信息也无法得到有效的利用，然后引出了能解决信息过载的具有过滤和筛选信息功能的搜索引擎和推荐系统，前者能快速地反馈与用户描述相关的内容，后者能个性化地为用户推荐合适内容，辅助用户快速决策。接着，对搜索引擎和推荐系统进行了对比，其中，搜索引擎主要针对需求明确、大众化的信息服务，可以通过查询推荐来改善用户的体验，而对于需求不明确、个性化的信息服务，搜索引擎可能不能满足其要求，这时就需要推荐系统来解决，推荐系统可以主动推荐合适内容。信息需求存在长尾现象，推荐系统通过对用户行为的挖掘，获取用户和产品之间的潜在关联，从而进行个性化的信息服务。推荐系统在日常生活中无处不在，如豆瓣、知乎、百度的新闻传播间、网易云音乐推荐和京东商品推荐等，其已经成为我们生活中不可缺少的一种服务方式。

接着，介绍了传统推荐系统的主要方法：1）基于内容的推荐系统，利用user（用户）兴趣和item（如商品）之间的相似度，基于内容上的相似性进行推荐，虽然该方法简单，但是效果不够好；2）基于协同过滤的推荐系统，仅仅利用用户的行为信息，基于用户的历史兴趣进行推荐。相似的用户喜欢的物品相似，喜欢相似的物品的用户相似；3）混合式推荐系统，不是单纯只采用某一种推荐的机制和策略，把多种方法混合在一起，从而达到更好的推荐效果，如加权的混合、切换的混合、分区的混合和分层的混合。紧接着又介绍了推荐系统的主要问题与挑战：1）数据稀疏；2）不可解释；3）（用户）冷启动；4）（物品）冷启动，为解决这些问题与挑战，赵军老师又介绍了知识图谱辅助推荐系统，知识图谱人-物之间的多维度稠密关联，用于解决数据稀疏问题；丰富的用户画像，充分的物品描述，用于解决冷启动问题；多维度远距离关联用于解决不可解释问题。

在介绍知识图谱之前，先介绍了数据、信息和知识的概念，其中，数据是事物的记录，信息是格式化的数据，知识是信息的有效组织。接着，又介绍了知识图谱的五个发展阶段：1）-时代，符号逻辑，神经网络，LISP，产生式规则和语义网路；2）-时代，专家系统，限定领域，知识库+推理=智能，脚本和框架等；3）-时代，万维网，人工大规模知识库，本体概念，智能主体和机器人；4）-时代，互联网发展高峰，语义Web和群体智能（维基）；5）年时代，维基结构化，通用和领域知识，大规模知识获取和大规模工业应用。从知识图谱的发展历史可以看出，从信息服务向知识服务的跃迁是机器智能发展的必然。

在介绍完知识图谱的发展史之后，又介绍了知识图谱概念起源，知识图谱的概念最早出现于Google公司的知识图谱项目，体现在使用Google搜索引擎时，出现于搜索结果右侧的相关知识展示。截止到年底，Google知识图谱的知识数量已经达到了亿条，包括个类别的5.7亿个实体，以及它们之间的3.5万种关系。

在介绍知识图谱在推荐系统中的应用之前，先介绍了知识图谱的相关概念，知识图谱具有图的结构，以结构化三元组的形式存储现实世界中的实体及其关系，由实体集合、关系集合和三元组的集合组成，三元组通常描述了一个特定领域中的事实，由头实体、尾实体和描述这两个实体之间的关系组成。关系有时也称为属性，尾实体被称为属性值。从图结构的角度看，实体是知识图谱中的节点，关系是连接两个节点的有向边。并以WikiData为例，从知识结构和实例数据方面介绍了知识图谱示例。

知识图谱又是一个知识系统，以一种统一的方式表示知识框架和知识实例这两个层面的知识内容，各个具体实例数据只有在满足系统约定的“框架”约束下运用才能体现“知识”。同时，知识图谱的知识表示，不仅体现在以SemanticWeb资源描述框架RDF为基础的三元组上，还体现在实体、类别、属性、关系等多颗粒度、多层次语义单元的关联之中。知识图谱中的知识定义和实例数据及相关的配套标准、技术、应用系统共同构成广义的知识图谱。

本体（ontologies）是（特定领域）信息组织的一种形式，是领域知识规范的抽象和描述，是表达、共享、重用知识的方法；是真实世界的一个模型，引入领域相关的术语集合，描述领域概念、属性、类别；使用合适的逻辑来形式化，可以描述逻辑。

语义网络是一种有向图表示的知识系统，节点代表的是概念，而边则表示这些概念之间的语义关系。其中最基本的语义单元称为语义基元，可以用三元组表示：节点1，关系，节点2。语义网络与一阶谓词具有相同的表达能力。它用一种简单统一的形式描述所有知识，有利于计算机存储和检索。推理过程不像谓词逻辑表示方法明确。

框架是一种描述所论对象属性的数据结构，由框架名、槽、侧面、值构成。分为类框架和实例框架两种类型，类框架之间具有包含关系、类框架和实例框架之间具有从属关系。优点是层次化、继承性、自然性和模块化。缺点是没有明确的推理机制。

脚本是一种与框架类似的知识表示方法，由一组槽组成，用来表示特定领域内一些事件的发生序列，类似于电影剧本。脚本表示的知识有明确的时间或因果顺序，必须是前一个动作完成后才会触发下一个动作。与框架相比，脚本用来描述一个过程而非静态知识。

语义网（SemanticWeb）提供了一套用于描述数据语义的规范、表示语言和工具，可以用于形式化、规范化地描述一个领域内的知识，包括概念、关系、规则等。其中语义网知识描述语言体系包括XML、RDF、RDFSchema和OWL。

XML提供了一种结构化文档的表层语法，但没有对文档含义施加任何语义约束。

RDF是一个关于对象（资源）和它们之间关系的数据模型，该模型具备简单语义，能够用XML语法表示。可以利用Web标识符（URI）来标识资源，通过指定的属性和相应的值描述资源的性质或资源之间的关系，基本的数据模型包括：1）资源（resource），一切能够以RDF描述的对象都叫资源，用唯一的URI来表示；2）属性（property），用来描述资源的特征或资源之间的关系，每一个属性都有特定的意义；3）陈述（statement），特定的资源加上一个属性和相应的属性值就是一个陈述，其中资源是主体（subject），属性是谓词（predicate），属性值是客体（object）。

RDFSchema（RDFS）是一组描述RDF资源的类和属性的建模原语，提供了关于这些类和属性的层次结构的语义，可以有效地组织RDF。其中，Class和subClassOf用于描述类别层次结构；Property和subPropertyOf用于描述属性层次结构；domain和range用于声明属性所应用的资源类和属性值类；type用于声明一个资源是一个类的实例。

本体语言OWL是RDF的扩展，提供了更广泛的定义RDFS词汇的功能，可以定义词汇间、类间、属性间关系等，从而使得数据的语义定义更加丰富，并且构成一个知识系统并支持推理。支持的功能包括：1）类运算式，如枚举，属性值约束，属性基数约束以及交集、并集、补集；2）属性公理，如RDFS属性结构，与其他属性的关系，关于属性的全局基数约束和属性的逻辑特征；3）类公理，如子类、等价类、不相交类；4）个体公理，如个体同一性。

在介绍了相关的概念之后，赵老师又阐明了语义网络、语义网和知识图谱之间的关系：1）在语义网络中，对节点和边的描述没有标准，用户按照需要自行定义，这样导致两个问题，一是不同用户定义方式不同，不便于知识的分享，另一个是无法区分知识描述和知识实例；2）语义网基于W3C制定的标准，利用统一的形式对知识进行描述和关联，这种表示方法更便于知识的共享和利用；3）语义网通过语义具化让每个概念（实体、类别、关系、事件等）都有一个唯一的标识符，这种唯一性使得知识共享在更大领域更大范围成为可能；4）语义网络是一种由概念和关系构成的图结构的知识表示模型，强调的是认知模型；5）语义网是为将互联网建设为以语义互联的海量分布式数据库的技术框架，强调的是标准化和体系化，是对互联网数据进行知识化的工程规范；6）知识图谱可以看做事语义网技术框架在大规模知识库构建方面的一个工程实现，是一类使用语义网技术标准实现语义网络认知模型的知识工程产品集合。

知识图谱是一个包括知识表示、知识构建、知识维护以及知识应用的完整生态系统，主要由经典知识表示理论（一阶谓词逻辑、语义网络、框架、脚本）和语义网资源描述框架（XML、RDF、RDFSchema、OWL）组成。为什么要选择知识图谱，主要是基于以下的原因：1）知识图谱是人工智能应用不可或缺的基础资源；2）语义表达能力丰富，能够胜任当前知识服务；3）描述形式统一，便于不同类型知识的集成与融合；4）表示方法对人类友好，给众包等方式编辑和构建知识提供了便利；5）以二元关系为基础的描述形式，便于知识的自动获取；6）表示方法对计算机友好，支持高效推理；7）基于图结构的数据格式，便于计算机系统的存储与检索。

知识图谱的应用领域包括金融证券、生物医疗、图书情报、电商、农业、政府、电信和出版等。然后赵军老师又从传统推荐系统讲到了融合知识模型的推荐系统，传统的推荐系统

数据结构论坛