数据结构论坛

注册

 

发新话题 回复该主题

机器学习和实时分析在ApacheKafk [复制链接]

1#
北京白癜风医院在哪 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/nvxbdf/

全文共字,预计学习时长24分钟

来源:Pexels

ApacheKafka和机器学习的关系很微妙。

本文旨在讨论建立机器学习框架的一个特定部分:在Kafka应用程序中部署一个分析模型来进行实时预测。

模式训练和模型部署可以是两个独立的过程。但是相同的步骤也可应用于数据集成和数据预处理,因为模型训练和模型推导需要呈现同样的数据集成、过滤、充实和聚合。

本文将讨论和比较两种模型部署的不同选择:有RPC的服务端模型(RPCs)和本地嵌入Kafka客户端应用的模型。本文的例子特地使用了TensorFlow,但是相关原则对其他机器学习/深度学习框架或者产品同样适用。这些框架和产品包括H2O.ai,Deeplearning4j,谷歌云端机器学习引擎和统计分析系统(SAS)。

TensorFlow—机器学习/深度学习的开源软件库

Tensorflow是一个为高效计算打造的开源软件库.它灵活的架构让多个平台(cpu、gpu、TPUs等)间的计算部署变得更加容易,应用范围从桌面到服务器集群再到移动和边缘设备。该软件由谷歌人工智能组织的研发团队研究员和工程师开发,作为机器学习和深度学习的强力支持,Tensorflow应用于多个领域,是一个完整的生态系统而不是一个孤立的元件。

鉴于本文聚焦于模型服务,主要对保存和加载模型感兴趣。保存和加载模型就是存储训练模型,并将Tensorflow作为模型服务器。

存储模型本质上是一个二进制文件,使用协议缓冲区(Protobuf)序列化。接着模型在C,Python,Java等软件中分类数据、加载数据、存储和处理数据。文件格式是可读的文本格式(.pbtxt)或压缩的二进制协议缓冲区(.pb)。图表对象是在TensorFlow中进行计算的基础。权重保存在单独的TensorFlow检查点文件中。

由于本文

分享 转发
TOP
发新话题 回复该主题