数据结构论坛

首页 » 分类 » 问答 » 库学科技一份数据工程师都想要的学习资
TUhjnbcbe - 2021/1/21 18:28:00

作者:PRANAVDAR

翻译:张玲

校正:车前子

本文约字,主张阅览15分钟。

本文首要具体介绍了数据工程的责任、与数据科学家之间的不同以及其不同的作业人物,然后要点列出了很多与中心技术相关的的优异学习资源,最终介绍行业界认可度较高的3种数据工程认证。

在树立模型之前,在数据通过清洗用于探究剖析之前,甚至在数据科学家作业开端之前,数据工程师就现已闪亮上台了。每一个数据驱动的事务都需求一个适用于数据科学管道的结构,不然便是失利的装备。

大多数人怀揣着成为数据科学家的愿望进入数据科学国际,但却没有意识到数据工程师是做什么的,或许这个人物需求具有什么才能。数据工程师是数据科学项目的重要组成部分,以至于在当今数据丰厚的环境里,工业对他们的需求正在指数式地上涨。

现在,没有一致的或许正式的学习道路可供数据工程师运用。大多数担任这个人物的人是经过在工作中学习的,而不是遵从一个具体的学习道路。我写这篇文章的意图是协助那些想成为数据工程师,但却不知道从哪里开端以及从哪里找到学习资源的人。

本文中,我列出了一切有志向的数据工程师需求知道的作业。首要,咱们将了解什么是数据工程师,以及该人物和数据科学家的差异,然后将持续评论你的技术宝箱中应该有的中心技术,以便彻底担任这个作业,最终我还提到了一些应该考虑的职业认可证书。

好了,让我们直接开端吧!

1.什么是数据工程师

2.数据科学家和数据工程师的差异

3.数据工程中的不同人物

4.数据工程认证

5.中心数据工程技术及其学习资源

数据工程简介

根本言语要求:Python

厚实的操作系统常识

丰厚、深化的数据库常识-SQL和NoSQL

数据仓库-Hadoop、MapReduce、Hive、Pig、ApacheSpark、Kafka

根本的机器学习常识

6.总结

数据工程师担任构建和保护数据科学项目的数据架构,他们有必要保证服务器和应用程序之间的数据流是接连的。改善数据根底应用程序,将新的数据管理技能和软件集成到现有体系中,构建数据搜集管道及其他各式各样的工作,都归于数据工程师的责任。

数据工程中最受欢迎的技术之一是规划和构建数据仓库的才能。数据仓库是搜集、存储和检索一切原始数据的当地,假如没有数据仓库,一个数据科学家做的一切使命就会变得要么太贵重,要么太大,以至于无法拓宽。

ETL(提取、转化和载入)是数据工程师构建数据管道所遵从的过程,它实际上是一份关于怎么处理、转化搜集来的原始数据以备剖析的蓝图。

数据工程师一般有着工程布景,与数据科学家不同的是,这个人物不需要太多的学术和科学知识。因而,对构建大规模结构和体系结构的开发人员或工程师十分合适这个人物。

了解这两种人物之间的差异非常重要。从广义上讲,数据科学家归纳运用统计学、数学、机器学习和职业常识来构建模型。他/她有必要运用安排支撑的相同东西/语言和结构来编码和构建这些模型。而数据工程师有必要构建并保护适用于数据搜集、处理和布置数据密集型使用的数据结构和系统架构。构建数据搜集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些仅仅数据工程师有必要履行的使命中的一部分。

要使任何大规模数据科学项目取得成功,数据科学家和数据工程师需求携手协作,不然工作很快就会犯错。

要了解有关这两个人物之间差异的更多信息,请拜访咱们的详细信息图。

数据架构师:数据架构师为数据管理体系搜集、整合和保护一切的数据源奠定根底,这个人物需求了解SQL、XML、Hive、Pig、Spark等东西。

数据库管理员:望文生义,担任此人物的人需求对数据库有着广泛的了解。责任包含确保数据库对一切需求的用户可用,适当地保护数据库,而且确保在增加新特性时没有任何中止。

数据工程师:通晓以上很多技巧的人。正如咱们所见,数据工程师需求把握数据库东西、Python和Java言语、分布式体系(如Hadoop)等常识,这个人物担任多种组合使命。

谷歌认证专家

这是现在最重要的数据工程认证之一。要取得此证书,你需求成功地经过一个具有挑战性的、2个小时多的考试,题型是多项选择题。你能够在这个网页上找到考试内容的大体规模,此外,这个网页提供给了一些实际操作谷歌云技能的实践攻略。请必定要看一下!

IBM认证数据工程师

要取得证书,你需求经过这个考试。考试包括54个问题,你有必要正确答复44个。我主张在考试前,先了解IBM期望你了解的内容。“考试”链接中还供给了学习材料的进一步链接,你能够参阅这些材料进行预备。

Cloudera的CCP数据工程师

这是另一个全球公认的认证,对新手来说是一个适当具有挑战性的认证。你的概念需求更新和深化,你应该有一些运用数据工程东西的实践经验,如Hadoop,Oozie,AWSSandbox等。可是,假如你经过这次考试,关于你取得敞开数据工程范畴作业来说,会是一个充满希望的开端!

Cloudera曾说到,假如你参与他们的ApacheSpark和Hadoop训练课程,这将有助于你经过考试,原因是考试首要根据这两个东西。

数据工程简介

根本言语要求:Python

厚实的操作系统常识

丰厚、深化的数据库常识-SQL和NoSQL

数据仓库-Hadoop、MapReduce、Hive、Pig、ApacheSpark、Kafka

根本的机器学习常识

a.数据工程简介

深化了解人物之间的不同方面之前,首要得了解数据工程的本质是什么。数据工程每天履行的不同作业是什么?顶尖技能公司想要怎样的数据工程师?你是应该了解可见的全部全部,仍是只是了解与某一特定人物相关的东西?我的意图是供给以下参考资料,以助你找到这些问题或许其他更多问题的答案。

《数据工程入门攻略》(第1部分):这是一篇十分受欢迎的、有关数据工程的文章,出自爱彼迎(Airbnb)的一位数据科学家之手。作者首要解说了为什么数据工程是一切机器学习项目中如此要害的一方面,然后深入探讨了本主题的每个部分。我以为这是一切想要成为数据工程师、数据科学家的新手们必读的一篇文章。

《数据工程入门攻略》(第2部分):接着上面的文章,第2部分将介绍数据建模、数据分区、Airflow和ETL的最佳实践。

《数据工程入门攻略》(第3部分):这是入门攻略系列中的最终一部分,本部分将介绍数据工程结构的概念。在整个系列中,作者不断将理论与Airbnb的实践相结合,然后写了一篇篇精妙绝伦的文章,并且还在继续更新中。

OReilly的免费数据工程电子书套件:OReilly以其优异的图书而出名,这一系列也不破例。不过,这些书是免费的!向下滚动到“大数据架构”部分,检查那里的书本。有些书本需求有大数据基础设施的基本知识,但这些书将有助于你了解杂乱的数据工程使命。

b.根本言语要求:Python

尽管还有其他的数据工程专用编程言语(如JAVA和Scala),但咱们本文将只重视Python。咱们看到业界现已显着转向运用Python,并且运用率正在快速上升。它现已成为数据工程师(和数据科学家)技术的重要组成部分。

网络上有很多的学习Python资源,我在下面提到了其间的一些。

在Scratch平台上运用Python学习数据科学的完好教程:KunalJain的这篇文章涵盖了一系列能够用来开端学习和提高Python的资源,这是必读的资源。

运用Python的数据科学导论:这是AnalyticsVidhya上最受欢迎的课程,涵盖了Python的基本知识。咱们还额定介绍了中心计算概念和猜测建模办法,以稳固你对python和数据科学根底的了解。

Codeacademy上学习Python课程:本课程不需要编程根底,肯定是从python的最根底开端,这是一个很好的起点。

假如你喜爱经过书原本学习,下面是一些免费的电子书,便于你开端学习:

AllenDowney的《考虑Python》:全面深化地介绍了Python言语,十分合适新手,乃至非程序员。

Python3的非程序员教程:望文生义,它对错IT布景和非技术布景新手们的完美起点,每章都有很多的示例来测验你的常识。

c.厚实的操作系统常识

在整个数据科学国际的“机器”中,操作系统是使管道工作起来的重要“齿轮”。数据工程师应该了解基础设施组件(如虚拟机、网络、应用程序服务等)的输入和输出。你对服务器办理有多通晓?你对Linux是否有满足的了解,能够阅读不同的装备吗?你对拜访操控办法有多了解?作为一名数据工程师,这些仅仅你将面对的一些问题。

Linux服务器办理和安全:本课程是为那些想了解Linux如安在公司使用的人而规划的,课程内容分为4周(最终还有一个项目),具体介绍了这个主题中的一切基本内容。

CS-操作体系:和其他操作体系课程相同全面,这个课程包含9个部分,专门介绍操作体系的不同方面。首要介绍根据Unix的体系,虽然Windows也包含在内。

RaspberryPi渠道和RaspberryPi的python编程:这是一个炙手可热的编程方法,现在对这种编程人员的需求空前高涨。本课程旨在让你了解RaspberryPi环境,并让你开端学习RaspberryPI上的python根本代码。

d.丰厚、深化的数据库常识-SQL和NoSQL

为了成为一名数据工程师,你需求熟练掌握数据库语言和东西。这是另一个十分根本的要求,你需求具有实时从数据库搜集、存储和查询信息的才能。如今有许多可用的数据库,我现已列出了现在在业界广泛运用的数据库的相关资源,分为SQL和NoSQL两部分。

SQL数据库

免费学习SQL:这是codecademy另一个课程,你能够在这里学到SQL很根本的常识,像操作、查询、聚合函数这些主题从一开端就涵盖了。假如你是这个范畴的新手,没有比这更好的起点了。

快速查找SQL指令的备忘录:一个十分有用的Github存储库,包括定时更新的SQL查询和示例。为了确保你在任何时候都可以快速查找SQL相关指令,请将为这个存储库加入收藏,作为日常参阅。

MYSQL教程:MySQL创建于20多年前,至今仍是业界的抢手挑选。这个资源是一个根据文本的教程,易于了解。这个站点最酷的是,每个主题都顺便有用示例的SQL脚本和屏幕截图。

学习MicrosoftSQLServer:本教程从基础知识到更高的主题讨论SQLSever的概念,并以代码和具体的屏幕截图的方法解说了概念。

PostgreSQL教程:这是一个让人惊叫的具体攻略,让你开端和了解PostgreSQL。本教程分为16个部分,因而你完全可以幻想出该课程的掩盖面有多广。

OracleLiveSQL:谁能比创建者更好地学习OracleSQL数据库?这个渠道规划得非常好供给了杰出的终端用户体会。你能够在这个渠道上检查脚本和教程,然后还能够在这里编码。哇,这太棒啦!

NoSQL数据库

MongoDB来自MongoDB:这是现在最盛行的NoSQL数据库,和上面提及的Oracle训练课程相同,学习MongoDB最好的方法是从创立它的大师们那里学习。我在这里链接了他们的整个课程目录,你能够挑选你想参与的训练课程。

MongoDB简介:本课程将协助你快速发动和运转MongoDB,并教你怎么利用它进行数据剖析。这是一个为期3周的短课程,但有很多的操练。当你完结的时分,会觉得自己便是一名专家了!

学习Cassandra:假如你正在寻觅一个优异的、根据文本的、新手易于了解的Cassandra简介,这会是一个完美的资源。像Cassandra的架构、装置、要害操作等主题都会在这里有所介绍,本教程还供给了专门的章节来解说CQL种可用的数据类型和调集、以及怎么运用用户自定义的数据类型。

RedisEnterprise:了解Redis的资源不多,但这一个站点就足够了。有多个课程和精心设计的视频,使人沉溺其间,趣味无量,并且它是免费的!

GoogleBigtable:作为Google的产品,学习BigTable作业原理的资源稀缺得让人惊奇,我链接了一个包括很多谷歌云主题的课程,你能够向下翻滚,挑选BigTable(或BigQuery)。不过,我主张你仔细阅读整个课程,由于它供给了有关谷歌整个云产品怎么作业的名贵见地。

Couchbase:这儿供给多种训练课程(向下翻滚检查免费训练课程),从初学者到高档都有。假如Couchbase是你们所用的数据库,那么你将在这儿了解有关它的一切信息。

e.数据仓库-Hadoop、MapReduce、Hive、Pig、ApacheSpark、Kafka

现在,在每一个数据工程师的作业描绘中都会看到像Hadoop(HDFS)这样的分布式文件体系。它是一切人物都需求把握的,你应该十分了解。除此之外,你还需求了解ApacheSpark、Hive、Pig、Kafka等渠道和结构,我在本节列出了一切这些主题的资源。

Hadoop和MapReduce

Hadoop基础知识:这本质上是Hadoop的学习途径,它包含5门课程,能够让你深化地了解hadoop是什么、界说它的体系结构和组件是什么、怎么使用它、它的使用怎么样以及其他更多的内容。

Hadoop入门包:关于想要着手开端学Hadoop的人来说,这是一个十分全面的、优异的免费课程。它包含HDFS、MapReduce、Pig和Hive之类的主题,能够经过免费拜访集群来操练所学的内容。

HortonWorks教程:作为Hadoop的创建者,HortonWorks具有一套令人万分等待的课程,能够学习与Hadoop相关的各种常识。从初级到高档,本页有着十分全面的教程列表,必定要看一下这个!

MapReduce简介:在阅览本文之前,你需求了解Hadoop的根本作业原理。请完成后,再回来深化了解MapReduce的国际。

Hadoop逾越了传统的MapReduce-简版:本文介绍了Hadoop生态系统的概述,它逾越了简略的MapReduce。

更喜爱书吗?别忧虑,我现已帮你选好了!下面是一些免费电子书,包括hadoop和它的组件。

《Hadoop详解》:扼要介绍Hadoop的杂乱系统,对Hadoop的作业原理、优势、实际场景中的应用程序等进行了高层次的概述。

《Hadoop-你应该了解的》:这本书和上面的书有类似的内容。正如描绘所说,这些书所包括的内容满足让你了解Hadoop的方方面面,然后做出正确的决议计划。

《运用MapReduce进行数据密集型文本处理》:这本免费电子书涵盖了MapReduce的基本知识及其算法的规划,然后深入探讨了你应该了解的示例和应用程序。主张你在阅览这本书之前先上上述课程。

你应该参加HadoopLinkedIn小组,以确保自己获取最新的音讯,并问询你的任何问题。

ApacheSpark

ApacheSpark、RDD和Dataframes(运用PySpark)的归纳攻略:这是一篇让你开端学习ApacheSpark的终极文章,归于必读攻略。它介绍了ApacheSpark的前史以及怎么运用Python、RDD/Dataframes/Datasets装置它,然后经过处理机器学习问题,对自己的知识点进行查漏补缺。

初学者学习SparkR的具体攻略:假如你是R的用户,这个便是为你预备的!当然,你能够运用Spark和R,本文能够作为你的攻略。

Spark的基础知识:本课程包括Spark的基础知识、组件、使用方法、使用它的交互式示例和各种Spark库,最终了解Spark集群。你还能从这门课程中要求更多的内容吗?

ApacheSpark和AWS简介:这是一门以实践为中心的课程。你将处理古登堡项目数据,它是世界上最大的电子书敞开数据集。你还需要了解Python和Unix命令行,以便从本课程中学到更多。

包括Hadoop、Spark、Hive和SparkSQL的归纳教程

大数据基础知识-HDF、MapReduce和SparkRDD:本课程选用实在的数据来教你根本的大数据技能-HDFS、MapReduce和Spark。这门课程十分具体,示例丰厚,数据集有用,并且教师很优异,归于经典课程。

大数据分析-Hive、SparkSQL、DataFrames和GraphFrames:MapReduce和Spark处理了处理大数据的部分问题,经过这门直观的课程你能够把握这些高档东西,然后把握有关Hive和SparkSQL等方面的常识。

大数据使用-实时流:处理大数据的应战除了要具有处理数据的核算才能,还要具有尽可能快的处理速度。像引荐引擎这样的使用程序需求实时地进行很多数据的处理、存储和查询,这就要求你把握本课程中所供给的比如Kafka、Cassandra和Redis等体系的常识。但要学习这门课程,你需求了解Hadoop、Hive、Python、Spark和SparkSQL的使用。

Kafka

运用ApacheKafka简化数据管道:了解ApacheKafka及其系统架构和运用方法,你需要对Hadoop、Spark和Python有根本的了解,才干真正从本课程中取得最大的收成。

Kafka官方文档:这是一个十分直观地介绍Kafka的作业原理及其组件的网页,它还供给了一个关于分布式流媒体渠道的解说阐明,十分棒!

用Kafka给数据科学家赋能:这自身不是一个很好的学习资源,而是一篇介绍StitchFix的数据工程师怎么依据数据科学家的要求构建一个渠道的文章,非常风趣,并且非常具体。

f.根本的机器学习常识

尽管人们普遍认为机器学习是数据科学家的范畴,但数据工程师也需求通晓其间的某些技能,原因在于你需求简化将模型投入生产的进程和用于数据搜集、生成的管道。因而,你需求对机器学习算法有一个根本的了解。

学习机器学习基础知识的新手攻略:作者KunalJain精彩地介绍了机器学习国际,旨在消除你听到或读到地一切行话。攻略开门见山地切入问题的中心,终究你会爱上这种写作风格。

机器学习算法基本知识:这是一篇优异的文章,供给了各种对机器学习算法的高层次了解,还供给了在R和python完成这些算法的攻略,这是敞开你学习旅程的绝佳地址!

新手必读的机器学习和人工智能书本:假如你更喜爱看书,那么请阅览本文!这儿保藏了最优异的书,即便你只读了其间的几本,这也会助你朝着愿望中的工作跨进一大步!

提高你常识和技术的24个终极数据科学项目:一旦你获得了必定量的常识和技术,请必定要把你的理论常识付诸实践。检查这些数据集,依照易到难的次序,开端处理吧!

库学科技成立于年,是一家综合性的互联网公司,公司总部在北京大兴区,公司的主要业务涉互联网软件开发,数据库、人工智能、新媒体运营等领域,主要是为国内的中大型互联网公司,提供技术人员的定向入职输送,与国内大型企业做联合定岗招聘,与岗位需求相结合通过短期实训达到企业岗位要求的合格的工程师。

预览时标签不可点收录于话题#个上一篇下一篇
1
查看完整版本: 库学科技一份数据工程师都想要的学习资