2019年06月15日

分类: 财经

深入钻研大数据：OSS和EMR入门

在本文中，我们将准备好数据环境。设置大数据环境曾经是一件大事。如今，借助云技术，减少了流程数量，使事情变得更简单。本文介绍了阿里云的各种大数据解决方案，并向您展示了开始使用这些服务的步骤。

数据存储

大数据最基本的要求是存储。阿里云的对象存储服务（OSS）是一种基于云的存储服务，可帮助存储大量不同类型和不同来源的数据。它非常适合大量的多媒体文件。无论数据类型或访问频率如何，OSS都可以提供帮助。它甚至包括迁移工具，用于将数据从内部部署或第三方提供商迁移到OSS。

在阿里巴巴的主页上，转到“ 产品 ”选项卡，然后选择“ 存储” 下的“ 对象存储服务 ”。

点击立即购买。定价基于您存储的数据量。存储的越多，每单位成本就越少。阿里云提供高达5GB的免费存储空间。

同意启用OSS的条款和条件，您将看到Order Complete页面。

现在您可以开始创建用于E-MapReduce的存储桶。转到OSS控制台，然后单击Create Bucket。

在Create Bucket向导中，填写必要的详细信息。让我们在命名转换中使用“ demo1 ” 的常量，在整篇文章中使用“ Singapore ”作为Region。

如果需要，请更改存储桶的配置\。在左侧面板中，您将看到创建的存储桶。单击它并移至“ 基本设置”选项卡。

您可以在必要时更改配置。单击日志下的configure并启用日志。7OSS现在可以在启用日志的情况下使用。

数据处理

我的存储现在已经完成。对于数据处理，我们有两个主要的阿里云产品供您查看。

MaxCompute - 阿里巴巴处理大数据的平台

E-MapReduce - 用于管理和处理大数据的丰富框架

在本文中，我们将专注于使用阿里云的E-MapReduce的大数据

什么是E-MapReduce？

阿里巴巴云Elastic MapReduce，也称为EMR或E-MapReduce，提供完全托管服务，允许您在几分钟内为大数据应用程序创建Hadoop集群。它建立在ECS之上，使用Apache Hadoop和Spark等开源工具（第一篇文章中介绍），它构成了E-MapReduce的核心，通过用户友好的Web界面快速处理和分析大量数据。

为什么选择E-MapReduce？

E-MapReduce负责集群创建和配置所需的大多数基本任务，同时提供用于管理和使用集群的集成框架。它利用了Hadoop和Spark的全部功能，因此您无需从头开始配置Hadoop。它也基于Spark - 这意味着您甚至可以传输大量数据。它可以轻松地与阿里巴巴云的其他产品集成，如阿里巴巴弹性计算服务（ECS）和OSS。

什么是Hadoop集群？

我们在第一篇文章中遇到了“Hadoop”这个术语。那么，什么是集群？

甲簇是集合的节点，其中一个节点是一个物理机上运行的进程。Hadoop集群有两个主要优点。首先，你有大量的数据，你不能指望它是同质的。Hadoop集群在这种情况下有所帮助，因为它将数据划分为块，每个节点并行处理数据。其次，大数据每天都在增长。因此，对于可能需要扩展的群集设置存在持续配置，即在需要时添加或移除群集中的节点。是的，Hadoop集群也可以解决这个问题，因为它可以线性扩展。

Hadoop是一个主从模型，其中两个主要组件是：

主节点 - 群集由运行NameNode，Secondary NameNode和JobTracker的单个主节点组成。NameNode存储HDFS的元数据。Secondary NameNode保留NameNode数据的备份，JobTracker使用MapReduce监视数据的并行处理

工作节点 - 集群可以具有任意数量的工作节点。该组件运行DataNode，它存储实际数据和TaskTracker辅助的Task Tracker服务。

集群的类型

单节点集群 - 也称为伪分布式集群，其中Namenode和Datanode在同一台计算机上运行。

多节点集群 - 也称为分布式集群，其中一个节点充当主节点，其他节点充当从节点。这些类型的群集的默认复制因子设置为3。

高可用性集群 - 在标准配置中，NameNode成为单点故障，因为如果Namenode出现故障，整个集群将变为不可用。不可用的原因可能是计划内或计划外事件。该集群允许我们同时运行两个Namenode，即Active NameNode和Standby / Passive NameNode。如果一个NameNode发生故障，另一个NameNode将自动接管，从而减少集群的停机时间。

在阿里巴巴，每个单个节点都是一个ECS实例，其中一个将是主实例，其他节点将是工作者/核心实例。大多数业务场景使用多节点集群，因为需要处理和分析大量数据。

让我们在EMR中创建一个简单的集群。

登录您的阿里云帐户，点击右上角的“控制台”。这导致仪表板包含诸如使用的资源，计费等信息。

在左侧，有各种导航图标。其中选择“产品”，并选择E-MapReduce进行分析。

这导致了EMR控制台

您需要默认的EMR角色才能开始使用该服务。如果您尚未进行此设置，您将看到如下所示的警告。

在这种情况下，单击“转到RAM”并通过单击“ 确认授权策略 ”设置默认EMR角色。

接下来，确保您有一个AccessKey。在右上角，将鼠标悬停在用户名上，然后从下拉列表中选择AccessKey。

忽略安全提示。单击“开始使用Sub User的AccessKey”将转到文档中心，您可以在其中找到开始的步骤

继续管理访问密钥并继续“创建访问密钥”

几秒钟后，您将看到创建的访问密钥。

现在已经设置了所有先决条件，请确定群集所在的区域。如果需要更好的网络连接，请将所有阿里巴巴产品放在同一区域。如前所述，我们将在整篇文章中使用“新加坡”。现在我的OSS和EMR在同一个位置。

现在点击“ 创建群集”。如果阿里巴巴要求任何其他角色授权，请继续进行设置，从而进一步创建群集。

阿里巴巴E-MapReduce提供了四种不同的集群类型，如下所示：

Hadoop集群：它提供各种大数据工具，如：

用于分布式存储和处理的Hadoop，Hive和Spark。

Spark Streaming，Flink和Storm构成了流处理系统。

Oozie和Pig负责处理和安排工作。

德鲁伊集群：帮助实时交互式分析，以低延迟查询大量数据。与EMR Hadoop，EMR Spark和OSS合作，它提供实时解决方案。

数据科学集群：专为大数据和人工智能场景配置的数据科学家更好的集群，它还提供Tensor Flow模型。

Kafka集群：高吞吐量和可扩展性的分布式消息系统，提供完整的服务监控系统。

软件配置

目前，我们将创建一个Hadoop集群。选择“Hadoop”。您将拥有一组所提及版本的必需服务。您还可以从可选服务中选择其他工具。

高安全性模式：在此模式下，您可以为默认情况下关闭的群集设置身份验证。完成软件配置后，单击“下一步”并转到“硬件配置”。

硬件配置

在“硬件设置”选项卡中，您可以设置群集所需的一些服务，如虚拟私有云（VPC），虚拟交换机（VSwitch）和安全组。

网络类型：选择区域时，将选择VPC和VSwitch .created。否则创建一个新的。

让我们创建一个新的VPC。移至VPC控制台并单击“创建VPC”

在VPC和VSwitch向导中，提供VPC的区域和名称，然后单击“确定”。

单击确定将开始创建VPC和VSwitch。您可以在ok位置看到“正在创建”。创建后，您可以看到下面的窗口。

点击完成。现在你已经创建了一个。如果您没有看到创建的，请单击“刷新”。

创建VPC后，返回“硬件配置”页面，然后选择现在创建的页面。

如果您是第一次创建群集，则不会选择任何安全组。命名以创建新的安全组。

由于Hadoop是主从模型，因此请选择主服务器和核心实例的配置

还要选择核心实例的数量以确定数据节点的数量。这里我们给出了核心实例= 2，从而创建了一个多节点集群。

完成后，您将看到以下估算的价格。基于此，您甚至可以更改实例类型和磁盘大小。最后，单击下一步。

基本配置

在此选项卡上，为集群命名，设置日志路径（我们之前在OSS中设置）。

还授权角色并为群集设置密码，稍后我们将使用该密码来访问群集。一切都完成后，点击确定。在创建群集时放松几秒钟。现在回到EMR控制台，有你的集群。

我们点击“管理”。您将看到默认启动的所有工具。您可以随时启动，停止，重新启动服务甚至监控它们。如果需要，添加安全性并添加额外服务。

构建集群的最佳实践

要处理的数据量是决定每台机器的节点数和内存容量的关键。

使用默认配置运行作业，并观察所需的资源和时间。基于此继续增强集群。

该集群现已准备好迎接重大交易 - 准备好与大数据一起玩！

在下一篇文章中，我们将讨论数据源和各种数据格式，以将数据摄取到我们的大数据环境中。

2019成都洋气小店吃喝指南

十年一遇！天文奇观周日上演，仅38秒眼慢无

把粉丝们在新加坡合租或托管发生的凹糟事说给你听#新加坡...
在新加坡合租/托管劝君三思而后行。宝宝们现在我在外面，刚刚接了一个粉丝的电话，思虑再三觉得还是有必要录一个视频提醒一下大家，主要聊什么话题？合租到底靠不靠谱？有哪些因素要考虑到？其实合租这种形式很也很普及的，虽然我觉得肯定是合租的人是更多，但是合租也不在少数。我能够理解合租人的心情的，比尤其是只带...
新加坡的法律有多严格？#出国
新加坡法律非常严格，一旦被定罪，就会被永久拉黑，甚至会影响到子孙后代。因此，在新加坡开展业务必须严格遵守法律规定，否则将面临巨大的法律风险。我们一直致力于协助客户合规经营，确保业务安全。比如，有些老板虽然已经退休，但仍希望通过购买物业或投资小型企业来获得额外收入。我们建议他们可以与他人合作，投资小餐...
新加坡移民的9个方法，非常全面，值得收藏
每个国家都有移民政策和移民项目，适用于不同身份背景的人，目的是吸纳人才，帮助国家发展，比如新加坡就有至少九种移民方法，涵盖了各类人才，适用人群很多，大家可以根据自己的条件来选择。今天给大家分享新加坡移民的9个方法，非常全面，值得收藏。方法1、教育移民顾名思义就是通过去新加坡读书的方式移民，这也是...
霉霉新加坡演唱会连加3场！各种抢票渠道别错过
自从霉霉（泰勒·斯威夫特）宣布要来新加坡开演唱会后，大家就开始等票，前有800万人注册大华银行卡获得优先购票权，后有学生请求教育部放“买票假”，如此热烈的回应当然引起了演唱会官方的注意。 6月25日一早，新加坡国家体育场就宣布——演出再加3场！原先，霉霉只会在2024年3月2至4日进行演出，加的3场为3月7至9日，一共6场...
马来西亚东马古晋的房屋尤其好，家家都像别墅，越往南就越富裕
马来西亚东马古晋的房屋尤其好，家家都像别墅，越往南就越富裕其实，只要能使国家富强，社会又是公平和正义主导的，不管由什么民族当政，人民还是能安居乐业的。从我所接触到的马来西亚社会来看，由于政治比较稳定，多年来直持续发展。马来西亚当今的经济发展水平是相当高的，明显超过中国，也超过当今中国最发达的珠三角...