Hadoop是一种充分利用大数据的好方法

科技2020-09-05 15:26:37
导读在当今不断变化的技术世界中,软件即服务(SaaS)已成为一种常见的模式。该服务按用户需求提供给订阅者。大数据也遵

在当今不断变化的技术世界中,软件即服务(SaaS)已成为一种常见的模式。该服务按用户需求提供给订阅者。大数据也遵循相同的服务模型。在本文中,我们将讨论大数据技术领域中遵循的服务模型。

以下是一些众所周知的大数据即服务(BDaaS)服务模型:

Rackspace公司

Rackspace Hadoop集群可以在Rackspace管理的专用服务器,公共云或私有云上运行Hadoop。

Rackspace为Apache Spark和Hadoop 提供了一个云大数据模型。它提供了一个完全托管的裸机平台,用于内存处理。

Rackspace消除了手动管理和维护大数据的问题。它具有以下功能:

通过提供24×7×365支持减少操作负担

提供完整的Hortonworks数据平台(HDP)工具集访问,包括Pig,Hive,HBase,Sqoop,Flume和HCatalog

灵活的网络设计,传统网络高达10GB

选择私有云可以提高公共云的功能和效率,同时提高安全性和控制力。使用私有云的主要缺点是难以管理,需要专家进行升级,修补和监控。Rackspace在这些领域提供了出色的支持,因此无需担心云管理。

Joyent公司

Joyent基于Apache Hadoop,是一个基于云的大数据项目托管环境。此解决方案使用Hortonworks数据平台构建。它是一个高性能的容器本地基础架构,可满足当今移动应用程序和实时Web的需求。它允许在高性能Joyent云上运行企业级Hadoop。

它还具有以下优点:

通过Joyent提供的解决方案,在相同的响应时间内削减三分之二的基础设施成本

Joyent Cloud上的Hadoop集群提供3倍更快的磁盘I / O响应时间

加速分布式和并行处理的响应时间

改进了执行密集型数据分析应用程序的Hadoop集群的扩展

结果更快,响应时间更短

通常,大数据应用程序被认为是昂贵且难以使用的。Joyent正试图通过提供更便宜,更快速的解决方案来改变这种状况。Joyent 为实时Web和移动应用程序提供公共和混合云基础架构。其客户包括LinkedIn和Voxer等知名人士。

Qubole

对于大数据项目,Qubole提供了一个Hadoop集群,内置数据连接器和图形编辑器。这样可以利用MySQL,MongoDB和Oracle 等各种数据库,并将Hadoop集群设置为自动驾驶。它为Hive,Pig和MapReduce提供了一个查询编辑器。

Qubole提供一切即服务,包括:

Hive,Pig和MapReduce的查询编辑器

表达评估员

利用率仪表板

提取转换加载(ETL)和数据管道构建器

其功能包括:

运行速度比Amazon EMR快

易于使用的GUI,内置连接器和无缝弹性云基础架构

资源分配和管理的优化由QDS Hadoop引擎通过使用守护进程完成,提供先进的Hadoop引擎以获得更好的性能

为了加快查询速度,I / O针对S3存储进行了优化。S3安全可靠。Qubole数据服务在S3中对数据的执行速度提高了5倍。

无需为未使用的功能和应用程序付费

云集成 - Qubole Data Service不需要更改当前的基础架构,这意味着它可以灵活地与任何平台配合使用。QDS连接器支持导入和导出云数据库MongoDB,Oracle,PostgresSQL和Google Analytics等资源。

使用Qubole数据服务进行集群生命周期管理,可在几分钟内配置集群,根据需求进行扩展,并在环境中运行,以便轻松管理大数据评估

弹性MapReduce

Amazon Elastic MapReduce(EMR)提供了一个托管Hadoop框架,用于简化大数据处理。分发和处理大量数据非常简单且经济高效。

其他分布式框架(如Spark和Presto)也可以在Amazon EMR中运行,以与Amazon S3和DynamoDB中的数据进行交互。EMR可靠地处理这些用例:

网络索引

机器学习

科学模拟

数据仓库

日志分析

生物信息学

其客户包括Yelp,诺基亚,Getty Images,Reddit等。它的一些功能是:

灵活地在每个实例中使用root访问权限,支持多个Hadoop发行版和应用程序。可以轻松自定义每个群集并安装其他应用程序。

安装Amazon EMR集群很容易。

足够可靠,可以减少监控集群的时间; 重试失败的任务并自动替换性能不佳的实例。

安全,因为它自动配置Amazon EC2防火墙设置以控制对实例的网络访问

使用Amazon EMR以任何规模处理数据。可以容易地增加和减少实例的数量。

低成本定价,无隐藏成本; 每小时支付一次。例如,以每小时0.15美元的价格启动一个10节点的Hadoop集群。

它用于分析点击流数据以了解用户首选项。广告商可以分析点击流和广告印象日志。

它还可用于有效处理大量基因组数据和大数据集。研究人员可以免费访问AWS上托管的基因组数据。

Amazon EMR可用于日志处理,并帮助他们将数PB的非结构化和半结构化数据转化为有用的见解。

砂浆

Mortar是一个高级数据科学平台,基于Amazon Web Services云构建。它基于Elastic MapReduce(EMR)构建,以启动Hadoop集群。Mortar由K. Young,Jeremy Kam和Doug Daniels于2011年创建,旨在消除耗时,困难的任务。这样做是为了让科学家们花时间做其他重要的工作。

它运行在Java,Jython,Hadoop等上,以最大限度地减少用户投入的时间,并让他们专注于数据科学。

它具有以下功能:

它使您的团队从繁琐且耗时的安装和维护中解放出来。

通过在短时间内将解决方案投入运营来节省时间。

自动向用户发出技术和应用程序中的任何故障警报,以确保他们获得准确和实时的信息。

砂浆平台的应用:

为了部署功能强大,可扩展的推荐引擎,最快的平台是Mortar。

Mortar是完全自动化的,因为它只用一个命令从头到尾运行推荐引擎。

它使用行业标准版本控制,有助于轻松适应和定制。

为了进行分析,可以轻松地将多个数据源连接到数据仓库。

它通过处理基础架构,部署和其他操作来节省团队的工作时间。

使用您已有的数据预测分析。Mortar支持线性回归和分析分类等方法。

支持领先的机器学习技术,如R,Pig和Python,为复杂的工作提供轻松的并行化。

99.9%的正常运行时间和战略警报可确保用户的信任和一次又一次的分析管道交付。

预测算法用于发展业务,如预测需求和识别高价值客户。

无论是标记化,词干化,LDA还是n-gram,都可以轻松分析大量文本。

目前有许多大数据应用程序可用,并且在未来毫无疑问会为用户提供更快,更便宜的解决方案。此外,服务提供商将提出更好的解决方案,使安装和维护更少扩展。

免责声明:本文由用户上传,如有侵权请联系删除!