动作中的数据,第1部分:分析应用程序的存储含义


今天,谷歌每秒收到230万搜索查询。这个数字将在2025年 - 假设搜索中的指数增长继续持续趋势?每秒2000万搜索?5000万?比尔隆?任何数字只会猜测。

我们知道到2025年全球Datsphere将超过160多个Zettabytes-A 10倍。但卷不是大数据的唯一定义特征。有两个“vs”需要考虑:

  • 速度——尤其是来自物联网(IoT)的大量实时数据,以及在按需世界中保持竞争力的需要。
  • 多样性——特别是非结构化数据(社交媒体源);机器生成数据(物联网设备);以及对生命至关重要的数据输入(医疗监控、自动驾驶汽车、智能电网)。

数据,数据到处都是

当然,这种数据爆炸产生了两个明显的挑战:分析和管理。你拥有的数据越多,就越难分析它、管理它的位置以及如何访问它。

组织使用分析挖掘有意义的模式的数据,了解操作动态,提高性能,并尝试预测未来。将其认为这是解释大数据来回回答可能导致大结果的大问题。典型的问题包括:我的市场到底发生了什么?为什么会发生这种情况?接下来会发生什么?

简单地说,Analytics的目标是将数据转化为信息和信息。

传统上是一种高度技术功能,分析现已从IT部门迁移。在他们的BI和Analytics魔术象限, Gartner展示了现代分析平台是如何“通过一个自包含的架构定义的,该架构使非技术用户能够自主地执行从数据访问、吸收和准备到交互式分析和见解的协作共享的全谱分析工作流。”唷。

我认为他们的意思是组织中的每个人现在都可以进行自己的分析。现在每个人都可以访问实时的、交互式的数据,而不管原始源/存储库是什么。现在每个人都可以与同行实时协作,分享见解,从而做出更好的业务决策。都在云里。

当然,分析的民主化只增加了大数据的开销。我们不仅要管理纯粹的卷,速度和各种数据 - 但现在每个人都希望在任何地方访问任何东西。因此,除其他外,我们需要谈谈我们如何管理,存储和访问数据的大小。

如何对数据进行排序和交付

谈到大数据时管理,有很多选择。

组织可以选择本地(在上限)存储,或者他们可以将存储外包给云服务提供商。混合解决方案包括在预级和云存储的组合。如今,甚至在主要数据存储中为主要数据存储选择的公司也可能在云中具有备用存储 - 如果仅用于灾难恢复。

另一个重要的决定涉及关键存储组件技术,支撑如何通过存储管理系统对数据进行排序和交付。如今,大多数组织需要混合硬盘驱动器,固态驱动器和混合阵列,以便将每个存储技术与特定用例和数据标准匹配的特定优势。

硬盘驱动器存储技术是所谓的工作主管异步分析操作,即首先捕获和存储数据,然后分析数据。硬盘提供更高的最大容量,更高的通用容量,以及更高的单位成本容量;制造商的研发工程师正在不断创新,以提供更大的性能和容量的驱动器,下一个重大的技术飞跃将在2018年希捷的新HAMR(热辅助磁记录)。

SSD存储(也称为闪存存储)更快,因此优先于同步分析——利用“热门”(或常用)数据的实时(或接近实时)分析。ssd比hdd运行起来更凉爽、更安静,消耗的电力也更少。

由于技术的具有显着不同的功能效益和成本概况,IT架构师必须真正了解他们的存储需求,以找到价格,性能和可靠性之间的最佳平衡。

如果公司正在为其大数据分析指定数据管理解决方案,则考虑两个主要因素是频率和速度。他们需要分析的频率如何?他们需要何种结果?

分析倾向于处理非常大量非常小的数据片段。根据分析的同步(实时)程度,运行良好的分析机器对延迟的容忍度非常小。在存储领域,延迟是一个被低估的指标。人们倾向于关注IOPS(每秒输入/输出操作)和吞吐量,或带宽。然而,延迟是度量分析性能的更好方法,它是系统处理单个存储事务或数据请求所花费时间的度量。另外,它还是IOPS和吞吐量的一个组成部分。

案例研究:大数据,分析和存储

对埃里克汉森采访,TrustCommerce首席信息官

Eric Hanson,首席信息官,TrustCommerce

问:谁是TrustCommerce?

汉森:TrustCommerce提供全面的支付解决方案套件,专注于安全,数据保护和风险缓解。采用PCI验证的点对点加密(P2PE),令牌化,托管付款页面和EMV(芯片和引脚,或芯片,或芯片和剪贴卡,使用EuroGay,MasterCard和Visa标准)。TrustCommerce解决方案协助合作伙伴和客户降低PCI DSS合规性的成本和复杂性。我们为众多消费垂直零售,保险,停车,教育,医疗保健等提供安全的信用卡支付处理。

问:是什么让TrustCommerce与众不同?

汉森:我们提供多种支付方式——卡present设备,网站,移动解决方案和传统的批处理。此外,我们与许多信用卡设备制造商、第三方POS(销售点)供应商和后端处理器合作,将整个网络粘合在一起。因此,如果您是一个商人,我们可以提供各种各样的解决方案,以满足您的精确需求。

问:分析在TrustCommerce的作用是什么?

汉森:我们是一家交易型公司,所以我们主要处理大量高度规范化的数据——每年超过1亿笔交易。因此,我们最关心的分析是容量、吞吐量和延迟。然而,除了庞大的数量和敏感的消费者和商家财务数据这一事实之外,我们还必须处理所有不同行业纵向的一系列法规和遵从性需求——所有这些都是实时的。

我们还对我们自己的数据和流程进行了复杂的分析 - 我们的系统和流程 - 优化我们的性能。这就是我们如何保持竞争力,并继续向客户提供服务。

当然,我们也为我们的客户运行分析 - 商家。我们可以通过持卡人返回品牌,持续时间和其他一切来查看交易,我们不断地看待成本与绩效的平衡。

问:你有自己的数据中心吗?

汉森:我们拥有自己的硬件(主要是)共同定位的数据中心设施。活动和存档数据不断更新并存储在地理上分离的设施中。

问:指定存储解决方案时,您可以寻找什么?

汉森:我们管理着大量的敏感数据,我们必须确保这些数据的可用性和完整性。我们努力实现次秒级的事务周转,一直到后端银行网络。但这一切都回到了数据——这意味着防弹存储是至关重要的。

通过存储,我们需要速度,可靠性和冗余。任何对过程中断的中断都基本上损失了客户的收入。服务中断意味着他们无法付款 - 这很简单。

您通常希望混合硬盘和SSD - 也许是一些混合动力车。固态磁盘昂贵,但性能卓越。我们想要尽量减少吞吐量的潜在中断,我们看SSD。

当然,除了磁盘,存储还有更多的功能。我可以拥有世界上最快的磁盘,但如果背板不能跟上,它的实际运行速度就不会那么快。我们还使用简单但有效的数据管理技术,比如分区,来优化整个流程。此外,TrustCommerce解决方案托管在地理上分离、独立、主动-主动的冗余设施中。实现客户端和服务器端可用性切换(故障转移和负载均衡),以确保最大的产品和服务可用性。

问:数据管理对您的操作有多重要?

汉森:正确的存储决策是关键。这就是为什么我欣赏希捷的广泛技术和平台选择。它可以让我为特定的需求选择最佳的存储方案,为我们的客户提供他们所需要的。

平衡这些需求是什么,我们考虑基本的东西,如我们预期的数据量,以及我们如何以旧的遗传存储智能地智能地发展。今天,我一直希望混合存储解决方案 - 硬盘驱动器和SSD - 无论是正确的应用程序是否正确的驱动器。与许多组织一样,我们的基础架构是多层的,旨在满足不同需求应用程序的性能,可用性和可靠性。我们也看待能力,密度和当然,成本。

-

由于高级分析,事物互联网,社交媒体,认知计算和十几个Datsphere现象的大量需求,大数据只会继续增长。但由于信托普通人的埃里克汉森笔记,大数据增长的基础必须是坚实的 - 这一直让我们回到关于如何部署存储的深思熟虑的研究决定。你打算在哪里存储数据?你是如何存储数据的?您将如何平衡存储性能,可靠性和成本?

询问并期望您的存储提供商帮助您回答这些问题。

有关Seagate存储解决方案的分析应用程序的更多信息,请单击在这里

2018 - 01 - 16 t16:59:37 + 0

关于作者:

托尼Glavis