一、云计算与大数据基础 - 好文

云计算部分

一、什么是云计算？

云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型，云计算并不是对某一项独立技术的称呼，而是对实现云计算模式所需要的所有技术的总称。

云计算技术的内容很多：

包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。从广义上说，云计算技术几乎包括了当前信息技术中的绝大部分。

定义：

维基百科中对云计算的定义为：

云计算是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

2012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义：

云计算是基于互联网的服务的增加、使用和交付模式，通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。

云计算是传统计算机和网络技术发展融合的产物，它意味着计算能力也可作为一种商品通过互联网进行流通。

云计算技术的出现改变了信息产业传统的格局：

传统的信息产业企业既是资源的整合者又是资源的使用者；这种格局并不符合现代产业分工高度专业化的需求，同时也不符合企业需要灵敏地适应客户的需要。

传统的计算资源和存储资源大小通常是相对固定的，面对客户高波动性的需求时会非常的不敏捷，企业的计算和存储资源要么是被浪费，要么是面对客户峰值需求时力不从心。

云计算技术使资源与用户需求之间是一种弹性化的关系，资源的使用者和资源的整合者并不是一个企业，资源的使用者只需要对资源按需付费，从而敏捷地响应客户不断变化的资源需求，这一方法降低了资源使用者的成本，提高了资源的利用效率。

二、云计算时代基本的3种角色：

资源的整合运营者、资源的使用者、终端客户。

* 资源的整合运营者就像是发电厂负责资源的整合输出；
* 资源的使用者负责将资源转变为满足客户需求的各种应用；
* 终端客户为资源的最终消费者。
三、云计算的特点

1．资源池弹性可扩张

2．按需提供资源服务

3．虚拟化

4．网络化的资源接入

5．高可靠性和安全性

（1）资源池弹性可扩张

* 云计算系统的一个重要特征就是资源的集中管理和输出，这就是所谓的资源池。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。
*
分散的资源使用方法造成了资源的极大浪费，现在每个人都可能有一到两台自己的计算机，但对这种资源的利用率却非常的低，计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。
*
资源集中起来后资源的利用效率会大大地提高，随着资源需求的不断提高，资源池的弹性化扩张能力成为云计算系统的一个基本要求，云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。
* 大多数云计算系统都能较为方便地实现新资源的加入。
（2）按需提供资源服务

* 云计算系统带给客户最重要的好处就是敏捷地适应用户对资源不断变化的需求；
* 云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支，用户不用自己购买并维护大量固定的硬件资源，只需向自己实际消费的资源量来付费；
* 按需提供资源服务使应用开发者在逻辑上可以认为资源池的大小是不受限制的，应用开发者的主要精力只需要集中在自己的应用上。
（3）虚拟化

* 现有的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调度及应用。
* 在云计算中利用虚拟化技术可大大降低维护成本和提高资源的利用率
（4）网络化的资源接入

*
从最终用户的角度看，基于云计算系统的应用服务通常都是通过网络来提供的，应用开发者将云计算中心的计算、存储等资源封装为不同的应用后往往会通过网络提供给最终的用户。
* 云计算技术必须实现资源的网络化接入才能有效地向应用开发者和最终用户提供资源服务。
* 以网络技术的发展是推动云计算技术出现的首要动力。
（5）高可靠性和安全性

*
用户数据存储在服务器端，而应用程序在服务器端运行，计算由服务器端来处理。所有的服务分布在不同的服务器上，如果什么地方（节点）出问题就在什么地方终止它，另外再启动一个程序或节点，即自动处理失败节点，从而保证了应用和计算的正常进行。
* 数据被复制到多个服务器节点上有多个副本（备份），存储在云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。
四、云计算技术分类

1．按技术路线分类

2．按服务对象分类

3．按资源封装的层次分类

目前已出现的云计算技术种类非常多，对于云计算的分类可以有多种角度：

* 从技术路线角度可以分为资源整合型云计算和资源切分型云计算；
* 从服务对像角度可以被分为公有云和私有云；
按资源封装的层次来分可以分为：

* 基础设施即服务（Infrastructure as a Service，IaaS）
* 平台即服务（Platform as a Service，PaaS）
* 软件即服务（Software as a Service，SaaS）。

1．按技术路线分类

资源整合型云计算：这种类型的云计算系统在技术实现方面大多体现为集群架构，通过将大量节点的计算资源和存储资源整合后输出。

* 这类系统通常能实现跨节点弹性化的资源池构建，核心技术为分布式计算和存储技术。
* MPI、Hadoop、HPCC、Storm等都可以被分类为资源整合型云计算系统。

资源切分型云计算：这种类型最为典型的就是虚拟化系统，这类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化切分，从而有效地利用服务器资源，其核心技术为虚拟化技术。

* 这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统，是目前应用较为广泛的技术，特别是在桌面云计算技术上应用得较为成功；
* 缺点是跨节点的资源整合代价较大；
* KVM、VMware都是这类技术的代表。
2．按服务对象分类

* 公有云：指服务对象是面向公众的云计算服务，公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。
* 私有云：指主要服务于某一组织内部的云计算服务，其服务并不向公众开放，如企业、政府内部的云服务。
*
公有云与私有云的界限并不是特别清晰，有时服务于一个地区和团体的云也被称为公有云。所以这种云计算分类方法并不是一种准确的分类方法，主要是在商业领域的一种称呼

3．按资源封装的层次分类

基础设施即服务（Infrastructure as a Service，IaaS）：

* 把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。
* 这类云计算服务用户的自主性较大，就像是发电厂将发的电直接送出去一样。
* 这类云服务的对象往往是具有专业知识能力的资源使用者，传统数据中心的主机租用等可能作为IaaS的典型代表。

平台即服务（Platform as a Service，PaaS）：

* 计算和存储资源经封装后，以某种接口和协议的形式提供给用户调用，资源的使用者不再直接面对底层资源。
* 平台即服务需要平台软件的支撑，可以认为是从资源到应用软件的一个中间件，通过这类中间件可以大大减小应用软件开发时的技术难度。
* 这类云服务的对象往往是云计算应用软件的开发者，平台软件的开发需要使用者具有一定的技术能力。
软件即服务（Software as a Service，SaaS）：

* 将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户；
* SaaS面向的服务对象为最终用户，用户只是对软件功能进行使用，无需了解任何云计算系统的内部结构，也不需要用户具有专业的技术开发能力。

        传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的，而云计算系统通过IaaS、PaaS、SaaS等不同层次的封装将物理硬件资源封装后，以服务的形式利用网络提供给资源的使用者。

        实现对物理资源封装的技术并不是惟一的，目前不少的软件都能实现，甚至有的系统只有SaaS层，并没有进行逐层的封装。

        在这里资源的使用者可能是资源的二次加工者，也可能是最终应用软件的使用者，通常IaaS、PaaS层面向的资源使用者往往是资源的二次加工者，这类资源的使用者并不是资源的最终消费者，他们将资源转变为应用服务程序后以SaaS的形式提供给资源的最终消费者。

        云计算的服务层次是根据服务类型即服务集合来划分，与大家熟悉的计算机网络体系结构中层次的划分不同。

        在计算机网络中每个层次都实现一定的功能，层与层之间有一定关联。而云计算体系结构中的层次是可以分割的，即某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。

在云计算服务体系结构中各层次与相关云产品对应：

应用层对应SaaS软件即服务，

         如：Google APPS、SoftWare+Services。

平台层对应PaaS平台即服务，

         如：IBM IT Factory、Google APPEngine、Force.com。

基础设施层对应IaaS基础设施即服务，

         如：Amazo EC2、IBM Blue Cloud、Sun Grid。

虚拟化层对应硬件即服务，结合PaaS提供硬件服务，

        包括服务器集群及硬件检测等服务。

大数据部分：

一、大数据简介

计算和数据是信息产业不变的主题，在信息和网络技术迅速发展的推动下，人们的感知、计算、仿真、模拟、传播等活动产生了大量的数据，数据的产生不受时间、地点的限制，大数据的概念逐渐形成，大数据涵盖了计算和数据两大主题，是产业界和学术界的研究热点，被誉为未来十年的革命性技术。

历史发展：

2008年，《Nature》杂志推出了“大数据”专辑，引发了学术界和产业界的关注；

2011年，大数据应用进入我国并快速发展，目前大数据的应用和研究已经是学术界和产业界的热点；

2012年3月，美国政府发布《大数据研究和发展倡议》，投资2亿美元发展大数据, 用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平；

2012年7月，日本提出以电子政府、电子医疗、防灾等为中心制定新ICT（信息通信技术）战略，发布“新ICT计划”，重点关注大数据研究和应用；

2013年1月，英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑；

2013年我国上海、重庆等地相继发布大数据行动计划。

经李克强总理签批，2015年9月，国务院印发《促进大数据发展行动纲要
<https://baike.baidu.com/item/%E4%BF%83%E8%BF%9B%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%8F%91%E5%B1%95%E8%A1%8C%E5%8A%A8%E7%BA%B2%E8%A6%81>
》（以下简称《纲要》），系统部署大数据发展工作。

2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作，力争通过3至5年的努力，将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。

2016年3月17日，《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布，其中第二十七章“实施国家大数据战略”提出：把大数据作为基础性战略资源，全面实施促进大数据发展行动，加快推动数据资源共享开放和开发应用，助力产业转型升级和社会治理创新；具体包括：加快政府数据开放共享、促进大数据产业健康发展。

二、什么是大数据

维基百科将大数据描述为：

大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集，大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。

大数据的“大”是一个动态的概念

以前10GB的数据是个天文数字；而现在，在地球、物理、基因、空间科学等领域，TB级的数据集已经很普遍。大数据系统需要满足以下三个特性。（1）规模性（Volume）：需要采集、处理、传输的数据容量大；（2）多样性（Variety）：数据的种类多、复杂性高；（3）高速性（Velocity）：数据需要频繁地采集、处理并输出。

三、数据的来源

大数据的数据来源很多，主要有信息管理系统、网络信息系统、物联网系统、科学实验系统等；

其数据类型包括结构化数据、半结构化数据和非结构化数据。

*
管理信息系统：企业内部使用的信息系统，包括办公自动化系统、业务管理系统等，是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据，其产生的数据大多为结构化数据，存储在数据库中。
*
网络信息系统：基于网络运行的信息系统是大数据产生的重要方式，电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统，网络信息系统产生的大数据多为半结构化或无结构化的数据，网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的，不接入外部的公共网络。
* 物联网系统：通过传感器获取外界的物理、化学、生物等数据信息。
* 科学实验系统：主要用于学术科学研究，其环境是预先设定的，数据既可以是由真实实验产生也可以是通过模拟方式获取仿真的。
四、生产数据的三个阶段

被动式生成数据：

数据库技术使得数据的保存和管理变得简单，业务系统在运行时产生的数据直接保存数据库中，这个时候数据的产生是被动的，数据是随着业务系统的运行产生的。

主动式生成数据：

互联网的诞生尤其是Web 2.0、移动互联网的发展大大加速了数据的产生，人们可以随时随地通过手机等移动终端随时随地地生成数据，人们开始主动地生成数据。

感知式生成数据：

感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化，遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。

五、大数据特点

（1）数据产生方式：

* 在大数据时代，数据的产生方式发生了巨大的变化，数据的采集方式由以往的被动采集数据转变为主动生成数据。

（2）数据采集密度：

* 以往我们进行数据采集时的采样密度较低，获得的采样数据有限；
* 在大数据时代，有了大数据处理平台的支撑，我们可以对需要分析的事件的数据进行更加密集地采样，从而精确地获取事件的全局数据。

（3）数据源：

* 以往我们多从各个单一的数据源获取数据，获取的数据较为孤立，不同数据源之间的数据整合难度较大；
* 在大数据时代，我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。
（4）数据处理方式：

* 以往我们对数据的处理大多采用离线处理的方式，对已经生成的数据集中进行分析处理，不对实时产生的数据进行分析；
*
在大数据时代，我们可以根据应用的实际需求对数据采取灵活的处理方式，对于较大的数据源、响应时间要求低的应用可以采取批处理的方式进行集中计算，而对于响应时间要求高的实时数据处理则采用流处理的方式进行实时计算，并且可以通过对历史数据的分析进行预测分析;
* 大数据需要处理的数据大小通常达到PB（1024 TB）或EB（1024 PB）级; 数据的类型多种多样，包括结构化数据、半结构化数据和非结构化数据;
* 巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战，单节点的存储容量和计算能力成为瓶颈;
*
分布式系统是对大数据进行处理的基本方法，分布式系统将数据切分后存储到多个节点上，并在多个节点上发起计算，解决单节点的存储和计算瓶颈。常见的数据切分的方法有随机方法、哈希方法和区间方法:
* 随机方法将数据随机分布到不同的节点;
* 哈希方法根据数据的某一行或者某一列的哈希值将数据分布到不同的节点;
* 区间方法将不同的数据按照不同区间分布到不同节点。
（5）大数据的应用领域

* 大数据在社会生活的各个领域得到广泛的应用，不同领域的大数据应用具有不同的特点，其对响应时间、系统稳定性、计算精确性的要求各不相同。
六、主要的大数据处理系统

大数据处理的数据源类型多种多样，如结构化数据、半结构化数据、非结构化数据，数据处理的需求各不相同:

对海量已有数据进行批量处理，对大量的实时生成的数据进行实时处理，在进行数据分析时进行反复迭代计算，对图数据进行分析计算。

目前主要的大数据处理系统有:

数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。

1．数据查询分析计算系统

大数据时代，数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力，数据规模的增长已经超出了传统关系型数据库的承载和处理能力。

目前主要的数据查询分析计算系统包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。

HBase：
* 开源、分布式、面向列的非关系型数据库模型，是Apache的Hadoop项目的子项目；
* 源于Google论文《Bigtable：一个结构化数据的分布式存储系统》，实现了其中的压缩算法、内存操作和布隆过滤器；
* HBase的编程语言为Java。HBase的表能够作为MapReduce任务的输入和输出，可以通过Java API来存取数据。
Hive：

* 基于Hadoop的数据仓库工具，用于查询、管理分布式存储中的大数据集，提供完整的SQL查询功能，可以将结构化的数据文件映射为一张数据表。
* Hive提供了一种类SQL语言（HiveQL）可以将SQL语句转换为MapReduce任务运行。
Cassandra：
* 开源NoSQL数据库系统，最早由Facebook开发，并于2008年开源；
* 由于其良好的可扩展性，Cassandra被 Facebook、Twitter、Backspace、Cisco等公司使用；
* 其数据模型借鉴了 Amazon的 Dynamo和 Google   BigTable，是一种流行的分布式结构化数据存储方案。
Impala：

* 由Cloudera公司主导开发，是运行在Hadoop平台上的开源的大规模并行SQL查询引擎。
* 用户可以使用标准的SQL接口的工具查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Shark：
* Spark上的数据仓库实现，即SQL on Spark；
* 与Hive相兼容，但处理Hive QL 的性能比Hive 快100 倍。
Hana：
* 由SAP公司开发的与数据源无关、软硬件结合、基于内存计算的平台。

2．批处理系统

MapReduce是被广泛使用的批处理计算模式。

MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想，将数据记录的处理分为Map和Reduce两个简单的抽象操作，提供了一个统一的并行计算框架。

批处理系统将复杂的并行计算的实现进行封装，大大降低开发人员的并行程序设计难度。

Hadoop和Spark是典型的批处理系统。MapReduce的批处理模式不支持迭代计算。

Hadoop：

* 目前大数据处理最主流的平台，是Apache基金会的开源软件项目，使用Java语言开发实现。
* Hadoop平台使开发人员无需了解底层的分布式细节，即可开发出分布式程序，在集群中对大数据进行存储、分析。Spark：

* 由加州伯克利大学AMP实验室开发，适合用于机器学习、数据挖掘等迭代运算较多的计算任务。
* Spark引入了内存计算的概念，运行Spark时服务器可以将中间数据存储在RAM内存中，大大加速数据分析结果的返回速度，可用于需要互动分析的场景。

3．流式计算系统

流式计算具有很强的实时性，需要对应用源源不断产生的数据实时进行处理，使数据不积压、不丢失，常用于处理电信、电力等行业应用以及互联网行业的访问日志等。

Facebook 的 Scribe、 Apache的 Flume、 Twitter的 Storm、 Yahoo的S4、UCBerkeley的Spark
Streaming是常用的流式计算系统。

Scribe：
* Scribe 由 Facebook 开发开源系统，用于从海量服务器实时收集日志信息，对日志信息进行实时的统计分析处理，应用在Facebook内部。
Flume：
* Flume由 Cloudera
公司开发，其功能与Scribe相似，主要用于实时收集在海量节点上产生的日志信息，存储到类似于HDFS的网络文件系统中，并根据用户的需求进行相应的数据分析。
Storm：
*
基于拓扑的分布式流数据实时计算系统，由BackType公司（后被Twitter收购）开发，现已经开放源代码，并应用于淘宝、百度、支付宝、Groupon、Facebook等平台，是主要的流数据计算平台之一。
S4：
* S4的全称是Simple Scalable Streaming System，是由Yahoo开发的通用、分布式、可扩展、部分容错、具备可插拔功能的平台；
* 其设计目的是根据用户的搜索内容计算得到相应的推荐广告，现已经开源，是重要的大数据计算平台。

Spark Streaming：
* 构建在Spark上的流数据处理框架，将流式计算分解成一系列短小的批处理任务进行处理。
* 网站流量统计是Spark Streaming的一种典型的使用场景，这种应用既需要具有实时性，还需要进行聚合、去重、连接等统计计算操作；
如果使用Hadoop
MapReduce框架，则可以很容易地实现统计需求，但无法保证实时性；如果使用Storm这种流式框架则可以保证实时性，但实现难度较大；Spark
Streaming可以以准实时的方式方便地实现复杂的统计需求。
4．迭代计算系统

针对MapReduce不支持迭代计算的缺陷，人们对Hadoop的MapReduce进行了大量改进，Haloop、iMapReduce、Twister、Spark是典型的迭代计算系统。

* HaLoop：Haloop是Hadoop MapReduce框架的修改版本，用于支持迭代、递归类型的数据分析任务，如PageRank、K-means等。
* iMapReduce：一种基于MapReduce 的迭代模型，实现了MapReduce 的异步迭代。
* Twister：基于Java的迭代MapReduce模型，上一轮Reduce的结果会直接传送到下一轮的Map。
* Spark：基于内存计算的开源集群计算框架。

5．图计算系统

社交网络、网页链接等包含具有复杂关系的图数据，这些图数据的规模巨大，可包含数十亿顶点和上百亿条边，图数据需要由专门的系统进行存储和计算。

常用的图计算系统有Google公司的Pregel、Pregel的开源版本Giraph、微软的Trinity、Berkeley　AMPLab的GraphX以及高速图数据处理系统PowerGraph。

Pregel：

Google公司开发的一种面向图数据计算的分布式编程框架，采用迭代的计算模型。Google的数据计算任务中，大约80%的任务处理采用MapReduce模式，如网页内容索引；图数据的计算任务约占20%，采用Pregel进行处理。
Giraph：

一个迭代的图计算系统，最早由雅虎公司借鉴Pregel系统开发，后捐赠给Apache软件基金会，成为开源的图计算系统。Giraph是基于Hadoop建立的，Facebook在其脸谱搜索服务中大量使用了Giraph。

Trinity：
微软公司开发的图数据库系统，该系统是基于内存的数据存储与运算系统，源代码不公开。
GraphX：
由AMPLab开发的运行在数据并行的Spark平台上的图数据计算系统。
PowerGraph：
高速图处理系统，常用于广告推荐计算和自然语言处理。

6．内存计算系统

随着内存价格的不断下降、服务器可配置内存容量的不断增长，使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。

目前常用的内存计算系统有分布式内存计算系统Spark、全内存式分布式数据库系统 HANA、 Google的可扩展交互式查询系统Dremel。
Dremel：
* Google的交互式数据分析系统，可以在数以千计的服务器组成的集群上发起计算，处理PB级的数据。Dremel是Google
MapReduce的补充，大大缩短了数据的处理时间，成功地应用在Google的bigquery中。HANA：
* SAP公司开发的基于内存技术、面向企业分析性的产品。
Spark：
* 基于内存计算的开源集群计算系统
七、大数据处理的基本流程

大数据的处理流程可以定义为在适合工具的辅助下，对广泛异构的数据源进行抽取和集成，结果按照一定的标准统一存储，利用合适的数据分析技术对存储的数据进行分析，从中提取有益的知识并利用恰当的方式将结果展示给终端用户。

1．数据抽取与集成

由于大数据处理的数据来源类型丰富，大数据处理的第一步是对数据进行抽取和集成，从中提取出关系和实体，经过关联和聚合等操作，按照统一定义的格式对数据进行存储。

现有的数据抽取和集成方法有三种：

基于物化或ETL方法的引擎（Materialization or ETL Engine）、基于联邦数据库或中间件方法的引擎（Federation
Engine or Mediator）、基于数据流方法的引擎（Stream Engine）。

2．数据分析

数据分析是大数据处理流程的核心步骤，通过数据抽取和集成环节，我们已经从异构的数据源中获得了用于大数据处理的原始数据，用户可以根据自己的需求对这些数据进行分析处理，比如数据挖掘、机器学习、数据统计等，数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。

3．数据解释

大数据处理流程中用户最关心的是数据处理的结果，正确的数据处理结果只有通过合适的展示方式才能被终端用户正确理解，因此数据处理结果的展示非常重要，可视化和人机交互是数据解释的主要技术。

我们在开发调试程序的时候经常通过打印语句的方式来呈现结果，这种方式非常灵活、方便，但只有熟悉程序的人才能很好地理解打印结果。

使用可视化技术，可以将处理的结果通过图形的方式直观地呈现给用户，标签云（Tag Cloud）、历史流（History Flow）、空间信息流（Spatial
Information Flow）等是常用的可视化技术，用户可以根据自己的需求灵活地使用这些可视化技术；

人机交互技术可以引导用户对数据进行逐步的分析，使用户参与到数据分析的过程中，使用户可以深刻地理解数据分析结果。

八、云计算的兴起有以下因素

（1）高速互联网技术发展

云计算能够利用现有的IT基础设施在极短的时间内处理大量的信息以满足动态网络的高性能的需求。

（2）资源利用率需求

引入云计算模式后可以通过整合资源或采用租用存储空间、租用计算能力等服务来降低企业运行成本和节省能源。同时，利用云计算将资源集中，统一提供可靠服务，能减少企业成本，提升企业灵活性，企业可以把更多的时间用于服务客户和进一步研发新的产品上。

（3）简单与创新需求

在实际的业务需求中，越来越多的个人用户和企业用户都在期待着使用计算机操作能简单化，能够直接通过购买软件或硬件服务而不是软件或硬件实体，为自己的学习、生活和工作带来更多的便利，能在学习场所、工作场所、住所之间建立便利的文件或资料共享的纽带。而对资源的利用可以简化到通过接入网络就可以实现自己想要实现的一切，就需要在技术上有所创新，利用云计算来提供这一切，将我们需要的资料、数据、文档、程序等全部放在云端实现同步。

（4）其他需求

连接设备、实时数据流、SOA的采用以及搜索、开放协作、社会网络和移动商务等的移动互联网应用急剧增长，数字元器件性能的提升也使IT环境的规模大幅度提高，从而进一步加强了对一个由统一的云进行管理的需求。

个人或企业希望按需计算或服务，能在不同的地方实时实现项目、文档的协作处理，能在繁杂的信息中方便地找到自己需要的信息等需求也是云计算兴起的原因之一。

人类历史不断地证明生产力决定生产关系，技术的发展历史也证明了技术能力决定技术的形态。

九、为云计算与大数据发展做出贡献的科学家

超级计算机之父—西摩·克雷（Seymour Cray）在人类解决计算和存储问题的历程中，西摩·克雷成为了一座丰碑，被称为超级计算机之父。

西摩·克雷，生于1925年9月28日，美国人，1958年设计建造了世界上第一台基于晶体管的超级计算机，成为计算机发展史上的重要里程碑。同时也对精简指令（RISC）高端微处理器的产生
有重大的贡献。1972年，他创办了克雷研究公司，公司的宗旨是只生产超级计算机。此后的十余年中，克雷先后创造了Cray-1、Cray-2等机型。

作为高性能计算机领域中最重要的人物之一，他亲手设计了Cray全部的硬件与操作系统。Cray机成为了从事高性能计算学者中永远的记忆，到1986年1月为止，世界上有130台超级计算机投入使用，其中大约90台是由克雷的上市公司—克雷研究所研制的。

美国的《商业周刊》在1990年的一篇文章中曾这样写道：“西摩·克雷的天赋和非凡的干劲已经给本世纪的技术留下了不可磨灭的印记”。2013年11月高性能计算Top500排行中第2名和第6名均为Cray机。

云计算之父—约翰·麦卡锡（John McCarthy ）
约翰·麦卡锡1927年生于美国，1951年获得普林斯顿大学数学博士学位。他因在人工智能领域的贡献而在1971年获得图灵奖；

麦卡锡真正广为人知的称呼是“人工智能之父”，因为他在1955年的达特矛斯会议上提出了“人工智能”这个概念，使人工智能成为了一门新的学科。

1958年发明了LISP语言，而LISP语言中的MapReduce在几十年后成为了Google云计算和大数据系统中最为核心的技术。

麦卡锡更为富有远见的预言是他在1960年提出的“今后计算机将会作为公共设施提供给公众”这一观点与现在的云计算的理念竟然丝毫不差。正是由于他提前半个多世纪就预言了云计算这种新的模式，因此我们将他称为“云计算之父”。

大数据之父—吉姆·格雷（Jim Gray）

吉姆·格雷生于1944年，在著名的加州大学伯克利分校计算机科学系获得博士学位，是声誉卓著的数据库专家，1998年度的图灵奖获得者；

2007年1月11日在美国国家研究理事会计算机科学与通信分会上吉姆·格雷明确地阐述了科学研究第四范式，认为依靠对数据分析挖掘也能发现新的知识，这一认识吹响了大数据前进的号角，计算应用于数据的观点在当前的云计算大数据系统中得到了大量的体现。

在他发表这一演讲后的十几天，2007年1月28号格雷独自架船出海就再也没有了音讯，虽然经多方的努力搜索却没有发现一丝他的信息，人们再也没能见到这位天才的科学家。

热门工具换一换