第620章低端服务器

金毛文学 www.jmwx.net，最快更新重生之清爽人生最新章节！

    吴院长继续演讲：“大数据必然驱动大带宽，这是全世界国际互联网干线的流量状况，根据美国的预测显示，2010年比2009年全世界的数据量增长了62%，按这个推断，10年国际互联网流量要增长1000倍，美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量，无论亚洲金融危机还是其他危机互联网，流量都不受影响，依旧保持高速增长。”

    “光纤传输能力十年扩大1000倍，目前来看还有很大发展空间，而且现在光纤光缆成本很低，中国生产世界一半的光纤光缆，同时也消耗了世界一半的光纤光缆。可以看到，95年的时候数据总容量比较小，只有2.5G到1G。2010年可以看到，信道单波长已经做到100G，2020年单波长要做到1T，总容量还会增大。”

    众人纷纷点头，电信联通的代表都在场，他们也点头认可吴院长的话。

    而杭雨比电信联通的代表还要认可，还要了解吴院长的话。或许吴院长都想不到，在不久的将来，我们会做出量子计算机，量子卫星，量子通讯，进入5G时代。

    “过去没有人谈云计算，80年代谈数据库、90年代谈IBC，现在谈云计算。实际上云计算应该更准确的是云服务，当然未来会发展成什么?不知道。云计算底层有一个基础设施，像我们很多企业把它的数据库托管到运营商那里，这就使用了云计算，使用了IaaS系统。IaaS里头有数据中心、存储器、服务器，如果仅仅这样还不够，对运营商来讲，无非是“数字房地产”。”

    吴院长接着说道：“运营商希望进一步在上面增加开发工具，叫PaaS，可以提供JAVA、Web2.0一些开发工具、中间件等等，企业可以租用这些开发工具，开发企业要的一些软件，比如说数据挖掘等等。对于一些小企业而言，根本没有开发能力，因此干脆直接租用你的软件，这是SaaS。”

    “比如说现在谈大数据分析，哪个企业都希望大数据分析，但是每个企业去买这些数据分析软件是很不划算的，因此租用第三方的分析软件可能是一个方向。当然更进一步的有Business，有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的，但云计算正好适应了大数据的需要。”

    “大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等，涉及到很多环节。比如说挖掘就需要对数据进行清洗，进行合并、压缩，要转换格式，然后进行统计分析，知识发现以及可视化处理。然后找出它的关联规则，分类、聚类，排序列，优化路径。这里涉及到一大批的数据挖掘的软件。”

    “简单来说，首先是MapReducers，左边的图上很多数据，不同颜色表示不同类型，首先通过Map把这些数据进行分类，不同业务类型的数据分到不同的存储服务器里头，这样就是为了简化运算，在分类过程当中数据是要加标签的，同时要把重复的去掉，这是进行大数据的预分析前的一些操作。另外，大数据需要有很多服务器。”

    “有人认为买高端服务器才可靠，但是据我所知，江燕公司用的是低端的服务器。杭先生，你们公司的微博云可靠吗，性能如何？”吴院长再次看向杭雨。

    杭雨接过话筒，站起来道：“我可以很肯定地回答你，我们公司的微博云绝对可靠，无论性能还是安全，跟那些用高端服务器的没差。”

    吴院长接着问道：“低端服务器的性能不好，你们是如何化腐朽为神奇的？”

    关于使用高端还是低端服务器的问题，当初建设数据中心的时候，江燕公司内部也掀起了相关的技术讨论，最后是杭雨拍板决定使用低端服务器。

    一来，那时候公司资本不够雄厚，使用低端服务器省钱。二来，杭雨经历过大数据时代，知道后世很多大企业用的都是低端服务器。

    杭雨不知道他们怎么做到的，但这不妨碍他下决策，他一句话，技术部便明确目标，开始研究相关技术，结果当然成功了。

    “这个问题问的太专业了，我想让我们公司的关教授来回答。关教授是开发巴蛇系统的总工程师，他比我更清楚具体的技术问题。”杭雨把话筒给关永林。

    “说到低端服务器和高端服务器的选择问题，其实当时我们也是迫于无奈，因为董事长说资金困难，不肯批钱，所以我们只能退而求其次。”关永林站起来道。

    众人闻言笑了笑，感觉他们的开发故事挺有趣的。

    “解决这个问题，得用到分布储存和冗余配置的技术。分布储存大家都知道，冗余配置就是把一个数据拷到三个服务器里头，三个低端服务器的价格仍然比一个高端的服务器便宜，这样一来既提高可靠性又降低了成本。”关永林简单介绍道。

    “感谢关教授的回答，我来补充一下。”吴院长说道：“大数据跟过去的分析不一样，过去的数据都是存下来，存到静止的数据库里头，然后再分析。而大数据每时每刻都有，比如说几毫秒就要送一个数据出来，飞机引擎也是不断的送数据出来，数据根本没有停止的时候。

    “我们不可能等数据停下来再来分析，我们必须一边走一边分析，怎么办呢?过去的分析是静止的，叫做“带数据进程序”，现在的分析是在活动的，也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。”

    “另外，更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达，即便文本表格表达从语意理解还是比较难的。比如地震的时候，网络上为了监控舆情，看看究竟是正面的评论多还是负面的评论多，有一条信息说“当他发现他儿子还活着的时候，他抱头痛哭。”按照分析，“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情，这就难了。文字的分析况且这么难，那么对照片的分析就更难了，要通过OCR扫描出里面的文字，把文字作为标签加到照片上。照片还好说一点，而视频分析就更难了，你怎么找这个人?去年1月份周克华在南京杀了人，当时摄像头把他拍下来的，南京市调出几十万个摄像头视频，拍多长就要看多长，没有分析的办法就靠人看，所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。

    “另外，大数据需要虚拟化和可视化。”吴院长说道：“举个例子，上海江苏路，路上有很多摄像头，每个摄像头背后连一个电视屏幕，在交通管理中心的一面墙上放了很多屏。当然了，再大的墙壁也放不下全上海这么多交通摄像头，所以只能10秒钟显示一条马路的摄像头，这些都是分离的，一个一个看很难看出问题。”

    “我们希望通过软件把这条马路的摄像头合成一个视频，只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够，我们还要把它合成全上海一幅图，就像上海市领导坐着直升机俯视上海一样，看到上海市整个城市里头，在东京北纬某个纬度，在某个时刻段，哪段路交通堵塞。大数据，无论数据有多大，无论是PB还是TB，最重要结果都应该非常直观的一幅图。”

    吴院长的演讲比较长，但是并不难懂，也不会枯燥，因为他举了很多例子，让大家更直观的知道一些细节技术和发展趋势。

第620章 低端服务器

第620章低端服务器