大数据恶补感受

最近恶补了一些大数据知识,看了一个系列的视频教程再加上这几年的一些了解,外加上【非大数据】下的一些感受。首先要吐槽一下JAVA体系下的视频录制人员,是专业的人士,请不要将C#读成C井,这真的不是这么读的,跟我大声的读一下,C Sharp !
      为了方便亲,查看本文,特对大数据做一个广义的定义,大数据即从特定目标收集特定数据,从中分析出一些有价值的结果。这里并没有使用海量,因为我觉得,海量会让很多觉得【大数据】离自己很遥远,其实【大数据】可以离我们很近,甚至我们已经被【大数据】所覆盖了。
     举个很简单的例子,虚构的。北京地铁、道路不是有很多摄像头么,这些视频数据都可以实时落地到【大数据】存储中,经过机器视觉分析,谁谁谁什么时候在哪个地方出现过,是不是很容易挖出来。如果要像电影里快速定位一个人的位置,是不是这么很快的找出来了。还能预测出这个人最近几个小时的行动轨迹【假设这个人是有规律的】,没有规律的话,也没有关系,有实时的探头啊,然后就可以去逮人了。如果有人做为证,说XX时间在哪些地方出现过,可以用这个大数据资料进行印证。所以说,【大数据】就在身边。
     我一直想做的一个应用是,拍拍搜,不管你看到什么,你拍一下,就什么都知道了。
      大数据的实事标准是Hadoop,这个生态圈有一系列的成员,从1.0到2.0,很多互联网公司都为这个生态圈贡献了开源组件。在视频教程的收尾,看到有商用业、开源的一些性能比较,开源的真的是比商业的差了50%以上的性能。
说到大数据,最常见的2个应用是日志分析、推荐系统。一般小公司,基本上就不用谈大数据?其实小公司也是可以使用大数据的,数据的收集与使用,是结合实际的业务运营需求的,能用好就有价值。大公司,也不一定需要大数据,如果公司只是大,没有数据概念与数据价值的理念,大数据就只是跟风。
Hadoop生态圈中的MR,这种设计思路挺有意思的。将一个大的作业拆成N个小的作业,再合并。原来在XX银行分析报文的时候是自己写的分析工具,因为数据量较少,没有做任何拆分,几分钟可以分析一次。产生出MR这种设计方式,也是基于实际的生产问题。如果我当时需要分析的报文数量再多几个数量级,我估计我也是会选择拆分再合并。
异构系统间的数据传输,hadoop生态圈中的日志数据收集,一般是在宿主机器上安装一个Agent,将数据回发到Collector,再由Collector将数据再加工一下上传到HDFS或HBase中。以往的工作经验中,好像很少这么认真的对待日志数据,嘻嘻。Agent<=>Collector<=>HDFS/HBase,,Agent很多,不直接Link到后端存储,防止冲垮后端存储,同时也减少小文件数量?这个设计的使用过程是需要保证不能有单点故障的,有多种模式可以选择,可以保证无单点故障。
大数据的前景,因为大数据需要配置的东西比较多,真正要将大数据技术让更多的企业享益的活,应该是一个更为通用的平台,减少使用者的复杂度。互联网广告公司就是一个非常显著的案例。某同事有个垃圾站,日IP过万,挂Google广告的话,Google要从依据来访者的属性,显示合适的广告。说到头,当前大数据的核心理念都是来自Google啊。
大数据的前景,将流量变现。互联网广告公司、电商平台相当不错的应用之地。有数据的地方就有用武之地,数据的价值,在于发现数据的价值。 任何系统、任何地方、任何行业随时随地都在产生数据,从这些数据中发现价值,由人发现,到机器自动发现,将是大数据一个方向。
基于大数据的百变APP,每个人打开APP都是不一样的,无时无刻悄悄的改变。基于大数据的操作系统,每次打开系统,都有惊喜。基于大数据的.. .. ..
说到底,大数据是对现有流程、业务、设计,甚至是公司运营方向、市场方向、产品研发等的一个辅助决策的工具,是一个优先的过程。所以,公司并不一定要有大数据,大数据的前提是,有了,来优化,有了,来选择方向。如果公司连最基本的业务都没有跑起来,优化什么?当然,如果公司比较豪,是可以在最开始就将大数据的思想与理念置入到每个环节。
基于大数据的BOSS看板,见过有公司做这种应用的,就是,专门一个界面显示Boss要查看的指标。如果将大数据置入到公司运营运作的每个环节,那可以监控到公司的运营走势,比如人事的、财务的、技术的等等。
    ……
话说回来,开头所定义的【大数据】,其实还需要加上使用IT技术手段, 
即使用IT技术手段从特定目标收集特定数据,从中分析出一些有价值的结果。因为现在讲的【大数据】都是基于IT技术的,感觉大数据可能会成为任何行业任何软件任何系统的底层标准,也是今后企业竞争力的一个重要维度。
     【大数据】的Agent\Collector,数据采集手段将日新月异,操作系统、免费软件、浏览器、免费杀毒软件、聊天工具、手机终端,服务器,探头、温度计,任何东东都有可能成为大数据的数据源头,人们的行为、偏好,都将被【大数据】悄悄的监测到。基于监测与优化的需要,可能会人为的在一些设备上安装【大数据】Agent\Collector,从而… …