博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Hadoop金融大数据分析》读书笔记
阅读量:6810 次
发布时间:2019-06-26

本文共 520 字,大约阅读时间需要 1 分钟。

《Hadoop金融大数据分析》 Hadoop for Finance Essentials

使用Hadoop,是因为数据量大
数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据
3V定义:即“大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度。
大量指的是数据的量很大,
多样指的是数据的类型很多,
高速指的是数据处理的速度很快
对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,
对于处理TB级数据的大公司来说,PB级的数据,则被认为是大数据
就常规而言,大数据至少是TB级的

 

除了想要存储无尽的数据,企业也需要分析它们

数据以不同的形式存储,其中大量的交易数据被称为结构化数据,图像和音频等数据被称为非结构化数据

 

ETL:提取Extract,转换Transform,加载Load 

现在的企业需要处理异构型数据,从Excel表格,数据库到纯文本、图片、视频、网络数据、GPS数据、传感器数据、文本数据、移动信息数据、甚至包括可以扫描和转换成电子格式的文件

 

转载于:https://www.cnblogs.com/softidea/p/6955148.html

你可能感兴趣的文章
Vue父组件接收不到子组件$emit事件的原因分析
查看>>
工作总结的字体和格式要求
查看>>
CentOS 6.9永久设置静态路由表以及路由表常用设置
查看>>
解决Docker时区与主机时区不一致的问题
查看>>
思考与知识
查看>>
访问日志不记录静态文件 访问日志切割 静态元素过期时间
查看>>
idea中复制module和module中的蓝色tag出现的方法
查看>>
python中的面相对象
查看>>
Spring缓存注解@Cache使用
查看>>
去除wordpress的category各方法对比
查看>>
traceroute
查看>>
精通汇编语言,有兴趣一起搞破解的请进!
查看>>
一步一步写一个简单通用的makefile(三)
查看>>
asp and javascript: sql server export data to csv and to xls
查看>>
一起谈.NET技术,.NET框架:为什么我们要尽量使用框架内建的功能,而不是重新发明...
查看>>
云计算中我们是否需要LAMP的PaaS?
查看>>
研究称Android内核存在漏洞 黑客可窃取电邮
查看>>
C#缺省参数可以让代码变得更加简洁明了与时俱进心里敞亮了很多了
查看>>
【自然框架】js版的QuickPager分页控件 V2.0
查看>>
poj-2049 Finding Nemo *
查看>>