0%

数据仓库(Data Warehouse)与数据湖(Data Lake)

数据仓库(Data Warehouse)与数据湖(Data Lake)

看维基百科的定义

Data Lake

A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning. A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video). A data lake can be established “on premises” (within an organization’s data centers) or “in the cloud” (using cloud services from vendors such as Amazon, Google and Microsoft).

Data Warehouse

In computing, a data warehouse (DW or DWH), also known as an enterprise data warehouse (EDW), is a system used for reporting and data analysis, and is considered a core component of business intelligence. DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise.

从定义来看,数据湖和数据仓库都是可以存储数据的系统,对所存储数据的结构和方式不同,应用场景也有区别。

关键区别

特征 数据湖 数据仓库
起源年代 2011年 20世纪80年代
数据结构 原始数据,非结构化的,没有经过设计的,Schemaless 结构化的,提前预设计和预处理的
用户 专业数据人员,数据科学家、数据工程师、数据分析师 数据分析师、业务分析师
可访问性 更灵活 更易于理解
应用场景 机器学习、数据发现、数据分析 数据分析、分析报告、报表、BI、数据可视化

从目前发展和应用来看,最首要的区别体现在结构化上,数据仓库是预设计处理后的结构化数据,写入时Schema,更易于读取和理解,数据湖是写入时Schemaless,读取时进行Schema设计,所以后期对数据处理的的技能要求相对高。

发展趋势

分别用GoogleTrends和百度指数看下数据湖和数据仓库的关注趋势,因为Google和百度的受众用户不同,也可以大概看出国内外的趋势区别。

GoogleTrends近5年的趋势

百度指数近5年的趋势

可以明显看出国内外对数据仓库的关注度都高于数据湖。从GoogleTrends长期看Data Lake的关注趋势持续走高,Data Warehouse关注趋势呈下降趋势,尤其是几年Data Lake的关注度快要赶上Data Warehouse。
Data Warehouse 这一概念的提出需要追溯到20世纪80年代,Data Lake 这个概念相对Data Warehouse 比较晚,是在2011年由Pentaho CTO James Dixon提出。
可以看出国外对Data Lake的关注比较早,国内在2018年初开始有关注。
按照这种趋势,国外会有大量的产品或服务让Data Lake逐步落地,国内目前还是以数据仓库为主导,等数据湖相关产品和配套服务成熟,趋势上可能会发生变化。

行业发展

各大云计算供应商AWS,Microsoft Azure,阿里云也有针对Data Lake的云产品和服务,目前主要以降低成本为主要卖点,把数据采用对象存储,同时把存储和计算分开,对需要使用的数据分配计算资源,以达到降低存储和计算的资源总成本。
随着企业内数据种类的增多和数据规模的提升,长期看这种商业模式的数据湖会逐渐成为企业数据解决方案的选择。

参考