数据库未来：湖仓一体成新趋势

hashdata - 2022-07-12 23:10:43

摘要：本文回顾了“湖仓一体”概念提出的相关背景，详细地阐述了为什么需要“湖仓一体”以及“湖仓一体”数据架构的具体设想。最后对数据仓库、数据湖以及“湖仓一体”进行了具体的比较。

自 20 世纪 80 年代末以来，数据仓库在决策支持和商业智能应用领域中发挥了重要作用。

数据湖
虽然数据仓库非常适合结构化数据，但许多现代企业必须处理非结构化数据，半结构化数据。

数据湖是企业卸载所有数据的地方，因为其低成本存储系统具有文件API，可以保存通用和开放文件格式的数据，例如Apache Parquet和ORC。开放格式的使用还使数据湖中的数据可以直接被各种其他分析引擎（如机器学习系统）访问。
一开始，人们认为所需要的只是提取数据并将其放入数据湖中。一旦进入数据湖，最终用户就可以潜入并找到数据并进行分析。然而，组织很快发现，使用数据湖中的数据与仅仅将数据放置在湖中完全不同。换句话说，最终用户的需求与数据科学家的需求有很大不同。
最终用户遇到了各种各样的障碍：

需要的数据在哪里？一个数据单位如何与另一个单位的数据相联系数据？数据是否是最新的？数据的准确性如何？
由于缺乏一些关键的基础设施功能，数据湖的许多承诺尚未实现：不支持事务，不强制执行数据质量或治理，以及性能优化不佳。结果，企业中的大多数数据湖都变成了数据沼泽。
当前数据架构的挑战
当前常见的数据架构是使用多个系统（一个数据湖、多个数据仓库和其他专用系统）来平衡数据仓库和数据湖的优劣势。

但是，这会导致三个常见问题：
昂贵数据移动成本
超过90%的模拟/物联网数据存储在数据湖中，因为它具有开放直接访问文件的灵活性和低成本，因为它使用廉价的存储。为了克服数据湖缺乏性能和质量问题，企业使用ETL（提取/转换/加载）将数据湖中的一小部分数据复制到下游数据仓库，用于最重要的决策支持和BI应用程序。这种双系统架构需要对数据湖和仓库之间的ETL数据进行持续工程设计。每个 ETL 步骤都有发生故障或引入降低数据质量的错误的风险 — 保持数据湖和数据仓库的一致性既困难又昂贵。同时，ETL可以整合数据。
限制了对机器学习的支持
尽管对机器学习和数据管理的融合进行了大量研究，但没有一个领先的机器学习系统，如TensorFlow，PyTorch和XGBoost，在仓库之上工作得很好。与提取少量数据的商业智能（BI）不同，机器学习系统使用复杂的非SQL代码处理大型数据集。
缺乏开放性
数据仓库将数据锁定为专有格式，这会增加将数据或工作负载迁移到其他系统的成本。鉴于数据仓库主要提供仅SQL访问，因此很难针对数据仓库运行任何其他分析引擎，例如机器学习系统。
“湖仓一体”的出现
在数据湖的基础上，出现了一种新的数据架构，称为”湖仓一体“。

采取Lake-First的方法论
利用数据湖中已有的模拟和物联网数据，因为数据湖已经将大多数结构化、文本和其他非结构化数据存储在低成本存储（如 Amazon S3、Azure Blob Storage 或 Google Cloud）上。
为数据湖带来可靠性和质量支持ACID支持Sechema，提供星型、雪花等模型分析能力，提供强大的治理和审计机制。支持Sechema强制检查，从而防止错误数据导致数据损坏。架构演进允许数据不断更改，使最终用户能够对可自动应用的 schema 进行更改，而无需繁琐的DDL。添加治理和安全控制通过 Scala、Java、Python 和 SQL API 支持 DML，以合并、更新和删除数据集，从而符合 GDPR 和 CCPA，并简化变更数据捕获等用例。历史记录提供有关对数据所做的每个更改的记录详细信息，从而提供更改的完整审核跟踪。数据快照使开发人员能够访问和恢复到早期版本的数据，以进行审核、回滚或重现实验。基于角色的访问控制为表的行/列级别提供细粒度的安全性和治理。
优化性能
通过利用文件统计信息和数据压缩来调整文件大小，实现各种优化技术，例如缓存、多维聚类、z-ordering、data skipping等。
支持机器学习支持多种数据类型来存储、优化、分析和访问许多新应用程序的数据，包括图像、视频、音频、半结构化数据和文本。高效直接读取大量数据（非SQL），以便使用 R 和 Python 库运行机器学习试验。通过内置支持 DataFrame API 声明性 DataFrame API，可针对机器学习工作负载中的数据访问进行查询优化，因为 TensorFlow、PyTorch 和 XGBoost 等机器学习系统已采用 DataFrames 作为操作数据的主要抽象。机器学习实验的数据版本控制，提供数据快照，使数据科学和机器学习团队能够访问和恢复到早期版本的数据以进行审核和回滚或重现机器学习实验。
提供开放性开放文件格式，如Apache Parquet和ORC。Open API提供了一个开放的API，可以直接高效地访问数据，而无需专有引擎和供应商锁定。语言支持，不仅支持SQL访问，还支持各种其他工具和引擎，包括机器学习和Python/R库。
数据仓库 vs 数据湖 vs 湖仓一体
下图表是对数据仓库、数据湖、湖仓一体的比较：

思考与讨论
你认为湖仓一体架构必须具有哪些功能，才能称为真正的”湖仓一体“，而不是炒作概念。事务（ACID）支持开放文件格式数据安全、数据治理其它

HashData湖仓一体应用实践
随着企业数字化转型的推进，越来越多的企业视湖仓一体为数字化变革的契机。当然，关注度越高，市场上嘈杂的声音也就越多。
在实际业务场景中，数据的移动不只是存在于数据湖和数据仓库之间，湖仓一体不仅需要把数仓和数据湖集成起来，还要让数据在服务之间按需流动。
HashData采用湖仓一体化架构，可以方便、快捷地将大量数据从数仓转移至数据湖内，同时这些移到湖里的数据，仍然可以被数仓查询使用。
目前，HashData已广泛应用于金融、电信、交通等行业，服务超过50家行业客户。在能源领域，HashData为某大型央企设计了基于计算存储分离的架构数据湖, 相比计算存储绑定的架构，HashData云端数据湖在保证查询需求的同时，减少了服务器资源成本。在PB级的数据量下，可以为企业节省上百万的服务器采购成本，充分实现了降本提效的目标。

特别申明：本文内容来源网络，版权归原作者所有，如有侵权请立即与我们联系（cy198701067573@163.com），我们将及时处理。

上一篇： IvorySQL功能点介绍--Package(包)

下一篇：如何使用 Node.js + MongoDB 开发 RESTful API 接口（Node.js + Express ...）