1. 数据驱动的变革
1.1 当今时代,数据正在深刻影响着各行各业的巨大且不可逆转的变革。
1.2 分析型数据已成为现代企业竞争的核心资产,不再是单纯依赖或忽视数据的问题,而是要充分利用数据并明确其应用场景。
1.3 数据收集只是第一步,更重要的是要相信其可靠性及可信任度。
1.4 借助dbt和Great Expectations等工具,从业者能更有效地对关键数据集进行单元测试。
1.5 数据质量维护依赖于良好的文化、流程和利益相关方的认同与协作。
1.6 在项目规划中,数据质量计划通常应优先于其他如数据目录和数据发现等项目。
1.7 评估数据质量的可度量性是确保投资于数据质量合理性的关键。
1.8 数据宕机时间、检测时间及解决时间之间的计算关系,对于评估数据健康及及时响应至关重要。
2. 数据价值的体现
2.1 当不良数据导致“资金溜走”时,我们更能感受到优质数据的价值。计算处理数据问题的成本及机会成本是衡量数据价值的重要方式。
2.2 评估数据可靠性对公司财务影响的每一个环节,都是证明数据价值的关键步骤。
3. 数据实践的演变
3.1 建立全面的数据实践不只是应对数据宕机的应急措施,而是长远的数据战略。
3.2 紧跟行业发展趋势,积极管理公司的目标和战略,是数据分析的关键。
3.3 随着数据仓库和数据湖的融合,数据管理的方式也在发生变化。
3.4 数据仓库更易于维护数据质量,而数据湖则提供了更多的数据和层次。湖仓一体化的趋势为采用更集中的数据质量和数据可观测性方法打开了大门。
3.5 数据团队中的新角色如雨后春笋般涌现,包括数据产品经理、分析工程师、数据可靠性工程师、数据设计师等。
3.6 自动化的兴起为提高数据质量、编目和其他流程提供了更多机会。
3.7 技术创新和进步使得数据工程更加自动化,提高了防止数据宕机的能力。
4. 未来的数据管理
4.1 分布式数据范式如数据网格使得企业各职能部门能更方便地利用数据进行特定用例的处理。
4.2 面向领域的所有权在数据管理中的应用具有巨大潜力,但也可能带来复杂度。
4.3 微服务架构的经验可以为我们提供数据网格实施后的可能情况提供参考。
4.4 在剥离技术组件时需注意其对数据质量的影响。
4.5 积极识别问题并创建数据的来龙去脉对于扩展数据网格方法至关重要。