那么“数据”究竟承载着怎样的奥秘与价值呢?
据百度百科的简述,数据(data)是记录事实或观察结果的载体,是对客观事物的逻辑归纳,是未经加工的原始素材的体现。
当我们深入探究时,会发现日常所提及的“数据”往往已超越了简单的定义,它更多指的是那些经过体系化、逻辑构建并具备实用性的“数据知识”。
我们不能将“数据”轻视为一个单纯的概念。实际上,其背后蕴藏着丰富的内涵和深层次的学问。
接下来,让我们一同探讨四个与“数据”紧密相关的核心概念,随后我将分别阐述它们在实现“价值变现”过程中的方法论。
你是否真正理解data、information、knowledge、insight这四个词的含义呢?
- Data(如菜市场选购的食材):它是原始的、未处理的、无序的事实。
- Information(如同准备食材:洗、切):经过结构化整理、处理后的data,根据“情境与背景”赋予其相关性和实用性。
- Knowledge(如同菜肴的烹饪过程):是通过学习和经验交织的信息地图,具备预测、决策和概括的能力。
- Insight(如同教人如何烹饪):它展现了深刻且精准地理解复杂问题或情况的能力,这种理解有时可借助工具来实现。
一、非结构化数据
非结构化数据是数据的原始形态。我们身处的世界中,无处不在的非结构化数据如文字、图片、音频及视频等,通常存储在文件服务器中(可将其视为计算机硬盘驱动器上井然有序的文件夹)。
从这种形态的数据中挖掘价值通常是最具挑战性的,因为我们需要从繁杂的数据中提取出结构化特征(例如,分析文本时,我们需要提取主题及文本对主题的情感倾向,而每个人对文本的解读可能都有所不同)。
二、结构化数据
与之相对的是结构化数据,其以清晰的表格形式呈现(行列明确),我们清楚知晓每列数据的含义及其类型;这类数据通常储存在数据库中,利用SQL语言可轻松筛选并构建数据集,为数据科学应用提供支持。
三、半结构化数据
半结构化数据位于非结构化与结构化数据之间。它虽有一定格式规定,但结构并不严格,部分数据可能存在不完整性或类型多样性。半结构化数据多以文件形式存储,但某些类型的半结构化数据(如JSON或XML)也可存入面向文档的数据库中。
接下来谈谈中的数据来源...
一、内部的数据资源(私有数据源)
寻找数据的首要之地在于内部。多数企业运行着如ERP、CRM及工作流管理等系统,这些系统常以结构化的方式将数据储存在数据库中;企业可轻易从中提取价值,例如通过工作流管理系统识别业务流程中的瓶颈或利用ERP数据进行销售预测。
二、公开的数据资源(共享数据源)
除了内部数据,还处理和交换大量文件、图片、音频及视频等在公网上传播的数据。这些公开的数据资源如同一座宝藏库;例如,一家保险公司接收的索赔文件中可能附有图片(纸质或PDF格式),这些文件在处理前常需转换为更结构化的格式。在此过程中会丢失部分信息。当试图优化我们的数据科学解决方案时,我们可利用这些文件提取额外数据,如情境概述,进而提升欺诈性索赔检测的准确性。
这便是公开数据源的价值所在。
配图来源于Unsplash,采用CC0协议授权。