导读:
数据科学的核心在于熟练掌握数据科学与数理统计的基本概念,通过特定算法从数据中提取信息,并将其转化为可理解的知识,以辅助决策。
随着计算机技术的不断进步和数据的快速积累,数据科学应运而生。它以已有数据集为基础,运用特定的算法进行信息提取,旨在为决策提供科学依据。北京信用管理有限公司就是一家以数据为核心业务的公司,其业务涵盖了数据加工、反欺诈与信用风险管理等领域。
对于该公司而言,数据不仅是基础,更是研发的核心。不进行研发的企业,只能停留在简单的数据处理和代工阶段。
数据科学的工作范式如图1-1所示,我们的工作就是不断重复这些步骤,从数据的收集、清洗、分析到结果的呈现。
在商业场景中,以淘宝商家为例,通过数据分析可以明确应该向哪些客户发放打折券。这需要了解客户的流失可能性、客户价值以及对打折券的兴趣等客户标签。这些标签可以分为基础标签、统计标签和模型标签。
基础标签可以直接从原始数据中获取,如客户的性别、年龄段和职业。统计标签则是通过对原始数据进行描述性统计分析获得,如客户的价值和消费频次。而模型标签则需要通过构建数据挖掘模型获得,如客户的流失概率和违约概率。
以RFM模型为例,它是一种常用的数据分析工具,通过将信息进行二次分类,得到客户分群。其中,“R”代表最后一次消费时间,可用于判断客户的流失可能性;“M”代表消费总额或平均金额,可代表客户价值;“F”代表消费频次,可表示客户对打折券的兴趣。
在进行数据分析时,我们应遵循数据科学的工作流程,从右至左进行规划和分步操作。对于简单的案例,如本例所示,可以使用Excel进行数据分析。
在数据科学领域中,数据是基础,而数据库则是存储这些数据的工具。Python和R等工具虽强大但难以处理大数据量时,常需借助Oracle等数据库工具进行数据分析的预处理工作。
统计学在数据科学中也有着举足轻重的地位。虽然其最初主要针对小数据进行描述性分析等操作,但在现代商业智能中,其仍被广泛应用于数据的可视化技术等复杂操作中。而一些更高级的数据科学方法则起源于早期人工智能的研究,如网络算法等。
在学习数据科学时,我们不必一开始就陷入高深的数学理论中无法自拔。可以从业务需求出发,以最简单的方法开始学习和工作。一旦掌握了描述性统计分析和统计推断的基本知识后,便可以应对绝大部分工作。
描述性统计分析是每个人几乎都会使用的方法。它从总体数据中提炼出主要信息或统计量,如平均数、总和等。在日常的业务分析报告中,我们常常使用这种分析方法对主题和影响因素进行量化分析并呈现结果。
而统计推断则是建立解释变量与被解释变量之间可解释的、稳定的表达式的过程。虽然目前存在一些关于统计推断的误解和争议但它在数据科学体系中仍扮演着重要的角色是复杂的数据挖掘和人工智能算法的基础。
为了降低统计推断的学习成本我们可以参考表1-2所示的方法进行学习这样不仅可以提高学习效率还可以帮助我们更好地理解和应用这些方法。
张浩先生是一位在大数据、人工智能等领域有丰富经验的技术专家;周大川先生在金融行业有深厚背景并在企业级数据平台建设等方面有着丰富经验;常国珍女士是数据挖掘和数字化运营咨询领域的专家他们的经验和见解对于我们学习和应用数据科学具有重要的指导意义。
本篇内容摘编自《金融商业数据分析:基于Python和SAS》一书此书已由某出版社出版并授权发布。(IN:37)对于希望快速入门并精通金融商业数据分析的朋友们这本书是一本值得推荐的读物。