一本书带你入门商业数据科学

news2024/2/23 5:02:48

老马(Matt Taddy)是 Central Economics Team 的 VP,亚马逊北美首席经济学家。相当于大型智囊团里的二当家的。

在来亚马逊之前,老马是芝加哥大学布斯商学院的明星教授,他是学数理统计出身的,一开始教授的是统计学、机器学习等课程,后来他一手组建了芝加哥大学布斯商学院的大数据课程体系。

今天介绍的这本书就来自他在芝加哥大学布斯商学院的 Big Data 课程以及在工业界的实践——老马担任大学教授期间,还担任微软商务人工智能首席研究员、eBay 研究员,这种学界和工业界两栖的商业背景是相当难得的。因此他的书也很特别,兼具学术的严谨性和工业的应用性。

以下是老马讲解的阅读本书之前的关键问题:了解商业数据科学这个领域的现状,以及我们为什么要通过这本书来学习商业数据科学。

过去十年中,商业分析被一种新方法搅得天翻地覆。电子表格模型和数据透视表正在被用 R、 Scala、Python 等语言编写的代码脚本取代。从前需要大量商业分析师才能完成的任务,已经被应用科学家和软件开发工程师自动化了。这种现代化的商业分析有望让公司领导者深入了解公司经营和客户行为的所有细节。借助机器学习提供的工具,我们不但可以跟踪商业活动,而且可以预测活动的结果。

大数据的兴起推动了这场革命,具体地说,就是互联网时代可追踪数字化信息的海量增长, 以及适合存储和分析这种数据的工程系统的蓬勃发展。跨领域的知识融合——机器学习与计算机科学、现代计算理论与贝叶斯统计、数据驱动的社会科学与经济学——提升了所有领域中应用分析的质量和广度。机器学习专家研究如何对流程进行自动化和扩展规模,经济学家开发了工具来建立因果关系和结构化模型,统计学家则谆谆告诫所有人要跟踪不确定性。

数据科学这个名词已被广泛采用,用于描述这个不断变化、定义模糊的跨学科领域。和很多新兴领域一样,数据科学也经历了一个大肆炒作的阶段,一堆人把自己重新包装成数据科学家。只要与数据稍稍沾边的事情,都可以使用“数据科学”这个名词。实际上,对于在本书中是否使用这个名词,我踌躇良久,因为它被滥用了,含义难以统一。但是,在专门的商业分析领域,作为一种现代、科学、可伸缩的数据分析方法,数据科学的应用范围非常明确。在世界一流的企业和商学院中,商业数据科学已经成为数据分析的新标准。

本书是一本入门书,面向的是那些想在高端企业中担任数据科学家的读者。他们可以通过本书获得必要的技能,包括识别商业政策中的重要变量、通过实验测量这些变量,以及挖掘社交媒体以了解公众对于政策修改的反应。他们可以通过推荐系统中的微小变动感知客户体验的变化, 并利用这些信息估计需求曲线。他们需要完成以上所有工作,并将其扩展到公司级别的数据中, 还要精确地解释结论的不确定性程度。

这些超级分析师要使用来自统计学、经济学和机器学习领域的多种工具来实现目标。他们需要接收来自数据工程师的工作流,然后组织端到端的分析任务来提取和聚合所需数据,并编写能在新数据到达时自动重复执行的例程。在做这些工作时,他们应该对要测量的内容以及这些内容与企业决策制定的关系了然于胸。本书不专门讲述机器学习、经济学或统计学中的某一领域,也不会对数据科学进行整体概述,而是从这些领域中提取知识,为商业数据科学建立一个工具集。

这种数据科学紧密地集成在商业决策的制定过程中。先前的“预测性分析”(商业数据科学的前身)往往过于注重机器学习中花哨的演示功能,这些功能已经从制定商业决策所需的输入中移除了。以往数据中的模式检测非常有用,本书将介绍模式识别方面的多个主题;但对于更深层次的商业问题,必要的分析不是研究发生了什么,而是事情为何发生。因此,本书不仅会讨论相关性,还会讨论因果关系分析。相对于主流数据科学,本书更贴近经济学,旨在帮助你在工作中取得更加实际的效果。

本书不会面面俱到,这不是一本关于数据分析的百科全书。实际上,在当代机器学习和数据科学的不同领域中,都有很多非常优秀的图书。本书介绍的是我认为的商业数据科学中的关键因素,并且精心组织了内容。希望你能从本书中获得一些最佳实践,能够确定该信任什么,如何使用它,并为继续学习打下基础。

在商业数据科学领域,我已浸淫十余年之久。我曾是一名教授,向 MBA 学生教授回归课程(后来是数据挖掘,再后来是大数据);我也曾是一名研究人员,致力于将机器学习应用于社会科学;我还曾受雇于一些著名的大型高科技公司,在其中担任顾问。通过这些经历,我发现了一批跨领域通才,他们既能理解商业问题,也能深入数据,进行自己的分析。这些人就是时代精英,所有公司都需要这样的人才。通过本书,我希望能帮助更多这样的人脱颖而出。

本书的目标读者是那些想提高数据科学技能的科学、商业和工程领域的专业人员。因为这是一个全新的领域,所以几乎没有什么人拥有数据科学学位。他们基本来自其他领域,比如数学、 程序设计和商务管理等,但需要一条进入数据科学领域的途径。

我最初的数据科学教学经验来自芝加哥大学布斯商学院的 MBA 课程。我们成功地找到了一些方法,可以让商学院学生掌握深入研究大数据所必需的技术工具。但是我发现,在众多需要使用专业技能来解决商业问题的技术工作者中,面向未来的商业数据科学家的数量更大。其中很多是科学家,不仅是计算机科学家,还可能是生物学家、物理学家、气象学家和经济学家。随着机器学习技术在工程领域的成熟应用, 还需要更多软件开发工程师。

我曾向有以上背景的众多人士做过介绍,只要他们有良好的数学基础以及一点点编程经验, 就能够理解我讲授的知识。我在芝加哥大学教授 MBA 和转行者的经验表明,只要提供恰当的教学资料,非专业人士完全可以成为称职的数据科学家。首先,要明确和统一基本概念。在学术论文、会议期刊、技术手册和博客文章中,重要的数据科学名词常常混乱不清。新手经常完全摸不着头脑,尤其在文章作者想独辟蹊径、自己搞出一个“全新体系”的时候。好的工具不起作用的原因非常简单——只有少数几种稳健的方法可以成功地进行数据分析。例如,要确保模型在新数据上做出很好的预测,而不是用在拟合模型的数据上。本书会尽力找出这些方面的最佳实践,用明确的术语进行描述,并在所有新方法或应用中对其进行增强。     

另一个关键因素是内容要非常具体,要通过应用程序或模拟方法呈现一切,要尽可能将理论和思想以实际经验的方式直观地表达出来。例如,“正则化”的关键思想是建立偏向简单模型的算法,并且只在对强数据信号做出回应时才增加复杂性。在介绍这种思想时,我们会类比电话的降噪功能(或 VHF 收音机中的静噪功能),并在根据 Web 浏览器历史预测在线支出时说明它的效果。对于一些更抽象的内容,如主成分分析,本书会使用多个例子从多个角度解释同一理论。要点就是,尽管本书使用了一些数学知识(你必须尽可能理解它们),但并不会使用数学公式代替适当的解释。         

最后一个关键因素是商业数据科学只能通过实践来学习,这也是阅读本书时必须做到的。这意味着你需要编写代码,对真实、混乱的数据运行分析程序。本书的大多数示例脚本是用 R 语言编写的,并穿插在论述中。如果看不懂这些代码片段,就不能有效地阅读本书。在学习时,你必须自己编写代码和进行分析,而最简单的方法是改写书中的示例。     

要强调的是,这不是一本学习 R 语言的书。要学习 R 语言,有很多优质资源。在芝加哥大学讲授这门课程时,我发现最好将 R 语言的基础知识从核心分析课程中抽离,本书也遵循该模式。要阅读本书,你需要通过一些教程和阅读材料达到 R 语言的初级水平,然后可以通过复制、修改和扩展书中的示例继续提高。要学习本书,你不必是 R 语言专家,但需要能够阅读代码。  

以上就是关于本书我想说的。这是一本关于如何开展数据科学研究的书,它汇集了使用数据帮助现代企业运行的所有激动人心的内容。本书将阐述来自统计学、机器学习和经济学的多个核心原理和最佳实践,你可以通过大量真实的数据分析示例边做边学。本书旨在帮助科学、工程和商业领域中的专业人士成为真正的商业数据科学家。   

| 图书信息

作者:马特·塔迪(Matt Taddy)

译者:陈光欣 

这是一本关于如何开展商业数据科学研究的书,它汇集了使用数据帮助现代企业运行的所有激动人心的内容。

书中详细介绍了商业数据科学中的关键元素,汇集了机器学习、经济学以及统计学领域的核心原则和最佳实践,内容涵盖识别商业政策中的重要变量、通过实验测量这些变量,以及挖掘社交媒体以了解公众对于政策修改的反应,为从事商业数据科学的数据分析师、数据科学家和商业人士提供了必备工具。

商业数据科学的本质优势在于与实际应用走得最近,你可以通过大量真实的数据分析示例边做边学。科学、工程和商业领域中的专业人士都可以通过透彻学习本书成为真正的商业数据科学家。本书的示例采用的是数据科学和数据分析领域最常使用的语言之一 R 语言。

关于本书标题中的“数据分析与数据科学圈潜在标杆级作品”是否夸张呢?斯坦福大学商学院经济学教授 Guido Imbens 这样评价这本书:

“马特·塔迪是芝加哥大学布斯商学院的明星教师,并在微软和亚马逊带领数据科学团队。基于丰富的教学和工作经验……他将现代统计学、机器学习算法和社会科学因果模型中的重要概念巧妙地综合在一起,写出了一本通俗易懂的书。这本书有望成为该领域的标杆级著作。

市面上主题为「商业数据科学」的外版书本来就很稀有,上一本是大名鼎鼎的 Data Science for Business(由图灵引进,翻译为《商战数据挖掘》):

作者:汤姆·福西特等 

译者:郭鹏程  管晨 

这本书虽然写于 2013 年,但目前仍然广受读者喜爱。

而老马这本是 2019 年的新作。2013 到 2019 数据科学领域飞速发展,相信这本书可以成为新的标杆级作品,我们拭目以待。本书目前在 Amazon 获得了 4.4 星的好评,译者为清华大学老师陈光欣,清华在国内数据科学的学科建设中一直领先。

有不少学术界与工业界大佬推荐了这本书,其中包括大名鼎鼎的谷歌杰出科学家 Preston McAfee。

你肯定有很多疑问,这本书是讲什么的?是否适合你阅读?跟其他图书相比,这本书有什么特色?那我们先来上几张图,图里的信息可以回答你的疑问。

1-谁适合阅读这本书

2-这本书解决了什么问题?

3-这本书有什么特别之处?

赠送一枚运筹帷幄数据签

祝一切都在你的运筹帷幄之中

京东传送门

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://nwjs.net/news/141808.html

如若内容造成侵权/违法违规/事实不符,请联系七分地网进行投诉反馈,一经查实,立即删除!

相关文章

面对500篇GNN论文,心态差点儿崩了,幸好我有这本小书

题图 | Computer vector created by stories - www.freepik.com说起来,大学时代的图灵君也算得上是零挂科修完全部计算机课程的人才。怀着对前沿技术的满腔热忱,年(yī)纪(tu)轻(xi)…

《因果科学周刊》第7期:2021因果强化学习第一课

为了帮助大家更好地了解因果科学的最新科研进展和资讯,我们因果科学社区团队本周整理了第7期《因果科学周刊》,推送近期因果科学领域值得关注的论文和资讯信息。本期的主题是“因果强化学习”,它在众多通向通用人工智能的路径中备受关注&…

JDK安装与环境变量配置

安装JDK 选择安装目录 安装过程中会出现两次 安装提示 。第一次是安装 jdk ,第二次是安装 jre 。建议两个都安装在同一个java文件夹中的不同文件夹中。(不能都安装在java文件夹的根目录下,jdk和jre安装在同一文件夹会出错) 如下图…

搞定了数学,拿下了代码,没想到在这件事上栽了跟头……

“我好像要失业了。”如果有一天,你的学霸老同学给你发了这样一条信息,你会怎么想?我就碰到了这样的事。当年我们系所向披靡的刚哥,毕业季能拿着一叠offer打扑克的牛人,他竟然告诉我他要失业了。#1被800字追杀的学霸“…

哈佛大学研发水下机器人,Science Robotics发表 | AI日报

哈佛大学研发水下机器人,Science Robotics发表日前,来自哈佛大学的科学家们就从鱼群中汲取灵感,研发出了一批水下机器人,这种机器人可以像真正的鱼群一样同步运动,且不需要任何外部控制。同时,他们也首次利…

日程来了!2021年佛山敏捷之旅暨第1届佛山DevOps社区Meetup

2021年佛山敏捷之旅暨第1届佛山DevOps社区Meetup首次在佛山举行,大会以金融科技研发效能为主题,立足广东金融高新区,服务周边企业。大会地点在广东佛山市南海区新凯广场万枫酒店,时间为5月16日,拟定2个会场&#xff0c…

[解决方案记录]No module named fused(stylegan2的bug,已更新)

基本情况 https://github.com/rosinality/stylegan2-pytorch/issues/81 运行psp时出现的问题。其实就是stylegan2里面采用了c编译等功能带来的bug,非常烦人。 系统:windows 平台:pycharm jupyter notebook GPU:GTX1660Ti 解决…

5月书讯 | 哺育小平邦彦、伊藤清等一代数学家的“数学圣经”终于来啦!

“2020已经过去了三分之二,不知何年何月才能与此书见面。”“编辑老师,不知道还有多久面世?”“2021年了,终于预售了...”......经过编辑老师几百个日夜的努力,作为图灵经典数学系列的其中一员,这本书与其他…

「数据+知识」并非万能!NLP未来是多模态,人大长聘副教授宋睿华提「理解」新观点...

理解,就是看到小情侣吵架,能够想象到幸福的画面智源导读:计算机科学家,往往会用已知的方法来解决未知的问题。举例来说,对于如何增强机器对自然语言的理解能力,目前国内比较主流的观点是——“数据知识”&a…

读书笔记|如何让用户为你的产品尖叫

文/PM十二 编辑/李老太、小太阳 Hi各位小伙伴,最近新认识的一位从事编辑的小伙伴推荐了《用户思维:好产品让用户为自己尖叫》,趁着周末把它读完了,因此今天要分享的是一篇读书笔记。正式阅读之前初读题目的时候非常好奇&#xff…

《Python面向对象编程指南》——1.2 基类中的__init__()方法

本节书摘来自异步社区《Python面向对象编程指南》一书中的第1章,第1.2节,作者[美]Steven F. Lott, 张心韬 兰亮 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 基类中的__init__()方法 对…

统计学权威盘点过去50年最重要的统计学思想,因果推理、bootstrap等上榜,Judea Pearl点赞...

作者 | 陈彩娴、Mr Bear编辑 | 青暮本文转自AI科技评论近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”(过去50年中最重要的统计思想是什么&…

不扶好眼镜,请别打开这本挑战JS语言特性的书

"人们不停地给老化的语言“整容”,拼命地往其中注入各种新的特性来稳住其流行地位,或者至少让其看起来不那么“土”。与“代码膨胀”一样,“特性膨胀”过犹不及。我们更应该去发现JavaScript的内在美,而不是做各种表面功夫。…

python怎么变成动图_python简单的图片切换形成动画效果程序

简单事情复杂化了,这个程序实现这个效果还能再度精简很多代码,把类去掉吧,你能自行完成吗? import turtle class Window: def __init__(self,width,height,bgimages,title"",alt_delay120,bgcolor"white"):…

用一篇文章说清楚如何写作

专门讲写作的书就有一大堆,这事能用一篇文章说清楚吗?答案是能的,不信你往下看。写之前要先弄清楚文章属于什么类型,类型不同写法当然不一样。以沟通为目的的文章最好写,虚构类文章不好写,因为你还要先虚构…

人脸和宇宙是啥关系?看物理学家怎样用重整化群流模型重新理解视觉

导语深度学习技术,尤其是生成模型在图像问题处理上大放异彩。 而生成模型之所以展现出强大的多层信号处理能力,与物理学中的重整化群理论密切相关。研究者结合重整化群方法和流模型,开发出可以发现自然作用力的AI“物理学家”,以及…

《新一代SDN——VMware NSX 网络原理与实践》——导读

**前言**当企业需要搭建一个“云”的时候,无论它是公有云还是私有云,其基础架构一定涉及网络、计算和存储这三大块。NIST对云计算的定义中,明确提出了云中资源需要实现“按需自助服务”。对于计算和存储,我们通过最早由VMware主导…

从0到1,网上搜不到的企业信息安全搭建全过程,这本书讲透了!

信息安全形势日益严峻、监管环境稳步趋严,越来越多的企业增加了信息安全相关岗位的招聘。而且纵观各类职位,在薪酬范围相似的情况下,与信息安全相关的岗位整体上对工作经验和教育水平的要求会相对宽泛。安全类 …

深度学习三大谜团:集成、知识蒸馏和自蒸馏

编译:梦佳校对:周寅张皓集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更…

公众科学日|科普图书展,图灵参展啦!

5月22日 中科院物理所公众科学日 科普图书展盛装亮相 火热来袭"中国科学院公众科学日"是中国科学院举办的大型公益性科普活动,自2004年起,每年5月,中国科学院各个科研院所都如约面向社会公众开放。2021年5月22日(本…