数据科学与大数据技术就业前景?

高三刚毕业,快要选专业了,想了解下数据科学与大数据技术就业前景,以及学习的改难度
关注者
372
被浏览
763,613

63 个回答

统计与大数据专业究竟在学什么?

统计学 是一门关于数据分析的学科,用于测量,收集,整理,归纳和分析数据的真实情况和估算情况。统计学从 17 世纪的中期逐渐发展起来,不仅存在于概率与数理统计领域,还广泛应用在各种自然学科,社会科学和人文科学上,也会被用于各种团队,企业和国家的决策。随着大数据时代的到来,统计学也与计算机,信息学等领域紧密结合,是数学科学的有力工具之一。

正态分布

描述统计学(descriptive statistics) 又称为叙述统计,是统计学中用于描述和总结所观察到对象的基本统计信息的一门学科。描述统计的结果是对当前已知的数据进行更精确的描述和刻画,分析已知数据的集中性和离散型。描述统计学通过一些数理统计方法来反映数据的特点,并通过图表形式对所收集的数据进行必要的可视化,进一步综合概括和分析得出数据的客观规律。与之相对应的是 推断统计学(statistical inference) ,又称为推断统计,是统计学中研究如何用样本数据来推断总体特征的一门学科。推断统计学是在对样本数据描述的基础上,对总体的未知数据做出以概率形式来描述的推断。推断统计的结果通常是为了得到下一步的行动策略。以上的两个统计学方向都属于应用统计学。

总体和样本

在有的学校,统计专业是放在数学系里面的,而有的学校则是把统计和数学分开,形成数学系(Department of Mathematics)和统计系(Department of Statistics)。无论分开还是合并,一般情况下都是放在理学院(Faculty of Science)的。

NUS 统计与应用概率系

统计系和数学系的低年级课程是十分接近的,基本上还是数学分析,线性代数,概率论等一系列的课程。

Level 1000 和 Level 2000

到了高年级之后,所学的课程与数学系的课程就会出现明显的区别。数学系的学生会学习实分析,复分析,泛函分析等一系列课程。而统计系的学生会学习回归分析,随机过程,数据分析,贝叶斯分析等诸多课程。统计系的学生更偏向应用一些,数学系的学生课程则会更加理论一些。

Level 3000 和 Level 4000

从 NUS 在 2020 的 E-Open House 的资料可以看出,统计专业的学生,其就业方向也是十分宽泛的,可以考虑去银行,金融机构就职;也可以考虑去咨询公司,也可以去政府或者教育机构找到合适自己的工作。

统计专业的行业需求

对于第四年的学生,如果在国内的话,一般情况下会选择保研,考研,找工作,甚至出国留学。有的学生也会选择去找一个长达半年到一年的实习。

最后一年的项目

相对于数学系,统计系的课程安排更加偏向于实战与应用,并且其实用性也会高于数学系的理论课程。如果未来要从事数据分析,商业分析等方向的话,其实攻读统计系是一个还不错的选择。

在新加坡国立大学的统计与应用概率系,除了统计系这一经典的专业之外,还提供了 数据科学(Data Science and Analytics) 这一个新兴专业供学生选择。

众所周知,随着科技时代的到来,数据的增加是非常迅速的,无论是用户自身产生的数据,还是平台方产生的数据,都是十分巨大的。数据的增大那就意味着需要使用各种各样的大数据,统计,数学方面的技术来解决现有的疑难杂症,于是大数据时代的技术也逐渐映入大家的眼帘。

数据趋势

无论是国内还是国外,都在提倡智慧城市这一概念,那么在智慧城市中,大数据技术就是一个绕不开的话题。各行各业都将会使用大数据系统来做各种服务,包括推荐系统(Recommender Systems),高频交易,风险管理,移动支付等等。通过这些技术,人们的生活质量将会大大提升。通过这些产品,科技将会给人们带来诸多便利。

智慧城市

而数据科学是一门交叉学科,它需要使用到 计算机科学(Computer Science) 数学(Mathematics) 统计学(Statistics) 等多种学科的技术和知识点。如果要应用在金融领域,还会要求从业者掌握金融方面的知识。因此,数据科学在这个时代背景下是具有实用性的,也是很多行业的发展趋势。

数据科学

从其课程设置也可以看出,学生们所学的课程包括编程,数据结构与算法,也包括微积分和线性代数,还有统计学等诸多基础课。在高年级的时候,将会学习人工智能,计算与优化,数据库,数据处理,机器学习等课程。除此之外,在具体做项目或者实习的时候,将会根据方向的需要来学习相关的业务知识,涵盖了金融,医药,调度优化等诸多领域。

课程设置

整体来看,统计与数据科学专业是以实用性为目的,培养学生的理科思维,动手能力和数据分析能力的一门学科。如果学生希望学习理科并且将来学以致用的话,其实选择统计或者数据科学是一个不错的选择。

参考资料:

  1. NUS E-Open House:2020,YouTube 视频;
  2. stat.nus.edu.sg :NUS 统计系官网。

大数据的就业前景很广阔。就先拿大数据里比较火的数据分析举例吧。

数据分析的两个主要就业方向,一个是统计学方向,一个是运筹学方向,我们分别来看看这两者具体有哪些相应的岗位

首先是统计学方向。

这个方向的职位其实一直都有,只是说现在用的一些方法,技术手段得到了一定的提升。原来公司只有一些有限的经营数据或市场数据,基本上用 excel 就能解决了,现在我们有了很大的数据量,也有了更多的高级的分析软件,比如 SAS、R 等等。用这些软件,我们可以在大量的数据中,挖掘出一些核心的数据信息,来找出商业活动的驱动力。

从就业方向来说,最典型的是以互联网公司为代表的信息化程度比较高的企业。这些公司在日常业务中会产生大量的数据,数据分析人员必须从繁杂的数据中挖掘出有效信息,来给运营和决策提供支持。

典型的公司有 BATJ,其中一些相关的团队包括产品的运营团队、广告效果分析团队、游戏的用户数据处理团队等等。其他还有一些互联网公司,比如美团、携程、饿了么等等。

在这些互联网公司里面,数据分析工作主要分两个方向:

一个是做运营分析,就是前面讲的这类工作内容。

另一个就是产品开发的分析,比如把相关的数据抽象出来建模,做一些用于判断的模型,比如回归模型等,以 API 的形式,给到客户。客户只要把相关的数据导进去,就能通过这个模型作出一个判断。

比较典型的例子就是反诈骗的一些产品,背后是好人的行为数据,以及一些坏人的行为数据,做出一个「0」「1」的好坏判断模型。当你把一个不知道结果的数据,通过 API 接口输入进这个模型后,就会得出结论这个是好人还是坏人,从而对业务作出指导。

除了互联网公司以外,咨询公司也非常注重数据这块的工作。

比如麦肯锡,相关的数据分析已经成为公司的重要驱动力之一。

另外,四大咨询公司、一些 IT 咨询公司,比如埃森哲、印度的 Infosys 等,以及一些本土的咨询公司,比如久谦,还有老牌的基于数据分、市场分析的公司,比如尼尔森,也有相应的数据分析岗位。

那数据分析主要用于咨询公司的哪些业务呢?对于咨询公司来讲,通常业务分两大块,就是战略咨询和管理咨询。

战略咨询一般用到数据分析的情况比较少,因为战略咨询常常涉及到一个较长期的企业业务的未来规划,从有限的历史数据中很难判断出比较长远的未来走向。一般历史数据比较多用于当前或较短时间的未来预测。因此,在咨询公司中,数据分析主要运用在管理咨询业务中,作为决策的支持。比如说,我们经常做到的 CRM 这一类系统中,在我们拿到很多客户的数据后,会做一个用户画像,做完用户画像之后,我们知道了这个客户有什么特点,我们可以基于概率或者回归做一个推荐系统,把相关的广告或者产品推送给客户。

另外,我们还可以做一些行业的分析。比如说,我们在第三方网站上面拿到了一些基于地理位置的数据,例如在一个区域有多少餐馆,而客户是做零售饮料的,我们可以把这些餐馆的分布放到地图上,然后把客户的销售数据也放上去,我们就可以看出这些饮料在哪些地方卖得比较好,哪些地方卖得不好。如果卖得不好的地方,它本身又有跟卖得好的地方一样的潜力的话,我们就可以据此提出相应的一些提升建议。

还有一类常用到数据分析的公司呢,就是金融企业,尤其是现状互联网的银行、保险公司等为主,主要偏向于相关的零售业务和风控业务。比如像国有的四大行,以及其他的商业银行,比如招商银行,零售和风控这些数据分析驱动的业务已经非常成熟了。

比如当你打开招商银行的 APP 时,会发现根据你的使用行为和情况,它会做一些相关的推荐。另外一个比较典型的例子是在蚂蚁金服上面,你会发现你有一个芝麻分,这个芝麻分也是通过数据分析、建模打出来的,那根据不同的信用分,你会得到一些不同的待遇。

另外,在保险公司数据分析是怎样应用的呢?保险公司也会给客户做用户画像,这些画像都会有一个对应的组,不同组里的人,保费也是不同的。比如在车险中,某类人的车是红色的,而且长期跑长途,那么他们面临的风险是什么情况,根据这样的情况,保险公司会给这些人设定一个特定的保险费。总结来说,在保险公司中,用到数据分析比较多的就是做一个一般业务运营的分析,以及风控的方案。如果保险公司的方案做得非常成熟的话,有可能会对外输出成为一个产品。

第四类会用到数据分析的就是软件公司。软件公司一般通过将这些模型标准化、产品化,做好交互之后,将一个完整的产品卖给客户。客户拿到这类产品后,只要将自己的数据导进去,进行一定的操作,就能得到一些有价值的结论。

最后一类公司是传统企业。这些传统企业可能之前的信息化程度较低,比如制造型企业,制造业之前的一些销售数据,可能没有做到一个很好的累积,借着整个商业社会信息化的趋势,这些企业发现在这些数据中有许多发现 insights 的机会,所以逐渐开始重视。之前我在美国的 AMD 公司实习过,公司内部有一个很庞大的数据库,记载了公司许多年的销售数据,我们就会拿这些销售数据,做时间序列分析,发现它在某一个时间区间内的趋势,并拿这个趋势来用于未来销售情况的一个预测。对于这个公司的指导意义,在于知道在某一个时间段它的订单量会上升,会上升到哪个程度,那么就可以让它的生产部门提前做好生产准备,来应对销售的高峰。

另外一个数据分析的就业方向是运筹学的方向。

运筹学方向的工作呢,主要是解决一些优化的问题,可能学过相关知识的同学会比较清楚。除了我们最简单的线性规划以外,也衍生了很多其他的优化方案,比如动态优化、随机优化、排队等等。就是说你在有限的约束条件下,能够得到一个最优或者局部最优的解。

这些方案在实际应用中也非常广泛。比如我们生活中用到的嘀嘀打车里面的路线规划的这类问题。这是个动态优化的问题,比如你拼车有多少个乘客,怎么给司机安排最优线路,保证能捞上所有乘客的同时,整个运行的路线最短最快捷。那在运筹学的方向,主要的就业公司还是咨询公司。对于咨询公司来讲,它会给客户提供优化方案。比如在制造企业里面,怎么去提升你的生产线的效率,这是一个排产的问题。你要先生产什么,再生产什么,能达到你总的用工时间较短,或者说中间产生比较少的堆积情况。这也是比较偏重运营分析,给运营工作提供一些决策支持相关的工作。

另外就是专门的作一些优化软件解决方案的软件公司,较典型的比如说 Aspen Tech,它的产品在石油行业里面也是优化排产比较有名的一个软件,全球 70% 以上的石油公司或者说炼油企业,都会用这个软件给自己的生产线做排产。因为石油企业的产品种类、原料种类都比较多,流程环节也比较复杂,这个软件解决了怎样排产能够在完成这个月生产计划的情况下,成本最低,利润最高的问题。

另外一个典型的公司是 LLamasoft,这个公司是专门做供应链优化的。在里面从事的主要是模型开发、产品开发这类工作。如果你能胜任的这类工作的话,也可以去这种公司做一下数据类工作,如果你将来想转行去做销售或者市场的工作的话,这边的工作背景会给你提供很大的支持。因为这家公司比较偏向于技术产品销售,如果你对产品的原理和优势不清楚的话,很难把你的产品很好地卖出去,因为买方会找一些相关的技术人员与你做对接,这些技术人员对这类知识了解得是比较清楚的。