互联网行业一个典型的数据科学部门什么样?
大多数公司将他们的数据科学部门分为3组:
l 数据科学家:搞统计的里面编程好的,搞编程的里面统计好的。也称为“动脑的”。
l 数据工程师:搭建“管道”,为数据科学家输送数据,从数据科学家那里获得想法,然后执行出来。也称为“干活的”。
l 基础设施工程师:维护公司的Hadoop集群或者是别的大数据基础设施。也称为“管道工”。
这个循环里的所有人都知道当前的工作状态其实不怎么样,现阶段的大规模招聘的工作内容也很可能一般。
让每个人都能做好的自己
让我们暂时忘掉传统的角色,想想什么样的动机能让人们在每天清晨兴奋地来上班。
无论是什么角色,凡人和伟人间一个重要区别是他们对于创造的渴求和创新的能力。
我们还要认识到,让数据科学家和工程师慷慨激昂的工作类型是非常不同的。
数据科学家:数据科学家喜欢解决那些与业务纵向连接的问题,那些通过他们的努力能够对组织或项目的成功产生重大影响的问题。他们致力于优化某些事情或进程或从头开始创造一些东西。这些都是点导向问题,他们的解决方案也是点导向的。他们通常涉及到业务逻辑的重新组合,重新思考问题该如何解决,和如何创新。因此,他们需要深入了解业务的具体部分是如何操作的,并且与垂直业务部门保持高度合作关系。
数据工程师:工程师擅长于做抽象和概括的工作,并在被需要的地方找到有效的解决方案。这些问题通常是横向质的。当可以广泛应用的时候,它们是有影响力的。他们需要很好的、全面的了解业务是如何运作的,但是解决方案的抽象质意味着他们不需要对业务逻辑有太深的了解,也不需要与业务部门深度合作,或是深入理解业务的纵向市场。
记住,工程师们是在创造乐高积木,数据科学家团队是在组装他们。如果数据科学家团队不需要纠正积木而只是组装,他们就会一直努力直至创造出解决方案。他们会通过组装错误的积木(把方块放到一个圆洞里),或者创造他们自己的积木来解决问题。一般他们会陷入混乱(Big Mess)。原因是一旦被创造出来就很难被撤销。