数据科学、机器学习、大数据分析、认知计算…我们都已被讨论这些主题的文章、技能需求信息图以及各种观点所淹没。有一件事是肯定的:你不可能一夜之间变成一名数据科学家。这注定是一段充满挑战的旅程。但要想成为数据科学家,该怎么开头呢?从哪里着手呢?何时才能看到隧道尽头的亮光呢?学习的路线图是怎样的?我需要掌握哪些工具和技巧?你该如何知道目标实现了没有?
数据可视化对于数据科学非常重要,讽刺的是,对于如何成为数据科学家我却找不到(只找到几个)实用的现成的图示。因此,笔者在本文中尝试建立一个课程体系,一个学习计划供踏上这条旅程的人们使用。受到地铁图的启发,我用这种形式来描绘学习路径。我将整个学习计划按步骤分为一下几个领域
- 基础知识
- 统计学
- 编程
- 机器学习
- 文字挖掘/自然语言处理
- 数据可视化
- 大数据
- 数据获取
- 数据清理
- 工具集
每个领域用一条“地铁线”表示,而每一个站点表示你必须一步步学会/掌握/理解的各个主题。你选定一条线,上了车,走遍所有的站点(主题),你就会到达终点或是换乘其它线路。我将每个站点(线路)都标上了编号,它表示了你旅行的顺序。你可以将它作为个人学习计划来确定你最想要发展、获得技能的领域。无论如何这都不是终点,这是一个坚实的起点。请畅所欲言并留下建设性的意见。
另:我无意在此计划中引入任何商业工具。此计划大部分内容都基于开源的工具/库。如果你已经获取了商业软件,如IBM的SPSS或SAS的Enterprise Miner,务必坚持下去,此计划依然适用。
另:起初,我是想用D3.js或InfoVis来生成一个互动式可视化图表,但为了早日完工没有实现,也许下次迭代我将完成互动式路线图。
(点击查看大图)