近年来,企业意识到数据科学具有的潜力。他们都在为数据相关的解决方案进行重大投资。因此,数据科学生态系统经历了巨大的增长。
这样一个受欢迎的领域吸引了人们作为职业选择。许多来自不同行业的人转行从事数据科学领域的工作。
然而,这并不是一个平稳而容易的过渡。数据科学是一个非常广泛的领域。这需要大量的学习和使用许多软件工具。
我是众多决定转行成为数据科学家的人之一。我花了近两年的时间才找到第一份工作。我写了很多文章来分享我这两年的一些细节。
在这篇文章中,我将写3件我认为有抱负的数据科学家应该避免的事情。他们有可能破坏你的动力或减慢你的速度。
不要期望在Kaggle上获取成绩
Kaggle是一个很好的学习平台。你可以在那里找到非常有价值的内容。人们共享的代码是很棒的学习材料,还有非常好的数据集用于练习。
然而,我认为这种竞争并不适合刚进入这个领域的人。我说的是有奖品的比赛。还有一些playground上的练习和学习也很好。
有奖励的是非常难的。虽然在参加Kaggle的竞赛可以学到很多东西。但是作为初学者,参加这种比赛很可能取得不了名词,并且它可能会破坏你的学习欲望,让你失去信心。
在Kaggle上这些团队可能会花很长时间来提高精确度。但在你的数据科学职业生涯之初,你应该花时间学习更基本的概念。
即使你在这些竞赛中投入了大量时间,你也可能无法接近排行榜。这是绝对正常的。
将Kaggle视为一个很棒的学习平台,而不是一个测试你的知识或技能的地方。
不要陷入Python-R困境
在数据科学生态系统中有大量的软件工具和软件包。这些工具帮助我们在大多数情况下无缝且高效地完成任务。
这些工具的好处并不需要公开的讨论。但是,如果使用不当,它们可能会变成一种不利因素。
一般情况下,我们都会使用多个工具来执行一项任务。丰富的工具选择经常导致涉及某种比较的讨论。
从任何一个开始!在你的职业生涯开始的时候,问自己该选择哪一个是浪费时间。大部分的工具都足以让你学会基本知识。
这并不局限于Python-R比较。例如,Matplotlib、Seaborn和Altair是三个不同的Python数据可视化库。作为一个初学者我很确定他们中的任何一个都会满足你的需求。
可以使用R和Python库进行数据分析和操作。你选择哪一个并不重要,至少在你学习的时候。一旦你入门了,你就可以根据自己的喜好做出更好的决定。
神经网络听起来很酷,但是…
深度学习是机器学习的一个分支。它用于用神经网络解决机器学习问题。基本的原则不变,例如创建一个模型,训练它,并基于损失的函数对它进行评估。这是一个迭代过程,因此可以调整模型以提高其性能。
深度学习算法比传统机器学习算法更复杂。他们可能在某些特定任务中表现得更好。例如,卷积神经网络可能是图像分类任务的最佳选择。
然而,在广泛的数据科学领域中,许多问题并不需要使用深度学习模型。在大多数情况下,机器学习算法已经足够了。
神经网络听起来很酷,但在学习之初,不要花太多时间试图学习它们。如果你需要,随时都可以学习它们。
数据科学是一个非常广泛的领域,有很多不同的应用。根据你的工作,你可能永远都不需要使用神经网络。此外,如果一个问题是用一个更简单的模型解决的,没有人会强迫你使用深度学习模型。
你应该把更多的精力放在学习与机器学习算法相关的统计概念上。提高你的统计知识肯定会对你有很大帮助。
总结
成为一名数据科学家可能需要更多努力工作,但是一旦你进入了这个领域,剩下的部分就相对顺利了。
找到第一份工作之前的学习历程已经是一个艰难的过程。除此之外,我在本文中提到的三件事可能会进一步减慢您的速度。我觉得避开他们对你最有利。
感谢您的阅读。