主页 > 知识产权 >
为什么说数学知识是数据科学家的先决条件?
来源:未知 2019-02-14 15:13

  的火热让数据科学家成为近几年热门职业之一。但对于试图从事这一职业的新人来说,数学可能最大的拦路虎之一。不过本文作者认为,当数据科学家并不一定需要坚实的数学基础,并给出了9类无需数学基础的数据科学任务。

  在当今世界上,数据科学和机器学习已成为最令人向往的职业方向之一,从大学生到职业生涯中期的专业人士,很多人都希望进入数据科学领域。但是,在追求数据科学或机器学习领域时想到的第一个先决条件是,要具备深入研究复杂数学问题的能力,才能走进数据科学的大门。

  与大学其他专业相比,数据科学更多地是关于如何快速准确地学习。通过严格的数算,快速准确地掌握技术,并且通常可以比大多数人更容易地学习。

  数据科学家基本上都是统计学家,大多数人拥有研究生水平的数学和统计学知识。这是从事实际项目所必需的知识,对于正确使用算法和假设检验至关重要。

  掌握逻辑回归、决策树、置信区间等标准数学工具也很重要。大多数企业都会使用这些标准工具。因此,招聘人员也倾向于寻找具备扎实数学背景的求职者,这主要是出于历史原因。

  一位优秀的数据科学家或工程师必须具备丰富的数据库知识和工程实践知识。包括处理和记录错误、监控系统,构建人为错误容错渠道,了解扩展项目所需的条件、处理持续整合问题、掌握数据库管理知识,维护数据清理以及确保确定性处理流程等。

  实际上,在机器学习的所有方面的技术中,数据科学背后的统计引擎并不涉及高中以后的任何数学或统计理论。

  不过,由硬核数学导向的数据科学家开发的一些技术并不使用数学或统计学,这些技术同样有效,其中一些技术已经被证明不输于使用数学的同类技术,而且性能通常更加强大。此外,这些技术更易于理解,并且可解释性更强。

  从入门级数据科学家到中级数据科学家,一般花在数学上的时间不到5%,机器学习也是如此,尤其是建立模型时,很少有时间做任何数学上的工作。对于机器学习,需要学习的真正的必要技能是数据分析,以便建立能够进行准确预测的模型。初学者其实不需过多掌握微积分和线性代数。

  只有参与学术上的机器学习研究或者少数先进的数据科学家团队时,数学的作用才显得特别重要。高水平的业内人士也经常使用高等数学。一些人正在拓展机器学习研究人员的研究边界。

  像谷歌和Facebook这样的公司中,人们只会在工作中经常使用微积分、线性代数和更高级的数学工具。

  最重要的是,在产业界中,数据科学家只是没有将太多时间花在数学上,但花了大量时间来获取数据、清理数据、探索数据。实际上,80%的人所做的是数据整理和数据的可视化。

  1、使用基本的Excel进行高级机器学习:此方法是一种轻量级的技术实现,包括非常简单易懂的基本Excel实现。目前可用于Python、Perl,Julia和R。未来预计还将支持SQL实现。

  2、使用HDT进行自动化的机器学习:此方法融合了名为“决策树”和“回归”的两种传统技术。但是这种实现不涉及任何节点分割或任何传统的回归模型,回归部分是与数学无关的Jack-knife回归。早期版本使用逻辑回归,但由于数据转换过程比较简单,使用的参数较少,导致逻辑回归被Jack-knife回归所取代。

  3、无模型置信区间:需要对随机变量和概率分布有基本的了解才能知道置信区间的概念。这类置信区间方法基于百分位数,非常易于理解,无需数学知识且可靠性高,可用于预测分析。

  4、假设检验:这是学生在统计课程中的难题之一。这里已被置信区间的简单变体所取代,便于直观理解。

  5、使用Excel的Jack-knife回归:这些回归技术非常简单高效,可以在Excel或SQL中轻松实现。

  6、Jack-knife回归:理论 – 无须统计理论的回归,甚至不涉及线性代数。不过带有置信区间。在该方法中,即使使用少量元参数,与经典回归相比,也能实现最低限度的精度损失。该方法在存在异常值、高度相关的特征或其他违反假设的情况下性能良好,这些假设条件在使用传统回归时必须通过一个数据集满足。

  其实,这里的关键点是,对于初出茅庐的数据科学家和机器学习从业者来说,数据专业知识的重要性要优于数学专业知识,因此,如果你的目标是获得一份工作,进入数据科学领域,那么最重要的任务是必须掌握数据分析,而不是掌握微积分。数据科学家要做的不是做证明题或研究数学问题,能够分析数据才是最重要的。

  初学者需要尽快掌握如何收集数据、探索和准备数据。全面掌握数据可视化和数据处理(包括聚合)是关键环节,这样才可以同时使用它们来执行探索性数据分析任务。

  尽管这些无需数学知识的工具和方法,确实凸显了在不具备坚实数学基础的情况下从事数据科学的可能性,但并一定能够满足行业的期望,因为能否获得数据科学家的职位,完全取决于你从事的工作内容,以及你心仪的公司究竟从事什么业务。

  在不具备数学背景知识的情况下,确实有可能成为一名数据科学家。但按以往经验来看,如果没有一定程度的数学素养,从长期而言,很难成为一个高效的数据科学家,而高效这一点无疑是更为重要的。

  软件与硬件的通信是通过指令集架构(ISA)进行的。在 1960 年代早期,IBM 有四个互不兼容的计....

  意法半导体在其先进的惯性传感器内集成机器学习技术,提高手机和可穿戴设备的运动跟踪性能和电池续航能力。

  ‍‍‍‍在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特....

  Fleming说,提供认证将“有助于使我们的组织成为一个有吸引力的工作场所,因为它将为我们的员工提供....

  机器学习性能评价标准是模型优化的前提,在设计机器学习算法过程中,不同的问题需要用到不同的评价标准,本....

  研究人员基于欧洲哥白尼地球观测计划的高精度卫星图像来对地表的林木覆盖进行监测。研究人员们使用了云服务....

  LSM6DSOXiNEMO™传感器内部集成一个机器学习内核,可根据已知运动模式对运动数据进行分类处理....

  GAN 可以将任意的分布作为输入,这里的 Z 就是输入,在实验中我们多取Z∼N(0,1),也多取 [....

  Theano的特性包括与NumPy的集成、符号微分(symbolic differentiation....

  腾讯的资金将让Reddit有时间大踏步前进。腾讯拥有“微信”,也是全球最大的游戏公司,旗下拥有《英雄....

  自2007年以来,Figure Eight公司一直在运营全球最大的数字平台之一,该平台允许个人注册执....

  Andrew Trask说的,是谷歌日前在arxiv贴出的论文,“Towards Federated....

  劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laborator....

  何谓“机器学习”,学界尚未有统一的定义。本文摘取Tom Mitchell、Christopher M....

  刚开始做的东西还比较搞笑,比如给人脸上贴胡子。但是在几天之内,他就做出了有实际应用价值的项目,并创建....

  随着企业寻求自动化模式检测、预测和决策,以推动转型效率提高、竞争差异化和增长,企业机器学习的采用将会....

  大数据应用-实时流:处理大数据的挑战除了要具备处理数据的计算能力,还要具备尽可能快的处理速度。像推荐....

  根据大众汽车与供应商西门子联手德国沃尔夫斯堡市推出的智能交叉试点项目,未来,10个交通信号的光相位可....

  目前,印度最大的两家电子商务公司——亚马逊和沃尔玛旗下的Flipkart,都是美国企业。而中国App....

  尽量避免使用有过多变量和潜在结果的任务。在项目中,先把注意力集中在流程的一小部分,而不是整个流程。即....

  深度学习日益流行,它是一种强大的机器学习技术,可以学习到数据的多层特征并生成预测结果。随着深度学习在....

  基于子串的直接标注模型事实上过强地应用了已知词信息,因为所有子串都属于已知词,并且在模型一开始就不能....

  百度这次被AAAI收录的论文《Modeling Coherence for Discourse Ne....

  本课程探讨了智力问题,它的本质,它是如何由大脑产生的,以及它如何在机器中复制等问题。使用一种集成了研....

  在职位发布信息与AI或机器学习的相关性方面,机器学习工程师的招聘职位信息中有94.2%提到了“机器学....

  PaddlePaddle:百度出品,跟 TF 类似,PaddlePaddle 也是在百度内部实际应用....

  无独有偶,软件巨头(包括谷歌和IBM)、医疗设备制造商(包括飞利浦和徕卡生物系统公司)和众多初创公司....

  量子计算机虽然强大,但应用领域有限。清华叉院孙麓岩团队在超导电路上实现了量子生成对抗网络,精度高达9....

  流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空....

  在 24 号 GitHub 发布的官方报告 The State of the Octoverse: ....

  围绕人工智能和自动化的争论似乎一直都是悲观主义者占主导,他们担心机器人会取代所有的工作,而乐观主义者....

  人工智能和机器学习并不能解决所有IT世界的安全问题,尽管一些宣传和炒作可能会暗示这一点。但是,谨慎使....

  苹果公司裁员实属罕见,所以近日传出它对自动驾驶部门裁员200人的消息令业界感到意外。苹果证实了裁员调....

  “机器学习本身很复杂, 且在具体的数据分析实践中涉及大量复杂的数学知识。而本书尽量避开编程与机器学习....

  在今年 NSDI 接受的 49 篇文章中,亦仅有 Monoxide 一篇论文是区块链相关。王嘉平认为....

  人工智能(AI)如今已成为企业CIO和其他高管关注的热门技术主题。咨询机构德勤咨询公司的调查表明,除....

  接下来的过程就与普通的生成对抗网络 (GAN) 一样,生成器G不断生成虚拟数据ρ,然后鉴别器D则不断....

  解决一个复杂的问题,首先第一步是要把问题分解成几个简单子任务。然后,针对每个子任务,运用机器学习中不....

  Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个....

  机器学习(machine learning) 已然成为无数重要应用的基石——如今,在网络搜索、垃圾邮....

  我在NVIDIA研究深度学习已达四年之久,作为一名解决方案架构师,专门研究深度学习相关技术,为客户提....

  Scipy是一个用于科学计算的软件包,Pandas是一个用于管理数据集的软件包,matplotlib....

  接下来的过程就与普通的生成对抗网络 (GAN) 一样,生成器G不断生成虚拟数据ρ,然后鉴别器D则不断....

  人工智能(AI)正在改变我们对待世界的方式。 AI“机器人”无处不在。从我们的手机到亚马逊的Alex....

  1、例程包含了BP神经网络、SVM和其他一些算法的例子 2、有助于学习人工智能与labview的结合应用 3、使用例子需要安装ML...

  大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从...

  ML之预测:采用机器学习预测小组赛、十六比赛、四决赛、半决赛、决赛以及世界杯总冠军的各个队伍

  ML之预测:玩转2018世界杯—采用机器学习预测小组赛、十六比赛、四决赛、半决赛、决赛以及世界杯总冠军的各个队伍...

  本教程以实际应用、工程开发为目的,着重介绍模型训练过程中遇到的实际问题和方法。在机器学习模型开发中,主要涉及三大部分,分...

  在进行误差分析时,你可能会注意到一些开发集的样本被误标注(mislabeled )了。此处的“误标注”指的是图像在使用算法处理前,已...

  对于改进猫检测器,你的团队有一些想法 • 修正算法将狗误分类为猫的问题。 • 修正算法将大型猫科动物(比如狮子、黑豹等等,下...

  在使用猫咪 app 时,你注意到它将一些狗的图片误分类为猫了,因为有些狗的样子的确很像猫。 团队中有人建议,加入第三方软件来...

上一篇:《蒙汉对照知识产权与科技名词》手册发布

下一篇:运动是更有效的学习!UP GOING!让孩子的成长更有
热点
北京市建设工程造价管理
北京市建设工程造价管理
 千龙网北京3月28日讯3月28日,全国建筑行业首家省市级具有行业调解职能的专业调解机构北京市建设工程造价管理协会经济纠 
深圳市局(公司)举办基
深圳市局(公司)举办基
 为进一步提高党建工作质量,近日,深圳市烟草专卖局(公司)邀请深圳市直工委专家作题为《基层党建基础知识与有关实务 
余姚医疗事故请什么律师
余姚医疗事故请什么律师
 医疗事故是每个病人或者家属都不愿意发生的事,但是手术毕竟有一定的风险。如果出现医疗事故之后很容易医患很容易发生 
豪车司机叫人围殴保安 物
豪车司机叫人围殴保安 物
 原标题:豪车司机叫人围殴保安 物业:绝不私了将可能追究刑事责任,4月25日宾利女司机叫人围殴小区保安事件,顺义警方于 
知识产权翻译与技术分不
知识产权翻译与技术分不
 近十年来,知识产权出版社从最早的专利文献数据化加工到现如今的专利文献的翻译服务,都是根据社会需求和企事业单位对 
青岛破获涉黑涉恶刑事案
青岛破获涉黑涉恶刑事案
 本报1月20日讯扫黑除恶专项斗争开展以来,青岛市创新实施百千万强基护安行动,充分发动群众、依靠群众,着力发挥综合治理体 
劳动争议仲裁时效的“知
劳动争议仲裁时效的“知
 《中华人民共和国劳动争议调解仲裁法》第二十七条第一款规定:劳动争议申请仲裁的时效期间为一年。仲裁时效期间从当事 
法院半年受理2000多件涉大
法院半年受理2000多件涉大
 当前,房地产开发商在房屋出售后再抵押、抵押后再出售、逾期交房、逾期办理房产证、逾期支付经营管理费等问题不同程度