分享
分销 收藏 举报 申诉 / 33
播放页_导航下方通栏广告

类型2018年数据科学家报告.pdf

  • 上传人:二***
  • 文档编号:4763243
  • 上传时间:2024-10-12
  • 格式:PDF
  • 页数:33
  • 大小:1.16MB
  • 下载积分:5 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    2018 数据 科学家 报告
    资源描述:
    Figure Eight数据科学家报告数据科学家报告20182018年数据科学家报告编译呆鸟 译简介Figure Eight 2018年数据科学家报告3简介简介 近年来,Figure Eight一直在追踪数据科学的发展,自2015年发布上一版数据科学报告以来(那时我们还叫CrowdFlower),数据科学社区里发生了很多变化。机器学习技术蓬勃发展,需要越来越多的数据支持。如今,互联网每天会产出100万亿字节以上的数据供数据科学与机器学习分析。因此,数据科学和机器学习也顺势成为领英上增长最快的工作岗位。2015年以来出现的另一大趋势是数据科学社区比以往更加注重伦理问题,数据隐私问题越来越引人注目。随着人工智用于医学诊断、法律量刑等领域的决策,需要更加谨慎地论证这些伦理问题。了解各领域从业者对前沿技术的想法十分重要。为此,我们调研了医护人员、神职人员及执法人员等500多位伦理专家。本报告后面的内容,还将专门对比伦理专家与数据科学家的观点。毋庸赘言,开始阅读本报告的调研结果吧。毋庸赘言,开始阅读本报告的调研结果吧。数据科学家喜欢并热爱这份工作Figure Eight 2018年数据科学家报告5工作满意度 相信很多人都听过一句话,“干自己喜欢的事,还能挣到钱,就算成功”。假设这话说的没错,还真的很难找出比数据科学家更成功的职业。几年来,我们一直在跟踪这个问题,并发现数据科学家非常热爱这一行,即便真正的数据科学家可能会质疑1%的增长不具备统计显著性。20152017201867%88%89%认为当数据科学家幸福或非常幸福的占比热爱数据科学?就别错过机会 这几年,数据与数据科学带来了很多热门话题,谷歌人工智能专家Peter Norvig曾提出著名的“数据非理性效果”理论,哈佛商业评论将数据科学称为“21世纪最性感的工作”,经济学家杂志甚至跳出来说“数据是新的石油”。相信大多数人还记得大数据一夜之间就红遍全球了。Figure Eight 2018年数据科学家报告79.41%一月一月一次一次19.31%一周一周 一次一次数据科学家市场需求数据科学家的市场需求收到工作机会的频率?数据科学家的市场需求收到工作机会的频率?收到工作机会的频率收到工作机会的频率29.70%一周一周 多次多次 11.39%一年一年多次多次 3.47%很少很少26.73%一月一月多次多次 我们曾咨询数据科学家一般多久能收到一次新工作推荐,下图所示的数据说明了不少问题。大约50%的数据科学家每周都会收到一次工作机会,30%的数据科学家每周至少会收到多次工作机会,85%的数据科学家至少每个月会收到一次工作机会。换句话说,精英数据科学家的市场需求很高。所以,如果你们公司有一名水平很高的数据科学家,一定要把他哄好,因为他还有很多选择。至少一周一次至少一周一次50%30%一周多次一周多次 虽然,数据科学如今炙手可热,但要记住以前可不是这样。毕竟,仅仅在10多年前,大部分公司根本就不会跟踪并保存用户交互数据,但是如今,还是这些公司,他们会把认真采集这些数据,并将之作为企业的核心财富小心翼翼的看护起来。随着服务器越来越廉价,以很低的成本存贮大量的数据和信息成为可能,绝大多数公司都意识到数据能为企业实现很多以前无法想象的目标。既然有这么多数据需要处理,而且为公司创造价值的意愿又如此强烈。这样一来,数据科学家有这么高的市场需求就不足为奇了。收到工作机会的频率收到工作机会的频率85%至少一月一次至少一月一次50%Figure Eight 2018年数据科学家报告9 数据专家非常清楚只有拥有大规模的高质量数据,才能构建精准的模型,并作出精明的决策。高质量数据越多,他们对所做的模型就越有信心。公司能为数据科学家做的事就是提供数据,而机器学习团队拥有数据的质量会为机器学习的结果带来极大的区别,这一点是重中之重。但是请记住,数据科学家需要的是高质量数据,通过几年的调研发现,其实,数据科学家也非常不喜欢清洗数据,他们认为干这些事情纯属是在浪费生命。阻碍阻碍什么拖了数据科学家的后腿,是数据,不是科学 偷偷告诉大家一个关于数据科学家的小秘密,他们都非常贪得无厌。这不是说他们的坏话,实际上,很多数据科学家逢年过节都会寄给我们非常不错的礼物。但是,一旦涉及到数据,不管他们已经掌握了多少数据,还永远都觉得不够。我们已经在数据科学社区里做了几年调研,这个问题依然是当前社区里最大的挑战。去年大约有50%的数据科学家会说,这是他们日常工作中最头疼的三件事之一,而到了今年这个数字已经增长到了55%,并被列为最头疼的事情。55%的数据科学家说训练数据集的质量是他们最头疼的事情。1%至 25%28%23%21%17%25%至 50%50%至 75%75%以上 机器学习使用的数据 以前,我们从未问过数据科学家到底拿数据来干什么?但是,随着公司平台不断壮大,我们已经能够解开一些机器学习的神秘面纱,越来越多的数据直接从我们公司的平台传递给各种人工智能和机器学习的项目。然后我们就想,是不是应该问一下这些数据科学家,他们所做的工作到底有多少比例用于人工智能?工作成果用于人工智能的比例10%无 Figure Eight 2018年数据科学家报告11用于机器学习的数据用于机器学习的数据 约有10%的数据科学家说他们的工作跟人工智能无关。不过,还有差不多40%的人说他们的工作和人工智能相关。考虑到当前投资界对人工智能的投入非常之大,我们特别期待看到明年这个数字会变成什么样。不过,我们相信一定会变得越来越高。数据科学家一般不需要干清洗日志这样的低级工作,基本上都是处理公司里最尖端的技术解决方案,难怪他们会觉得幸福。90%的数据用于机器学习研发时间占比30%5%12%24%29%多少时间研发?多少时间开发?无75%Figure Eight Data Scientist Report 201813工具与框架 2015年,我们重点关注数据科学家使用什么工具。虽然,当时Excel还是处理数据的主流工具,但那时已经出现了很多数据工具和处理办法供数据科学家选择。实际上,Partially Derivative公司在一集叫“怪怪的数据科学”播客节目里就提到过这个问题。他们的观点是数据科学是崭新的领域,没有哪种语言、工具或框架可以成为主流,即便现在也很难说哪种工具是最好的,数据科学家必须具备非凡的创造力,找出适于处理手头上数据科学项目的最佳工具和策略。现在机器学习与数据科学当时的情况差不多,也没有大家公认可行的策略,但是有很多方法供人选择,用于处理以前难以解决的问题。不过,现在数据科学社区里大部分人(约61%)都选择了Python。但是,下面列出的常用Python库大多数并不是机器学习框架。数据科学家使用哪些工具?流行的机器学习框架机器学习框架应用情况PandasNumpyScikit-learnMatplotlibTensorFlowKerasSeabornPytorch&TorchAWS Deep Learning AMIGoogle Cloud ML EngineTheanoMicrosoft Azure Machine Learning IBM Watson Machine LearningAmazon SageMakerCaffe/Caffe 2MxnetSalesforce EinsteinBokenCNTKGluonDeeplearning4jPaddleBigDLLicensingChainerDyNet0201030507090110130406080100120140150Figure Eight 2018年数据科学家报告15 开源软件占这些工具和框架的主流。Pandas和NumPy已经推出了很长时间,此外,与之类似的还有Scikit-Learn和Matplotlib,也是老牌的Python库。TensorFlow虽然是谷歌开发的,不过它也是开源软件。这里需要提醒的是,不能只根据数量进行判断,但另一方面,这些工具的用户确实很多,也说明了现在数据科学社区热捧开源和社区驱动的软件。由于这些框架已经存在了很长时间,早期使用者已经对它们非常熟悉,如果新产品想取代这些老牌开源软件,恐怕还需要投入更多的时间、努力,并大力开展市场推广,比如增加更多的营销费用。工具与框架工具与框架2018年数据科学家处理哪些数据?今年,媒体关注的重点是自动驾驶汽车或家庭助理等机器学习项目,但必须意识到绝大多数数据科学家处理的数据并非激光雷达和音频话语数据。我们采访了不少数据科学家,发现日常工作中他们还是以处理文本和时间序列数据为主。很少涉及感知器、音频和视频数据,相对而言,排名第四位的是静态图片。Figure Eight 2018年数据科学家报告17数据类型数据类型数据类型数据类型文本 180160140120100806040200时间序列产品或SKU 静态图像 感知器 音频视频非结构化数据29%处理结构化数据与非结构化数据的比例?VS.结构化数据71%Figure Eight 2018年数据科学家报告19数据伦理 近年来,人工智能应用的伦理问题被炒得热火朝天,仅我们就了解到大量关于人脸识别、招聘审核和声音助理等子领域的算法歧视案例。去年,最高法院曾有机会处理一桩关于算法量刑的案件(详见卢米斯诉威斯康星州一案),但最高法院没有受理此案,虽然如此,也可以推断10年内很有可能出现关于机器学习的判例。本文不关心远期的,诸如未来特工或普世智能等带有科幻色彩的,甚至有关意识边界的伦理问题,现实问题涉及的领域才是当今大众真正关心的内容,本文关注的是这类伦理问题。之前曾说过,本次调研采访了医护人员、神职人员及执法人员等各行业的伦理专家。在这一节里,我们会把他们的观点与数据科学家的观点进行对比。一般来说,数据科学家都看好人工智能的发展。两组专家都认为人工智能利大于弊,他们之间最大的差异在于伦理专家对人工智能可能会给社会带来的潜在挑战漠不关心。这一点倒也说的通,毕竟,大家都知道数据科学家肯定比法官对人工智能了解得更深刻。数据科学家就身处这个领域,为人工智能的发展投入了颇多精力,因此,要说数据科学家认为人工智能不会给社会带来翻天覆的变化,那是不可能的。数据科学伦理问题有利 有害 没有改变75%16%9%数据科学家人工智能Figure Eight 2018年数据科学家报告21伦理伦理有利有害没有改变 39%15%45%伦理专家人工智能还不承认算法歧视?上一节里,我们提到了一些非常知名的算法歧视案例。实际上,麻省科技评论最近就提出了“算法歧视已经遍地都是,但是大家对此都漠不关心”的观点。但是,当我们问及数据科学家与伦理专家是否认为人工智能比人类更容易产生歧视时,得到的答复是这样的:Figure Eight 2018年数据科学家报告23伦理伦理 其实,大家都知道对比技术是否比人类更容易产生歧视这个问题本身就非常滑稽,这基于你对人类本性的认识。归根结底,算法歧视源于人类程序员、数据及一些不可言的原因。但有趣的是,很多反馈都说算法没有那么多歧视,甚至根本就不存在歧视,然而不管怎么说,我们手里确实有大量现实中已经发生的算法歧视案例。我们真正要解决的问题是到底为什么会出现这样的结果?要知道大部分情况下,不是算法模型本身的问题,而是模型使用的数据有问题。算法模型的歧视是潜在、无意识的,但又是真实存在的,要解决这个问题需要花费大量的精力,还要对症下药,首先,标注数据时要认真负责,不偏不倚;然后,还要通过不断更新数据对模型进行迭代;并且还要站在最终用户的角度来思考问题。数据科学家伦理专家75%很少有偏见9%完全没有偏见14%73%人工智能比人类更容易产生歧视?还是更少产生歧视?人工智能比人类更容易产生歧视?还是更少产生歧视?现实世界中人工智能到底能干什么 现在,绝大多数的互联网用户每天都会用到人工智能。产品和娱乐内容推荐、搜索引擎、新闻推荐,你能想到的基本上都有:机器学习的应用已经扩展到越来越多的领域。怎么说呢?实际上,大部分数据科学家觉得人工智能参与决策这件事很正常。事情越复杂,数据科学家就会觉得越不舒服。虽然,在一些无关紧要的场景下,人工智能的应用已经取得成功。但是,在涉及重大的关键性问题时,目前人工智能所取得的成果还不足以让人给出肯定的答案。现在只能说,数据科学家还没有那么大的胃口,将人工智能应用于社会的每个角落。如果人工智能专家要推行更稳健或更理智的解决方案,大家最好静下心来听听他们说的到底是什么。Figure Eight 2018年数据科学家报告25伦理伦理反馈情况伦理:人工智能决策下面哪些场合可以让人工智能自行决策,无需人类干预。1501401301201101009080706050403020100推荐娱乐项目获取楼宇准入权限处理医疗保险投诉以上内容都不适用选择器官移植的接受者案件裁决确定大学招生人选招聘新员工开药方贷款审批推荐社交媒体新闻用不用人工智能这是个问题Figure Eight 2018年数据科学家报告27伦理伦理 从现在开始每过去一天,音频交互界面都在变得越来越流行。Comscore公司预测2020年50%的搜索都将是语音搜索。其实即便现在,每个月都已经差不多有10亿条语音搜索了。但是,就算是最先进的语音助手仍在与每天遇到的语音作斗争。尤其是遇到说话的人讲的不是母语,或有口音、说方言的时候,这个问题就会愈发严重。就此问题,我们特意咨询了相关数据科学家,希望了解如果推出家庭语音助理类产品,但该类产品又不能很好地理解口音和方言时,是不是仍要坚持推出该类产品,还是说要在该类产品上标明警示,提醒哪些人不适用,或者是否有相关法规会限制该类产品在某些区域销售。坦白的说,我们希望数据科学社区能够推出这些产品。因为不管怎么说,只有把这些产品销售出去才能采集更多音频话语数据,才能对该产品的数据模型进行迭代,不断改善这类产品的识别效果,从而使之能够理解更多用户的话语。但调查结果和我们想的并不一样。69%12%19%用不用人工智能这是个问题48%12%应该有法规进行限制推出产品 但带有警示标签 伦理专家39%推出产品数据科学家Figure Eight 2018年数据科学家报告29伦理伦理 虽然,我们对这样的结果感到惊讶,但这和之前的调研结果也非常契合,数据科学社区对人工智能的应用非常谨慎。他们喜欢的事情搞得清清楚楚,然后再实施。回想数据科学社区对开源平台和开源数据的热爱,就会理解为什么他们会做出这样的选择。对于自动驾驶双方差异极大 我们问了伦理专家和数据科学家一个非常简单的问题。如果统计数据表明,最新的人工智能比人类驾驶汽车的平均安全系数更高,你是愿意自己驾车呢?还是愿意开自动驾驶汽车呢?对于调研报告里面的其他内容,两组调研对象的反馈基本上都非常相似,总的来说,他们都认为人工智能利大于弊。即便是对于某些比较敏感的人工智能产品,也只需标清哪些人适用,哪些人不适用就可以了。比如,大家普遍都能接受人工智能驱动的产品推荐功能,对人工智能驱动的贷款审批或案件裁决持保留态度。但是对于自动驾驶,两组调研对象存在严重的两极分化,这只能说明数据科学家对无人驾驶技术的运行机制比神职人员了解的更多。不过,我们确实没有预料到两极分化的情况会这么严重。我们现在还很难解释清楚为什么两组调研对象会有如此不同的反应,但如果你从事于自动驾驶汽车行业,现在就应该清楚你的营销对象是谁了吧。Figure Eight 2018年数据科学家报告31伦理伦理数据科学家伦理专家75%无人驾驶手动驾驶75%自动驾驶,还是手动驾驶?自动驾驶,还是手动驾驶?报告背景 今年,我们通过邮件和现场访谈等形式采访了240位数据科学家。如需获取2015年版数据科学报告,请到我司官网的资源中心下载。如需获取2015年版数据科学报告,请到我司官网的资源中心下载。Figure Eight 2018年数据科学家报告33 Figure Eight是为数据科学团队提供人际回圈型人工智能平台的公司。我们为客户的机器学习模型提供高质量的自定义训练数据,还为客户提供易于部署、便于使用的人工智能模型及整合人机回圈的工作流。我司的软件平台支持包括自动驾驶汽车、个人智能助理、医疗图像分类、内容分类、客户支持票证分类、社交数据分析、CRM数据补值、产品分类及搜索相关性分析等众多业务类型。我司总部位于旧金山,投资者为Canvas创投、Trinity创投、微软创投。Figure Eight是一家涉足多个行业,快速增长的数据驱动型公司,我们的客户主要是财富500强公司的数据科学团队。figure-
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:2018年数据科学家报告.pdf
    链接地址:https://www.zixin.com.cn/doc/4763243.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork