AI:HR黑科技秘笈.pdf
《AI:HR黑科技秘笈.pdf》由会员分享,可在线阅读,更多相关《AI:HR黑科技秘笈.pdf(98页珍藏版)》请在咨信网上搜索。
1、AI+HR黑科技秘笈A I 赋 能 人 力 资 本 智 能 化 变 革e 成 科 技 H R 图 灵 学 院 出 品a i.i f c h a n g e.c o mAI黑科技揭秘顶尖科学家团队力作AI+HR创新应用前言前言献给走在数字化浪潮前沿的 HR 们,数字经济时代已全面开启,大数据、人工智能、云计算等新科技推动经济、社会、企业发生翻天覆地的变化,也将赋予人力资本巨大的变革力量。企业纷纷在寻求智慧变革,人力资源部门是推动企业变革的重要动力之一,HR 也要时刻随着时代和科技的变化而 变化,找到并驾驭合适、高效的智能化工具。在这场浪潮中,思变的企业和 HR 们已经开始寻求变革新路径。作为人力
2、资本数字化平台和数字化人才战略的先行者,e 成科技将始终与您同在,携手开启人力资本数字化新时代!”本专栏内容由 HR 图灵学院出品,HR 图灵学院是 e 成科技打造的 HR 领域第一 AI 专栏,希望以此为窗口,向 HR 传达专业的 AI 知识与信息,赋予人力资本领域变革力量,以 AI 为钥,携手 HR 开启数字化变革之门!在这里,HR们可以得到前沿技术思考、行业技术干货、全球 AI 好物、HR+AI 创新应用等。目录第一部分 人岗匹配让 AI 技术提升人岗匹配效果,我们做了这些探索解锁这项 AI 黑科技,马上实现人岗匹配自由第二部分 人才画像人才画像画得好,数字化 HR 有妙招第三部分 音视
3、频面试AI 面试官来袭,HR 你准备好了吗?第四部分 RPA一文读懂 RPA、AI 与 HR 的关系真技术还是伪 AI,HR 如何选择合适的智能工具?第五部分 智能聊天机器人请回答 BERT:HR 聊天机器人强大聊天技能背后的秘密第六部分 人工智能历史人工智能演义第一回:阿兰图灵开山鼻祖,达特茅斯豪杰聚义人工智能演义第二回:遇险阻创始人早逝,敢坚持三剑客逆袭人工智能演义第三回:一脉相承得失公论,两度寒冬冷暖自知第七部分 智能职业发展规划叮,您的智能职业发展规划师已上线第八部分 人才盘点看过那么多大厂经验,依然做不好人才盘点?你需要这款 AI 利器!02-0910-17 18-23 24-29
4、30-36 37-42 43-51 52-6061-68 69-75 76-84 85-941目录|2第一部分|场景:人岗匹配内容:让 AI 技术提升人岗匹配效果,我们做了这些探索解锁这项 AI 黑科技,马上实现人岗匹配自由AI 黑科技:Embedding、知识图谱(KG)方法、自然语言处理(NLP)、非线性树模型、deep 模型、BERT、Word2Vec 模型等本期和大家讨论下“人岗匹配排序的探索与实践”。从人力资源管理的发展来看,人岗匹配大致经历了三个阶段,“三历对照法”、“冰山挖掘法”、“全人匹配法”,而 AI 技术的引用将为企业迎来第四个“数据解剖法”。AI 技术实现人岗匹配,离不开
5、数据的处理和模型的选择与训练,看似高深、复杂的人岗匹配算法模型背后,这一切是怎么实现的呢?本期院长就和大家探讨下不同模型在人岗匹配实践中的创新应用。“人岗匹配”是企业人力资源管理的核心问题,更是所有 HR 追求的目标。毫不夸张地说,“人岗匹配”是人力资源的起点,也是人力资源的核心目标之一。本质上,企业和个人是利益共同体,只有使得组织利益和个体价值得到统一,做到“岗得其人”、“人适其岗”,根据人不同的素质和个性将其安排在最合适的岗位上,做到“人尽其才,物尽其用”,才能使人才发挥最大价值,同时激活组织。那么,HR 如何做好人岗匹配呢?以前,在千百万份简历中筛选人才,是 HR 工作中“解不开的劫”,
6、每天花费大量的时间和精力对优秀简历和职位信息人工做匹配,不仅消耗着 HR 的积极性,往往结果也不尽如人意,筛不到合适的人才,难以满足业务部门的需求。现在,数字经济时代的新技术给 HR 带来了更多可能,AI 技术将助力 HR 实现智能人岗匹配、大大提升人岗匹配效率与准确率,将 HR 从机械、琐碎的招聘工作中解放出来。第一部分让AI技术提升人岗匹配效果,我们做了这些探索3第一部分|那么,实现 AI 人岗匹配背后的依据和逻辑又是什么呢?e 成科技基于前沿的自然语言处理技术和深度学习模型,并结合大量数据和知识图谱,通过不断探索和反复实践,形成一套高效的人岗匹配推荐算法系统,下面院长将详细为大家介绍这套
7、系统及其背后的逻辑。在人岗匹配的任务中存在 HR、职位(JD)、简历(CV)三种实体,人岗推荐系统中由 HR 发布职位,根据发布职位来推荐简历,该场景中需要优化推荐的准确率、召回率,提升 HR 更高的工作效率,提升岗位和简历的匹配度来减少招聘人才的成本。在经典的机器学习排序模型中通常分为两种:复杂的人工特征工程+简单的模型,简单的人工特征+复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。以 JD 和 CV 对为背景,该场景为经典的机器学习排序问题,目标在于预测 JD 和 CV 是否匹配,数据集的采集则是来自我司产品 ATS 平台,HR 从系统根据 JD 推荐的 CV 来
8、进行选择,符合要求将要走面试程序的则标为 1,否则标为 0。2.1 特征介绍常见的 JD 如下图 1 所示,其中包含格式化离散数据和整段文本数据,从整段文本数据获取招聘意图是提取 JD 特征的重点难点。为了更好的解决该问题,我们分别引入知识图谱(KG)方法和自然语言处理(NLP)方法,其中 KG 负责去充分提取文本中实体的关系和联系,NLP 则更好的获取 JD 本文和 CV 文本相似性信息。因涉及个人隐私此处不展示 CV 信息。01特征为王4第一部分|图 1 JD 示例在以 JD 和 CV 对是否匹配的背景下,我们将特征主要分为以下几类:JD 特征:包含地点,学历硬性要求和利用知识图谱中提取的
9、实体特征如(职能,公司,技能,专业,行业)等;CV 特征:包含性别,年龄,学历等基础信息和从工作经历描述文本中提取的实体信息,以及文本类特征等。2.2 特征处理 在获取 JD 和 CV 的基础特征之后我们主要将特征主要分为四种类型:ID 离散特征:比如 UID,职能 ID,公司 ID,行业 ID,技能 ID,专业 ID 等。硬性离散类特征:除了性别,年龄,工作地点等基础类型特征,还包含有知识图谱提取的实体之间的关系特征比如学校是否匹配,职能(工作职位对应能力)是否匹配等,此处成为 match特征。连续性特征:除薪资等,还包含有知识图谱提取的实体之间的 graph embedding 的 vec
10、tor 相似性值,此处成为 IDsim 特征。Emdedding 特征:包括了 ID 离散特征的 vector,该 vector 有知识图谱的 graph embedding 方法产生(如 DeepWalk,LINE 等)。文本 embedding 特征,该特征以 JD 和CV 对的方式输入 DSSM 模型产生 vector。在此基础上我们还加入了相应统计特征,统计特征主要有强特征的共现特征以及强特征之间的多样性统计。特征之间的应用以及组合根据模型不同而展开讨论,不同模型对不同特征的表征能力不同。在模型方面主要可以分为两个总方向,分别是非线性树和 deep 模型的探索,在探索上主要是根据不同模
11、型的性质进行特征工程。3.1 非线性树模型 我们主要以 gbdt 为主的树模型展开特征工程的探索,gbdt 的实现以xgboost 和 lgb 为主。gbdt 模型结构如图 2 所示,gbdt 为一个 boosting 模型,通过叠加多个弱模型来提升拟合能力,根据 xgboost 模型的优缺点我们可以充分挖掘可用特征。我们再次整理上一节可用特征,主要有 ID 类特征(职能、行业、公司、技能、专业等);基本信息匹配特征(年龄,工作经验,学校等)该特征为二分类特征,以 JD 和 CV 的 ID 类特征是否匹配来构建二分类特征(如职能是否匹配等称为 match 特征),将这两类统称为硬性离散类特征;
12、JD 和 CV 类的 graph embedding 产生 vector 对计算余弦值作为连续特征(称为IDsim 特征),加上文本相似性特征(称为 textsim 特征)和薪资组成连续特征。值得注意的是文 本 特 征 主 要 根 据 JD 和 CV 的 格 式 分 为 title 和 description 两 个 部 分 来 挖 掘。考 虑 到xgboost 处理连续值的缺点我们将连续值进行分桶,桶数可由某维特征的分布来确定。将 ID 类特征也一同加入到树模型中,这是考虑到组合特征的业务意义。分析特征重要性之后,我们根据特征现象去做统计特征,比如出现频率统计,特征共现统计,多维特征多样性统
13、计等操作。相对应的 title 和 description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。总之实验证明 ID 类特征,二分类特征,连续特征离散化,统计类特征,以及 embedding 产生的 vector 的交叉特征都会给模型带来正向收益。图 25第一部分|02模型演变3.2 深度模型的探索 深度模型对比树模型更加突出了非线性的拟合能力,以及高阶特征的交叉融合功能。但是带来的弊端就是模型的可解释性变差,根据结果反向特征工程变得困难起来。我们在 JD 和 CV 匹配场景下分别使用了 DNN,Wide&Deep,DeepFM,等模型尝试。同时并借鉴了 PNN、DCN、D
14、LRM 和 DKN 网络原理正在适配适合现有数据类型的模型。本节主要简要介绍 DNN 和 Wide&Deep,DeepFM 的使用,再阐述对现有数据的思考。以 YouTube 的经典 NN 为开端(如图 3,引用自相应论文),现有的数据下如何去使用 DNN 达到收益正是我们所考虑的。在现有的特征中除了上文提到的二分类特征,embedding 相似性等特征之外我们包含知识图谱抽取的实体 embedding 和文本 embedding。文本 embedding 主要有 DSSM 模型产生,双塔模型的输入分别为 JD 的 title、description,CV 工作经验的title、descrip
15、tion,双塔输出为 JD 和 CV 是否匹配。我们以双塔的每坐塔的最后输出 vector作为 JD 和 CV 的表征。本着论文中提到的原理我们去除了树模型中 ID 类特征,换成了 ID 对应的 vector,保留原有的二分类和连续特征,另外在加入了文本 embedding 特征,最后的结果不是很乐观。因此分析原因可能是某些特征缺失 ID(比如 CV 职能等)初始化为 0 导致,还存在的原因可能是由于 ID vector 的知识结构和文本 embedding 知识结构不同导致,此处知识结构可以理解为不同训练任务下的 embedding 空间结构。6第一部分|图 3经历了 DNN 尝试没带来正向
16、收益我们偏向于以线性和深度非线性结合的 Wide&Deep 结构(如图 4)进行适配,此时我们考虑到 DNN 的实验产生的问题。7第一部分|图 4图 5我 们 并 未 直 接 加 入 由 知 识 图 谱 产 生 的 ID embedding 和 由 文 本 DSSM 模 型 产 生 的 文 本embedding 的结果,我们采用 ID 类特征进行随机初始化的 embedding 在连接 match,IDsim和 textsim 等特征作为 deep 的输入,将 match,IDsim,textsim 连接作为 wide 的输入。以输入 ID 类特征,match 类特征,IDsim 特征,tex
17、tsim 的 xgboost 模型作为 wide&deep 的比较模型,实验证明 wide&deep 模型略优于 xgboost 模型,但是如果对此基础上 xgboost 做统计特征则可超过 wide&deep 模型。以上可得 deep 模型非线性表征能力还是略微的比 xgboost能力强。经 过 wide&deep 模 型 的 实 验 基 础 上 我 们 想 更 加 利 用 交 叉 特 征 的 功 能,因 此 我 们 尝 试 了deepFM 模型,deepFM 模型结构图如图 5 所示(引用自 deepFM 相应论文),deepFM 将wide&deep 的 wide 部分替换成了 FM 机
18、制提升了模型对特征的交叉组合能力。根据此模型特征我们将 UID,图谱产生的 ID 类特征等稀疏特征输入 FM 部分,match 特征、IDsim 特征以及textsim 特征为 dense 特征输入。结果很是令人欢喜,达到了以上实验的最优值,可能这就是深度学习带来的魅力吧。8第一部分|在喜悦的同时,我们想现有的 ID 初始化 embedding 都能产生如此大的魅力,利用 graph embedding 岂不更加喜人。在 DeepFM 模型输入基础上我们将 ID 的 graph embedding 也加入到模型的 dense feature 部分,然而实验证明并没有想当然的好,甚至产生了负作用
19、。但至少证明了特征交叉能带来收益,至于 graph embedding 的加入为啥效果不好却是值得思考和探索的问题。经过上面的探索我们获取了一些经验,例如交叉特征有用,用 embedding 产生的向量两两相似性计算对树模型有用,因此我们本着上面积累的经验进行了人工构建交叉特征作为 xgboost 模型的输入。在此基础上加入统计特征,这波操作再次给我们带来了 0.5%的收益。最后总结下模型方面的探索结果,以上实验说明我们还没有充分利用 graph embedding 和由DSSM 产出的文本 embedding,也证明了 embedding 内涵的巨大作用,后期我们将加大力度去挖掘该部分的内容
20、。4.1 现阶段成果 经过上文特征和模型的探索在此我们分方案来展示我们的实验结果,分别包含以下方案:方案 1:ID 类特征+match 特征+IDsim 特征+textsim 特征+gbdt方案 2:ID vector 特征+match 特征+IDsim 特征+text vector 特征+dnn方 案 3:ID 类 特 征(随 机 初 始 化 embedding)+match 特 征+IDsim 特 征+textsim 特 征+deepFM方案 4:ID 类特征+match 特征+IDsim 特征+ID vector inner(交叉)特征+textsim 特征+统计特征+gbdt主要以这四
21、种有效的递进关系来展示,其中多种的组合尝试就不一一列举了。效果如表格 1 中,我们的评价指标主要为正例的准确率,召回率,F1 值和总的 AUC 值作为评价指标。03现阶段成果和未来展望表 1以上结果都为数据清洗特征工程后结果,本次数据量 JD 和 CV 对大致为 86 万,其中负例和正例比大致为 7:1,我们将其随机分成 8:1:1 其中 8 成训练集、1 成训练集和 1 成测试集。4.2 未来展望 特征为王说法不无道理,在加入深度学习探索时应该思考数据质量与数据量是否能支持,在数据质量和量的保证下我们相信深度学习带来的魅力是巨大的。最近由 Facebook 出品的 DLRM处理异构 embe
22、dding 的能力使我们跃跃欲试。另外由微软出品的 DKN 网络也证明了 graph embedding 所隐藏的信息量对推荐效果有很大帮助。文献 5 中结合知识图谱在电商环境下的推荐也使得我们相信充分挖掘 embedding 信息可以带来不错的收益。作为以技术为驱动的企业,e 成科技在 AI 技术的基础上,创新性地提出基于人才画像和岗位画像的匹配,为人岗匹配带来革命性变革。e 成科技作为 HR+AI 赛道的领跑者,一直专注于 AI 技术在人力资本领域创新应用,开创性地将AI 技术与人力资本场景深度结合。基于 6 年的 AI 能力和行业经验积累,e 成科技打造了 AI 开放平台,将 AI 能力
23、和产品整合至 AI 开放平台,并通过开放平台将 AI 能力开放给所有企业和友商。e 成科技 AI 开放平台是 HR 赛道首个企业自主研发的聚焦人力资本场景的一站式 AI 能力服务平台,覆盖简历解析、人岗匹配、HR 机器人等诸多场景,通过 OpenAPI 及需求定制等形式,面向所有自研系统大型企业、垂直招聘平台、传统 HR 行业厂商等企业用户提供智能化服务。未来,我们将一直保持高效的创新与研发能力,将前沿的 AI 技术深度融合至人力资本场景,为所有企业赋能。文献引用:1 Chen T,Guestrin C.XGBoost:A Scalable Tree BoostingSystemJ.2016.
24、2 Covington P,AdamsJ,Sargin E,et al.Deep Neural Networks for YouTube RecommendationsC.-conference on recommender systems,2016:191-198.3 Cheng H,Koc L,Harmsen J,et al.Wide&Deep Learning for Recommender SystemsC.conference on recommendersystems,2016:7-10.4 Guo H,Tang R,Ye Y,et al.DeepFM:AFactorization
25、-Machine based Neural Network for CTR Pre-dictionJ.arXiv:Information Retrieval,2017.5 Wang J,Huang P,Zhao H,et al.Billion-scale Commodity Embedding for E-commerce Recommen-dation in AlibabaC.knowledge discovery and data mining,2018:839-848.作者:e 成科技人岗匹配团队汪序明(扫描二维码查看文章)9第一部分|10第一部分|解锁这项AI黑科技,马上实现人岗匹配自
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI HR 科技 秘笈
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。