分销赏收藏举报申诉 / 98

立即下载 VIP下载

当前位置：首页 > 研究报告 > 其他 > AI：HR黑科技秘笈.pdf

AI：HR黑科技秘笈.pdf

上传人：Stan****Shan

文档编号：1259943

上传时间：2024-04-19

格式：PDF

页数：98

大小：8.23MB

《AI：HR黑科技秘笈.pdf》由会员分享，可在线阅读，更多相关《AI：HR黑科技秘笈.pdf（98页珍藏版）》请在咨信网上搜索。

1、AI+HR黑科技秘笈A I 赋能人力资本智能化变革e 成科技 H R 图灵学院出品a i.i f c h a n g e.c o mAI黑科技揭秘顶尖科学家团队力作AI+HR创新应用前言前言献给走在数字化浪潮前沿的 HR 们，数字经济时代已全面开启，大数据、人工智能、云计算等新科技推动经济、社会、企业发生翻天覆地的变化，也将赋予人力资本巨大的变革力量。企业纷纷在寻求智慧变革，人力资源部门是推动企业变革的重要动力之一，HR 也要时刻随着时代和科技的变化而变化，找到并驾驭合适、高效的智能化工具。在这场浪潮中，思变的企业和 HR 们已经开始寻求变革新路径。作为人力

2、资本数字化平台和数字化人才战略的先行者，e 成科技将始终与您同在，携手开启人力资本数字化新时代！”本专栏内容由 HR 图灵学院出品，HR 图灵学院是 e 成科技打造的 HR 领域第一 AI 专栏，希望以此为窗口，向 HR 传达专业的 AI 知识与信息，赋予人力资本领域变革力量，以 AI 为钥，携手 HR 开启数字化变革之门！在这里，HR们可以得到前沿技术思考、行业技术干货、全球 AI 好物、HR+AI 创新应用等。目录第一部分人岗匹配让 AI 技术提升人岗匹配效果，我们做了这些探索解锁这项 AI 黑科技，马上实现人岗匹配自由第二部分人才画像人才画像画得好，数字化 HR 有妙招第三部分音视

3、频面试AI 面试官来袭，HR 你准备好了吗？第四部分 RPA一文读懂 RPA、AI 与 HR 的关系真技术还是伪 AI，HR 如何选择合适的智能工具？第五部分智能聊天机器人请回答 BERT：HR 聊天机器人强大聊天技能背后的秘密第六部分人工智能历史人工智能演义第一回：阿兰图灵开山鼻祖，达特茅斯豪杰聚义人工智能演义第二回：遇险阻创始人早逝，敢坚持三剑客逆袭人工智能演义第三回：一脉相承得失公论，两度寒冬冷暖自知第七部分智能职业发展规划叮，您的智能职业发展规划师已上线第八部分人才盘点看过那么多大厂经验，依然做不好人才盘点？你需要这款 AI 利器！02-0910-17 18-23 24-29

4、30-36 37-42 43-51 52-6061-68 69-75 76-84 85-941目录|2第一部分|场景：人岗匹配内容：让 AI 技术提升人岗匹配效果，我们做了这些探索解锁这项 AI 黑科技，马上实现人岗匹配自由AI 黑科技：Embedding、知识图谱（KG）方法、自然语言处理（NLP）、非线性树模型、deep 模型、BERT、Word2Vec 模型等本期和大家讨论下“人岗匹配排序的探索与实践”。从人力资源管理的发展来看，人岗匹配大致经历了三个阶段，“三历对照法”、“冰山挖掘法”、“全人匹配法”，而 AI 技术的引用将为企业迎来第四个“数据解剖法”。AI 技术实现人岗匹配，离不开

5、数据的处理和模型的选择与训练，看似高深、复杂的人岗匹配算法模型背后，这一切是怎么实现的呢？本期院长就和大家探讨下不同模型在人岗匹配实践中的创新应用。“人岗匹配”是企业人力资源管理的核心问题，更是所有 HR 追求的目标。毫不夸张地说，“人岗匹配”是人力资源的起点，也是人力资源的核心目标之一。本质上，企业和个人是利益共同体，只有使得组织利益和个体价值得到统一，做到“岗得其人”、“人适其岗”，根据人不同的素质和个性将其安排在最合适的岗位上，做到“人尽其才，物尽其用”，才能使人才发挥最大价值，同时激活组织。那么，HR 如何做好人岗匹配呢？以前，在千百万份简历中筛选人才，是 HR 工作中“解不开的劫”，

6、每天花费大量的时间和精力对优秀简历和职位信息人工做匹配，不仅消耗着 HR 的积极性，往往结果也不尽如人意，筛不到合适的人才，难以满足业务部门的需求。现在，数字经济时代的新技术给 HR 带来了更多可能，AI 技术将助力 HR 实现智能人岗匹配、大大提升人岗匹配效率与准确率，将 HR 从机械、琐碎的招聘工作中解放出来。第一部分让AI技术提升人岗匹配效果，我们做了这些探索3第一部分|那么，实现 AI 人岗匹配背后的依据和逻辑又是什么呢？e 成科技基于前沿的自然语言处理技术和深度学习模型，并结合大量数据和知识图谱，通过不断探索和反复实践，形成一套高效的人岗匹配推荐算法系统，下面院长将详细为大家介绍这套

7、系统及其背后的逻辑。在人岗匹配的任务中存在 HR、职位（JD）、简历（CV）三种实体，人岗推荐系统中由 HR 发布职位，根据发布职位来推荐简历，该场景中需要优化推荐的准确率、召回率，提升 HR 更高的工作效率，提升岗位和简历的匹配度来减少招聘人才的成本。在经典的机器学习排序模型中通常分为两种：复杂的人工特征工程+简单的模型，简单的人工特征+复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。以 JD 和 CV 对为背景，该场景为经典的机器学习排序问题，目标在于预测 JD 和 CV 是否匹配，数据集的采集则是来自我司产品 ATS 平台，HR 从系统根据 JD 推荐的 CV 来

8、进行选择，符合要求将要走面试程序的则标为 1，否则标为 0。2.1 特征介绍常见的 JD 如下图 1 所示，其中包含格式化离散数据和整段文本数据，从整段文本数据获取招聘意图是提取 JD 特征的重点难点。为了更好的解决该问题，我们分别引入知识图谱（KG）方法和自然语言处理（NLP）方法，其中 KG 负责去充分提取文本中实体的关系和联系，NLP 则更好的获取 JD 本文和 CV 文本相似性信息。因涉及个人隐私此处不展示 CV 信息。01特征为王4第一部分|图 1 JD 示例在以 JD 和 CV 对是否匹配的背景下，我们将特征主要分为以下几类：JD 特征：包含地点，学历硬性要求和利用知识图谱中提取的

9、实体特征如（职能，公司，技能，专业，行业）等；CV 特征：包含性别，年龄，学历等基础信息和从工作经历描述文本中提取的实体信息，以及文本类特征等。2.2 特征处理在获取 JD 和 CV 的基础特征之后我们主要将特征主要分为四种类型：ID 离散特征：比如 UID，职能 ID，公司 ID，行业 ID，技能 ID，专业 ID 等。硬性离散类特征：除了性别，年龄，工作地点等基础类型特征，还包含有知识图谱提取的实体之间的关系特征比如学校是否匹配，职能（工作职位对应能力）是否匹配等，此处成为 match特征。连续性特征：除薪资等，还包含有知识图谱提取的实体之间的 graph embedding 的 vec

10、tor 相似性值，此处成为 IDsim 特征。Emdedding 特征：包括了 ID 离散特征的 vector，该 vector 有知识图谱的 graph embedding 方法产生（如 DeepWalk，LINE 等）。文本 embedding 特征，该特征以 JD 和CV 对的方式输入 DSSM 模型产生 vector。在此基础上我们还加入了相应统计特征，统计特征主要有强特征的共现特征以及强特征之间的多样性统计。特征之间的应用以及组合根据模型不同而展开讨论，不同模型对不同特征的表征能力不同。在模型方面主要可以分为两个总方向，分别是非线性树和 deep 模型的探索，在探索上主要是根据不同模

11、型的性质进行特征工程。3.1 非线性树模型我们主要以 gbdt 为主的树模型展开特征工程的探索，gbdt 的实现以xgboost 和 lgb 为主。gbdt 模型结构如图 2 所示，gbdt 为一个 boosting 模型，通过叠加多个弱模型来提升拟合能力，根据 xgboost 模型的优缺点我们可以充分挖掘可用特征。我们再次整理上一节可用特征，主要有 ID 类特征（职能、行业、公司、技能、专业等）；基本信息匹配特征（年龄，工作经验，学校等）该特征为二分类特征，以 JD 和 CV 的 ID 类特征是否匹配来构建二分类特征（如职能是否匹配等称为 match 特征），将这两类统称为硬性离散类特征；

12、JD 和 CV 类的 graph embedding 产生 vector 对计算余弦值作为连续特征（称为IDsim 特征），加上文本相似性特征（称为 textsim 特征）和薪资组成连续特征。值得注意的是文本特征主要根据 JD 和 CV 的格式分为 title 和 description 两个部分来挖掘。考虑到xgboost 处理连续值的缺点我们将连续值进行分桶，桶数可由某维特征的分布来确定。将 ID 类特征也一同加入到树模型中，这是考虑到组合特征的业务意义。分析特征重要性之后，我们根据特征现象去做统计特征，比如出现频率统计，特征共现统计，多维特征多样性统

13、计等操作。相对应的 title 和 description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。总之实验证明 ID 类特征，二分类特征，连续特征离散化，统计类特征，以及 embedding 产生的 vector 的交叉特征都会给模型带来正向收益。图 25第一部分|02模型演变3.2 深度模型的探索深度模型对比树模型更加突出了非线性的拟合能力，以及高阶特征的交叉融合功能。但是带来的弊端就是模型的可解释性变差，根据结果反向特征工程变得困难起来。我们在 JD 和 CV 匹配场景下分别使用了 DNN，Wide&Deep，DeepFM，等模型尝试。同时并借鉴了 PNN、DCN、D

14、LRM 和 DKN 网络原理正在适配适合现有数据类型的模型。本节主要简要介绍 DNN 和 Wide&Deep，DeepFM 的使用，再阐述对现有数据的思考。以 YouTube 的经典 NN 为开端（如图 3，引用自相应论文），现有的数据下如何去使用 DNN 达到收益正是我们所考虑的。在现有的特征中除了上文提到的二分类特征，embedding 相似性等特征之外我们包含知识图谱抽取的实体 embedding 和文本 embedding。文本 embedding 主要有 DSSM 模型产生，双塔模型的输入分别为 JD 的 title、description，CV 工作经验的title、descrip

15、tion，双塔输出为 JD 和 CV 是否匹配。我们以双塔的每坐塔的最后输出 vector作为 JD 和 CV 的表征。本着论文中提到的原理我们去除了树模型中 ID 类特征，换成了 ID 对应的 vector，保留原有的二分类和连续特征，另外在加入了文本 embedding 特征，最后的结果不是很乐观。因此分析原因可能是某些特征缺失 ID（比如 CV 职能等）初始化为 0 导致，还存在的原因可能是由于 ID vector 的知识结构和文本 embedding 知识结构不同导致，此处知识结构可以理解为不同训练任务下的 embedding 空间结构。6第一部分|图 3经历了 DNN 尝试没带来正向

16、收益我们偏向于以线性和深度非线性结合的 Wide&Deep 结构（如图 4）进行适配，此时我们考虑到 DNN 的实验产生的问题。7第一部分|图 4图 5我们并未直接加入由知识图谱产生的 ID embedding 和由文本 DSSM 模型产生的文本embedding 的结果，我们采用 ID 类特征进行随机初始化的 embedding 在连接 match，IDsim和 textsim 等特征作为 deep 的输入，将 match，IDsim，textsim 连接作为 wide 的输入。以输入 ID 类特征，match 类特征，IDsim 特征，tex

17、tsim 的 xgboost 模型作为 wide&deep 的比较模型，实验证明 wide&deep 模型略优于 xgboost 模型，但是如果对此基础上 xgboost 做统计特征则可超过 wide&deep 模型。以上可得 deep 模型非线性表征能力还是略微的比 xgboost能力强。经过 wide&deep 模型的实验基础上我们想更加利用交叉特征的功能，因此我们尝试了deepFM 模型，deepFM 模型结构图如图 5 所示（引用自 deepFM 相应论文）,deepFM 将wide&deep 的 wide 部分替换成了 FM 机

18、制提升了模型对特征的交叉组合能力。根据此模型特征我们将 UID，图谱产生的 ID 类特征等稀疏特征输入 FM 部分，match 特征、IDsim 特征以及textsim 特征为 dense 特征输入。结果很是令人欢喜，达到了以上实验的最优值，可能这就是深度学习带来的魅力吧。8第一部分|在喜悦的同时，我们想现有的 ID 初始化 embedding 都能产生如此大的魅力，利用 graph embedding 岂不更加喜人。在 DeepFM 模型输入基础上我们将 ID 的 graph embedding 也加入到模型的 dense feature 部分，然而实验证明并没有想当然的好,甚至产生了负作用

19、。但至少证明了特征交叉能带来收益，至于 graph embedding 的加入为啥效果不好却是值得思考和探索的问题。经过上面的探索我们获取了一些经验，例如交叉特征有用，用 embedding 产生的向量两两相似性计算对树模型有用，因此我们本着上面积累的经验进行了人工构建交叉特征作为 xgboost 模型的输入。在此基础上加入统计特征，这波操作再次给我们带来了 0.5%的收益。最后总结下模型方面的探索结果，以上实验说明我们还没有充分利用 graph embedding 和由DSSM 产出的文本 embedding，也证明了 embedding 内涵的巨大作用，后期我们将加大力度去挖掘该部分的内容

20、。4.1 现阶段成果经过上文特征和模型的探索在此我们分方案来展示我们的实验结果，分别包含以下方案：方案 1：ID 类特征+match 特征+IDsim 特征+textsim 特征+gbdt方案 2：ID vector 特征+match 特征+IDsim 特征+text vector 特征+dnn方案 3：ID 类特征（随机初始化 embedding）+match 特征+IDsim 特征+textsim 特征+deepFM方案 4：ID 类特征+match 特征+IDsim 特征+ID vector inner（交叉）特征+textsim 特征+统计特征+gbdt主要以这四

21、种有效的递进关系来展示，其中多种的组合尝试就不一一列举了。效果如表格 1 中，我们的评价指标主要为正例的准确率，召回率，F1 值和总的 AUC 值作为评价指标。03现阶段成果和未来展望表 1以上结果都为数据清洗特征工程后结果，本次数据量 JD 和 CV 对大致为 86 万，其中负例和正例比大致为 7:1，我们将其随机分成 8:1:1 其中 8 成训练集、1 成训练集和 1 成测试集。4.2 未来展望特征为王说法不无道理，在加入深度学习探索时应该思考数据质量与数据量是否能支持，在数据质量和量的保证下我们相信深度学习带来的魅力是巨大的。最近由 Facebook 出品的 DLRM处理异构 embe

22、dding 的能力使我们跃跃欲试。另外由微软出品的 DKN 网络也证明了 graph embedding 所隐藏的信息量对推荐效果有很大帮助。文献 5 中结合知识图谱在电商环境下的推荐也使得我们相信充分挖掘 embedding 信息可以带来不错的收益。作为以技术为驱动的企业，e 成科技在 AI 技术的基础上，创新性地提出基于人才画像和岗位画像的匹配，为人岗匹配带来革命性变革。e 成科技作为 HR+AI 赛道的领跑者，一直专注于 AI 技术在人力资本领域创新应用，开创性地将AI 技术与人力资本场景深度结合。基于 6 年的 AI 能力和行业经验积累，e 成科技打造了 AI 开放平台，将 AI 能力

23、和产品整合至 AI 开放平台，并通过开放平台将 AI 能力开放给所有企业和友商。e 成科技 AI 开放平台是 HR 赛道首个企业自主研发的聚焦人力资本场景的一站式 AI 能力服务平台，覆盖简历解析、人岗匹配、HR 机器人等诸多场景，通过 OpenAPI 及需求定制等形式，面向所有自研系统大型企业、垂直招聘平台、传统 HR 行业厂商等企业用户提供智能化服务。未来，我们将一直保持高效的创新与研发能力，将前沿的 AI 技术深度融合至人力资本场景，为所有企业赋能。文献引用：1 Chen T,Guestrin C.XGBoost:A Scalable Tree BoostingSystemJ.2016.

24、2 Covington P,AdamsJ,Sargin E,et al.Deep Neural Networks for YouTube RecommendationsC.-conference on recommender systems,2016:191-198.3 Cheng H,Koc L,Harmsen J,et al.Wide&Deep Learning for Recommender SystemsC.conference on recommendersystems,2016:7-10.4 Guo H,Tang R,Ye Y,et al.DeepFM:AFactorization

25、-Machine based Neural Network for CTR Pre-dictionJ.arXiv:Information Retrieval,2017.5 Wang J,Huang P,Zhao H,et al.Billion-scale Commodity Embedding for E-commerce Recommen-dation in AlibabaC.knowledge discovery and data mining,2018:839-848.作者：e 成科技人岗匹配团队汪序明（扫描二维码查看文章）9第一部分|10第一部分|解锁这项AI黑科技，马上实现人岗匹配自

26、由人岗匹配，是企业人力资源管理的核心之一，更是 HR 招聘工作的精髓。传统工作方式下，简历搜索和人岗匹配往往消耗 HR 大量时间和精力，结果却往往不精准，随着人工智能和 NLP 技术的发展，一些招聘网站纷纷推出自动化推荐功能，但却同质化严重，准确率不高。现在“graph embedding”给人岗匹配带来新突破！在 e 成科技 AI 团队的实践和研究下，“graph embedding”在人力资本领域落地且取得不俗效果，助力人岗匹配更加高效，这样的 AI 技术，作为 HR 的你值得拥有！在 NLP（自然语言处理）中,自然语言无法直接应用到数学模型的建立中，

27、需要将其映射到欧式空间。Embedding 就是解决如何将自然语言表示为向量的，Google 推出了 Word2Vec 模型，可以将语义相近的词映射到向量空间中相近的位置，之后 Google 又提出了 BERT，BERT 可以考虑到相同词在不同位置有不同含义等信息，利用这个新的语言模型刷新了问答、文本情感分析等多个语言任务的表现。同时，Embedding 也可以作为深度学习模型的隐藏层，可以极大提高模型的表现。自从 word2vec 横空出世，似乎各行各业的一切东西都在被 Embedding，Embedding 在数学上表示一个映射 F:X-Y，也就是一个函数，其中该函数是一一对应的而且保持空

28、间同构性(即在 X 空间是近邻的，则被映射到 Y 空间也是近邻的)。Embedding 技术被应用在了多种业务场景中：1)在 Airbnb 中实现实时个性化搜索，利用用户近几周或者近几个月点击过的房源行为数据实时对用户的搜索目标房源进行相似度比较和排序，这样既极大的提高了效率而且也保证的搜索房源的准确性提高了用户体验。2)在电子商务领域，根据用户的浏览和购买行为数据，通过深度学习模型可以将用户和物品同时嵌入(embedding)到相同的低维空间，然后利用 Embedding 计算用户和物品之间的相似度（匹配度）直接给用户推荐感兴趣的物品。01一切皆可Embedding在人力资本领域，求职者、公

29、司、职位、专业、技能等不同的实体间存在着多种类型的关系，构成了一个知识图谱（Knowledge Graph）。这里，我们主要关注的是 Graph Embedding(其实也可以称为 Network Embedding)。我们利用 Graph Embedding 技术，把这些实体嵌入到低维的向量空间，可以直接比较他们的相似性，并能大大的提高简历和岗位的匹配效果。对于具有较多类型节点且各类型节点的数量巨大来说这是比较好的尝试，而且取得了一些效果。由于 graph embedding 的广泛应用，同时衍生出了很多计算 embedding 的方法，下面我们介绍几种商业上比较常用的几种方法：1)Deep

30、WalkDeepWalk 3 是 KDD 2014 的一篇文章，我们常用的 word2vec 是根据词的共现关系利用skip gram 和 COBW 将词映射到低维向量。DeepWalk 算法思路其实是利用了 word2vec 生成 embedding 的一种方法 skipgram，对于已经建立的 Graph 来说每个节点可以是不同的实体且实体时间可以有不同的关系，从图上的一个节点开始随机游走（random walk），如果节点之间有 weight 可以根据 weight 的不同进行 walk 来生成类似文本的序列数据，实体 id 作为一个个词使用 skip gram 训练得到词向量。算法的大

31、体思路就是：根据图中节点随机游走-生成一定长度的序列-利用 skip-gram 进行训练。02生成Graph Embedding常用方法及其原理11第一部分|2)LINELINE（Large-scale Information Network Embedding）是 2015 年文章 4 中微软亚洲研究院提出来的一种算法，LINE 定义了两种度量节点相似度的方法:一阶相似度(First-order proximity)和二阶相似度(Second-orderproximity)。一阶相似度其中一阶相似度就是两个点直接相连的边的权重，且边权重越大说明两个点越相似，如果两个节点之间无连接，则一阶相似

32、度为 0；对每个无向边，定义顶点和的联合概率分布为：是顶点的低维向量表示,我们的目的就是使得经验分布和概率分布尽可能的接近，于是我们定义以下一阶相似度的目标函数：其中为两种分布之间的距离，为空间上的一个分布,=是它的经验分布,其中 W 为两点间边权重总和。我们选择 KL 散度来计算（2）式子。KL 散度的计算公式其实是熵计算公式的简单变形,在原有概率分布 p 上，加入我们的近似概率分布 q，比较两个概率分布的相似性：将，带入 KL 散度的公式我们得到其中 C 为一个常数，需要注意的是，一阶相似度仅适用于无向图,而不适用于有向图。12第一部分|二阶相似度二度相似性则是两个点之间共享多少相同的节点

33、，共享的相同节点越多，而且共享的边的权重越高则它们的相似性就越高。二阶相似性假定与其他顶点共享邻居顶点的两个点彼此相似(无向有向均可)，一个向量和分别表示顶点本身和其他顶点的特定“上下文”，意为二阶相似。对于每个有向边，我们首先定义由顶点生成“上下文”的概率：式子(5)是一个条件分布，对于顶点，我们的目的就是要拟合与其经验分布。为边的权重，为相邻边的权重的和，因此最小化以下目标函数：d(,)上文已经说明，来表示顶点的度数。这里我们令利用 KL 散度同一阶相似性的推导类似我们可以得到二阶相似性的计算公式（去掉常数项）为：具体应用时,我们可以将一阶和二阶的得出的 embedding 进行拼接这样可

34、以得到更多的语义信息。3)Node2vecNode2vec5 算法是在 DeepWalk 基础上进行了改进，主要的创新点在于改进了随机游走的策略，DeepWalk 中根据边的权重进行随机游走，而 Node2vec 加了一个权重调整参数，同时考虑到局部和宏观的信息，并且具有很高的适应性。除了以上提到的常用的生成 embedding 方法，学术界和工业界还提出了很多方法，像 SDNE6、Struc2vec、Starspace7（Facebook 用的技术）、EGES（阿里巴巴推荐使用的技术之一）等。13第一部分|03Graph Embedding为人岗匹配带来新突破在人力资本行业最主要的两大核心要

35、素就是简历 CV 和工作岗位 JD，如何让 CV 和 JD 有效的匹配是人力资本行业一直非常重视的问题也是一个难题。我们在人力资本行业领域对 graph embedding 的尝试和应用，并且取得了一定的效果。1）原始文本处理想要有效的进行人岗匹配（即 CV 和 JD 的合理匹配），需要综合考虑包括职能、行业、技能、专业等维度在内的多维度匹配。首先应该提取 CV、JD 中的文本特征，可以利用深度学习模型提取出 CV、JD 的文本特征，我们这里称为实体。抽取出实体之后，我们就可以进行 CV 和 JD的匹配，对于自由文本来说除了 CV 和 JD 的实体完全匹配上，可以算他们的相似度，词的语义相似度

36、无法完全的诠释。举个例子：CV 的特征：技能实体（JAVA），职能实体（JAVA 开发工程师）、专业实体（计算机）JD 的特征：技能实体（Spring），职能实体（JAVA 后端开发）、专业实体（信息技术）从词的表面是无法区分他们的相似度的。下面就用到了 embedding，embedding 可以将这些实体嵌入到同一低维的向量空间，在空间中实体之间的距离可以通过数学公式计算从而表示他们的相似性。2）生成实体 embedding第一步：数据的生成，我们首先利用 CV、JD 中不同实体的共现，以及不同工作经历之间的跳转来抽取简历中的实体跳转，这些不同的实体之间可以构成 network 如图 1

37、所示。不同的实体就是不同的节点，实线就是节点之间的边也可以称为关系。图 114第一部分|第二步：使用 Deepwalk、LINE 生成 embedding。对于 Deepwalk 可以直接根据 network 生成不同的文本序列，利用 skip-gram 进行模型的训练。而对于 LINE 可以直接利用不同实体的共现次数作为模型的输入。第三步：优化训练数据。我们发现不同的实体出现次数的量级是不同的，比如专业在 JD 中就很少出现，这样就导致了数据的不平衡。我们解决的方式是，统计了不同实体之间的 tfidf、npmi（Normal Pointwise Mutual Information）作为实体

38、之间的权重，即表示了不同实体之间关系的强弱程度，之后再进行模型的训练。第四步：以上都是利用无监督的方式去训练 embedding，由于 e 成科技有自己独立的人力资源ATS 系统，包含了用户大量的真实行为数据。把其中匹配上的 CV、JD 作为正例，未匹配上的作为负例，构造出有监督的训练数据。将 JD 作为 query，CV 作为 title，利用 DSSM 模型(如图 2)进行有监督的模型训练。需要注意的是这里的 embedding 层并不是随机初始化的，而是利用第三步已经训练过的 embedding 作为预训练的权重。这样有监督训练的目的就是利用真实的行为数据更新 embedding 层的数

39、据，使得每个实体的 embedding 更能好的表达在招聘这个业务场景中的语义。图 1我们使用内部标注的评估数据对不同模型进行了评估，比较结果如下:15第一部分|以下是 fasttext 和 graph embedding 模型输出的 top 相关公司实体的一些例子。可以看到FastText 单单只从字面意思进行了相似度匹配；而 graph embedding 模型输出结果能够更好地包含了具有相似业务、相似规模的公司，具有更好的语义相关性。以下是 fasttext 和 graph embedding 模型输出的 top 相关公司实体的一些例子。可以看到FastText 单单只从字面意思进行了相

40、似度匹配；而 graph embedding 模型输出结果能够更好地包含了具有相似业务、相似规模的公司，具有更好的语义相关性。本文主要阐述了 Embedding 的原理以及一些应用，具体的阐述了 Graph mbedding 在人力资本领域的落地应用。Embedding 既可以作为计算各个实体的工具也可以作为深度学习中的 embedding 嵌入层增加模型的准确性。不夸张的说一切可以 embedding，而且 embedding 在很多领域都取得了不俗的成就，尤其是 NLP 领域。e 成科技作为 HR+AI 赛道的领跑者，一直专注于人力资本领域的 AI 创新升级，开创性地将 AI技术与人才战略

41、升级场景深度结合,我们已经将 embedding 技术应用到人岗匹配、面试 Bot等多实际场景，接下来我们将继续优化 embedding，助力 AI 技术在人力资源领域的更多应用。同时，基于积累多年的 AI 能力和行业经验，e 成科技重磅打造了 AI 开放平台，并将 AI 能力开放给所有企业和友商。e 成科技 AI 开放平台是 HR 赛道首个企业自主研发的聚焦人力资本场景的一站式 AI 能力服务平台，覆盖简历解析、人岗匹配、HR 机器人等诸多场景，通过 OpenAPI及需求定制等形式，面向所有自研系统大型企业、垂直招聘平台、传统 HR 行业厂商等企业用户提供智能化服务。04HR+AI领跑者，助

42、力每一个HR实现AI赋能16第一部分|17第一部分|参考文献：1 Banana，神奇的 Embedding,https:/ Ethan，Embedding 的理解，https:/ B,Al-Rfou R,Skiena S.DeepWalk:Online Learning of SocialRepresentationsJ.arXiv pre-print arXiv:1403.6652,2014.4Tang J,Qu M,Wang M,et al.Line:Large-scale information networkembeddingC/Proceedings of the 24th inte

43、rnational conference on world wideweb.International World Wide Web Conferences Steer-ing Committee,2015:1067-1077.5Grover A,Leskovec J.node2vec:Scalable feature learning fornetworksC/Proceedings of the 22nd ACM SIGKDD international conference onKnowledge discovery and data mining.ACM,2016:855-864.6W

44、ang D,Cui P,Zhu W,et al.Structural Deep Network EmbeddingC.knowledgediscovery and data mining,2016:1225-1234.7Wu,L.,Fisch,A.,Chopra,S.,Adams,K.,Bordes,A.,&Weston,J.(2017).StarSpace:Embed All The Things!arXiv preprint arXiv:1709.03856作者：e 成科技知识图谱团队白永斌（扫描二维码查看文章）18第二部分|场景：人才画像内容：人才画像画得好，数字化 HR 有妙招AI 黑

45、科技：Bert ELMo(Embedding from Language Models)模型 Embedding attention俗话说“人才画像画得好，HR 招聘快不少”。人才画像是现在企业人才招聘和人才管理的核心，并应用在人岗匹配、薪酬预测、人才盘点等诸多场景。数字化时代，画像成为人才招聘和人才管理的入口，通过上百个维度进行提炼、总结进行人才全方位刻画。但如何刻画画像，画像准不准，还得这背后默默运行的 AI 算法和知识图谱说了算。第二部分人才画像画得好，数字化HR有妙招01画像是什么？“画像”的出现，得益于大数据、云计算、人工智能等新技术的飞速发

46、展。用户画像（persona）的概念最早由交互设计之父 Alan Cooper 提出:“Personas are a concrete representation of target users.”是指真实用户的虚拟代表，是建立在一系列属性数据之上的目标用户模型。如今，为了提高客户体验和运营效率，画像早已被应用在各行各业。金融企业是最早开始使用用户画像的行业，在人力资本领域，人才/岗位画像的应用大大提升了 HR 的工作效率和质量，是人力资本数字化的重要入口和核心要素。所谓人才/岗位画像，即是基于企业招聘的显性的职位描述和隐形的内在潜质共同组成的用户画像（以下简

47、称“画像”）。一张画像，没有读不懂的人才构建画像的核心工作，主要是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘，给用户贴“标签”，而“标签”是能表示用户某一维度特征的标识。业界有一套较为成熟的画像构建方法，为了让画像成为可普遍使用的基础服务，需要对画像的字段进行数值化处理。其中结构化数据比较容易进行数值编码（例如：性别/年龄/工作年限等），而非结构化数据（例如工作经历/职能/技能等）多数为文本类型处理难度较高。对于非结构化数据，生成具备语义含义的 Embedding 是业界较为广泛使用的方案。职能/技能可以统称为用户的知识体系，即使每一个

48、职能/技能生成了具备语义含义的Embedding，如何通过聚合生成用户整个知识体系的数值表达并尽可能保留文本自身的信息，依旧是亟待解决的问题。在画像构建过程中，对于结构化数据业界已经积累了大量的成熟有效的方案。然而非结构化数据（例如文本类型）包含了更全面和深度的用户潜在信息，目前通过词向量加权平均依旧是主流使用的处理方法。此类方法存在一些缺陷：1.生成的 Embedding 完全基于语义表达，缺失了其内在业务含义；2.直接加权平均的方法，容易掩盖掉重要的信息，且权重不好定义。基于此，我们针对人力资本场景，借鉴 Bert 的思想提出了一个新方法，能够更好地用数学的方法对人

49、才/岗位画像进行表示。为了让 AI+数据驱动的数字化招聘更为精准智能，我们以 e 成科技独有的 HR 行业职能/技能知识图谱作为先验的业务知识，并基于海量简历和岗位描述数据（千万级），借鉴 Bert 的模型架构，专门对画像中的知识体系相关字段（职能/技能）进行了深度优化。该方法提供的知识表征，首先包含了技能/职能的内在关系，其次通过 attention 的方式聚合能保证重要业务信息的不丢失。经过优化的人才/岗位画像，在数字化招聘、人岗匹配、人才盘点、薪酬预测等多个下游业务场景中均取得显著的优化提升。部分场景举例人才选拔：通过人才画像分析，使人才供给与业务发展速度高度匹配，优化人才队伍配置效率，

50、降低人才流失率；人才任用：通过岗位画像和人才画像的分析与匹配度分析，实现人才和岗位最优配置，使优秀人才能充分发挥能力与主观能动性，提高人力资本效率；19第二部分|02ELMoVS Word2Vec，更优的特征提取器薪酬预测：根据人才画像和岗位画像，结合行业岗位知识，分析人才/候选人技能及发展水平，预测候选人及企业未来薪酬水平；接下来，院长就将为大家介绍 e 成科技在有关领域的最新方案以及应用成果。Word2Vec 是近几年非常流行的 Word Eembedding 提取模型。模型通过预先构建的词表将输入语句中某单词前、后所有词语编码为多个 one-hot 向量传入模型，随后通过一个共享的参数

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AI HR 科技秘笈

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。