基于机器学习的康美药业财务舞弊甄别研究.pdf
《基于机器学习的康美药业财务舞弊甄别研究.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的康美药业财务舞弊甄别研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、Modern Management 现代管理现代管理,2023,13(8),1025-1033 Published Online August 2023 in Hans.https:/www.hanspub.org/journal/mm https:/doi.org/10.12677/mm.2023.138129 文章引用文章引用:赵宇,赵淳宇,王梦瑶.基于机器学习的康美药业财务舞弊甄别研究J.现代管理,2023,13(8):1025-1033.DOI:10.12677/mm.2023.138129 基于机器学习的康美药业财务舞弊甄别研究基于机器学习的康美药业财务舞弊甄别研究 赵赵 宇,赵淳宇
2、,王梦瑶宇,赵淳宇,王梦瑶 四川师范大学商学院,四川 成都 收稿日期:2023年6月29日;录用日期:2023年7月12日;发布日期:2023年8月7日 摘摘 要要 如何有效甄别上市公司财务舞弊行为,成为业界和学界持续关注的重要议题。本研究将最近五年受到中如何有效甄别上市公司财务舞弊行为,成为业界和学界持续关注的重要议题。本研究将最近五年受到中国证监会处罚的医药生物行业国证监会处罚的医药生物行业A股上市公司作为样本,以康美药业为例,基于舞弊三角理论选取股上市公司作为样本,以康美药业为例,基于舞弊三角理论选取24个特个特征,采用结合征,采用结合SMOTE过采样技术的随机森林分类算法模型进行测试与
3、分析。结果表明,相较于将公司简过采样技术的随机森林分类算法模型进行测试与分析。结果表明,相较于将公司简单归类为舞弊与非舞弊两类,使用多个不同的特征集建立模型或构建多个不同算法的模型进行财务舞弊单归类为舞弊与非舞弊两类,使用多个不同的特征集建立模型或构建多个不同算法的模型进行财务舞弊甄别研究的效果更好。甄别研究的效果更好。关键词关键词 财务舞弊,机器学习,康美药业财务舞弊,机器学习,康美药业 Research on Financial Fraud Screening of Kangmei Pharmaceutical Based on Machine Learning Yu Zhao,Chuny
4、u Zhao,Mengyao Wang School of Business,Sichuan Normal University,Chengdu Sichuan Received:Jun.29th,2023;accepted:Jul.12th,2023;published:Aug.7th,2023 Abstract How to effectively identify financial fraud behavior of listed companies has become an important is-sue of continuous concern in the industry
5、 and academia.In this study,the A-share listed companies in the pharmaceutical and biological industry that have been punished by the China Securities Reg-ulatory Commission in the past five years are taken as samples.Taking Kangmei Pharmaceutical as an example,24 features are selected based on the
6、fraud triangle theory,and Random forest classifi-cation algorithm model combined with SMOTE Oversampling technology is used for testing and 赵宇 等 DOI:10.12677/mm.2023.138129 1026 现代管理 analysis.The results indicate that compared to simply categorizing companies into fraudulent and non fraudulent categ
7、ories,using multiple different feature sets to establish models or constructing models with multiple different algorithms for financial fraud screening research is more effective.Keywords Financial Fraud,Machine Learning,Kangmei Pharmaceutical Copyright 2023 by author(s)and Hans Publishers Inc.This
8、work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 出于吸引投资、减少税款缴纳等目的,或面临退市的压力,部分上市公司选择向外界提供虚假的财务信息1。我国金融市场发展起步较晚,监管机制还不够完善,如何有效甄别上市公司是否进行了财务舞弊成为业界和学界持续关注的重要议题。近年来,从统计学模型到机器学习模型,不同的方法和技术被应用于财务舞弊甄别研究2。从模型的精确率、召回率、准确率
9、和 F1 分数来看,机器学习模型效果更为显著。但在现有文献中,机器学习模型效果大多体现在平衡样本数据处理,对不平衡样本数据处理较少,或采用欠采样、随机抽样等技术,其他的采样技术有待进一步研究3。事实上,由于不同行业领域公司财务指标特征、上市公司数量具有较大差异,常规采样技术难以达到统计学要求,基于此,本研究在舞弊三角理论进行定性特征选取基础上4,试图采用结合 SMOTE 过采样技术的随机森林分类算法模型,针对近年来财务舞弊典型案例公司康美药业及其所在的医药生物行业其他公司,探索基于机器学习的财务舞弊甄别研究。2.相关研究综述相关研究综述 2.1.财务舞弊的因素财务舞弊的因素 财务舞弊的因素理论
10、中舞弊三角理论认为财务舞弊来源于机会、压力和借口三个因素,它们相互作用,共同导致舞弊行为的发生。在存在相应的机会时,想法才会变为行动,故机会是舞弊行为的重要诱因。Gozman 和 Currie 5指出,在股东或其他投资者给定公司管理层较高的盈利目标,或需要其弥补公司亏损时,公司管理层会承受巨大压力,舞弊的可能性也随之增加。Cressey 6则指出,实施财务舞弊者倾向于让自己处于道德区域内,当自己或其他人为舞弊行为提供某个理由时,实施财务舞弊者会对舞弊行为进行合理化包装,错误地认为此类行为并未违规违法,这就形成了舞弊三角中的借口因素。Call 等7主要研究非财务类型的舞弊因素,发现公司基层员工在
11、获取更大的权力后举报公司舞弊的概率降低。崔东颖,胡明霞8研究表明,在市场竞争愈发激烈时,上市公司很可能在利益驱使、内部控制不合理以及外部监管力度不足的共同作用下实施舞弊行为。2.2.甄别财务舞弊的方法甄别财务舞弊的方法 甄别财务舞弊的方法主要有两类。一类是以聚类分析、主成分分析和 Logistic 回归等为代表的传统统计模型。例如,Etemadi 和 Zolghi 9研究传统的统计模型如何预测上市公司财务舞弊,经过分析后选用 Logistic 回归模型;Persons 10则采用逐步逻辑回归(Stepwise-Logistic)的方法进一步研究此类问题。另一类是新兴的机器学习模型,比较典型的包
12、括 SVM(Support Vector Machine,支持向量机)、MLP 神经网络(Multi-Layer Perception,多层感知器)等。Cecchini 等11基于支持向量机(SVM)模型,通过 SVM-FK 方Open AccessOpen Access赵宇 等 DOI:10.12677/mm.2023.138129 1027 现代管理 法预测上市公司财务舞弊;Bao 等12则使用集成学习方法处理原始数据,实验结果显示,改进后机器学习模型的预测效果获得较大提升。传统的统计模型简单易懂,计算起来较为简便,计算结果的可解释性强,然而,该类模型在非线性数据方面的表现大多不太理想。机
13、器学习模型是近年来研究的热点,在财务舞弊甄别方面,该类模型的精确率、召回率、准确率和 F1 分数表现良好。3.研究设计与方法研究设计与方法 3.1.特征选取特征选取 特征选取是运用机器学习方法研究问题时不可或缺的一步,特征的数量和质量对研究效果影响显著13。Table 1.Feature classifications,names,and definitions 表表 1.特征分类、名称及定义 编号 特征分类 特征名称 特征定义 1x 舞弊机会 流通股占比 可流通股本/总股本 2x 年度股东大会出席率 出席股东大会的股东持有股份/总股本 3x 公司是否国有控股 国家控制=1,其他=0 4x 董
14、事会会议次数 所属年度董事会会议次数 5x 董事会规模 所属年度董事会人数 6x 董事长与总经理兼任情况 同一人=1,非同一人=0 7x 独立董事占比 独立董事总人数/董事会总人数 8x 舞弊压力 应收账款变动率(应收账款i/资产总计i)/(应收账款i1/资产总计i1)9x 固定资产折旧变动率 折旧发生额i1/(折旧发生额i1+固定资产净值i1)/折旧发生额i/(折旧发生额i+固定资产净值i)10 x 资产质量变动率 1 (流动资产i+固定资产净值i)/资产总计i/1 (流动资产i1+固定资产净值i1)/资产总计i1 11x 主营业务收入变动率 主营业务收入i/主营业务收入i1 12x 毛利率
15、变动率(主营业务收入i1 主营业务成本i1)/主营业务收入i1/(主营业务收入i 主营业务成本i)/主营业务收入i 13x 应收账款周转天数 360/主营业务收入/(应收账款+应收票据)14x 资产质量 1 (流动资产+固定资产净值)/资产总计 15x 盈余现金流量差(净利润 经营活动现金净流量)/资产总计 16x 现金流动负债比 经营活动现金净流量/流动负债 17x 舞弊借口 审计意见类型 标准无保留意见=0,保留意见=1,拒绝发表意见或无法表示意见=2,否定意见=3 18x 应计水平(净利润 经营活动产生的现金流量净额)/资产总计 19x 应计方向 应计水平为正=1,其他=0 20 x 管
16、理层平均年龄 所属年度已披露的高管平均年龄 21x 管理者自负 高管中薪酬最高的前三名薪酬之和/高管薪酬总额 22x 管理层性别比例 所属年度高管中男性所占比例 23x 高管人员持股 所属年度高管人员持股数的自然对数 24x 高管更迭 董事长或总经理发生变更=1,其他=0 赵宇 等 DOI:10.12677/mm.2023.138129 1028 现代管理 如果将全部特征信息输入机器学习模型,则会导致程序运行时间过长,且难以反映各特征重要性水平的细致差异,因此,需要对特征信息进行约简。本研究选取定性约简的方法,在以往研究基础上,基于舞弊三角理论,对机会、压力、借口共选取了 24 个特征。其中,
17、部分特征可直接使用,部分特征需经过简单计算再使用,如表 1 所示。3.2.方法选择方法选择 在众多 Bagging 集成算法中,随机森林具有较强的代表性,相较于部分机器学习模型,随机森林在处理不平衡样本时具有一定的优势14。根据本研究特点,在医药生物行业领域,进行财务舞弊并受到处罚的上市公司占全部公司的比重较小,财务舞弊甄别研究的样本是典型的非平衡样本。因此,本研究采用随机森林分类算法进行舞弊分类预测。基于舞弊三角理论,根据前述三类特征分别构建三个随机森林模型,分别为舞弊机会模型、舞弊压力模型和舞弊借口模型。将样本二分类为舞弊样本和非舞弊样本,通过机器学习库的对应接口得出模型对两类标签的分类概
18、率,以分类概率的大小反映其舞弊风险水平的高低。3.3.数据来源数据来源 首先,通过国泰安 CSMAR 中国上市公司违规处理研究数据库,查询“处罚公告披露年度”与“涉及违规年度”字段,初步获取最近五年涉嫌财务舞弊的上市公司名单。然后,结合同花顺数据中心和中国证券监督管理委员会公开信息,在查询其处罚年度具体公告后,剔除了非财务舞弊的违规公司。最终,确认进行财务舞弊并于 2018 年至 2022 年上半年受到中国证监会处罚的医药生物行业 A 股上市公司共计16 家,其中多家公司连续数年实施财务舞弊。非财务舞弊公司样本选择方面,因财务舞弊并受到中国证监会处罚的上市公司在整体上市公司中占比较小,且本研究
19、针对医药生物行业上市公司,如果按照 1:1 的比例选取对照控制样本会导致总样本数量过少,缺乏代表性,并可能会丢失相关重要信息。但如果将除财务舞弊样本之外的其他医药生物行业A 股上市公司全部作为控制样本,很可能出现过拟合的现象。此外,部分上市公司可能由于舞弊金额不大、舞弊性质不严重等原因未被监管机构发现或处罚。因此,本研究按照 1:4 的比例配比,为每一家舞弊公司对应挑选四家非舞弊公司作为控制样本。挑选条件为:所处行业为医药生物行业,所属年度与舞弊样本相同,总资产数额与舞弊样本接近,最近五年未被 ST、未涉嫌财务舞弊,数据整体缺失值小于 5%。经过上述筛选,确定财务舞弊公司 15 家(除康美药业
20、),非财务舞弊公司 60 家,共计 75 家。通过国泰安 CSMAR 数据库逐一搜索公司简称或股票代码,下载其对应年份以及前一年的系列特征。将财务舞弊公司或非财务舞弊公司每一年的系列特征及其标签(舞弊样本标签:1,非舞弊样本标签:0)作为一份样本,最终获取舞弊样本 38 份,非舞弊样本 152 份,共计 190 份。4.实验与分析实验与分析 4.1.实验过程实验过程 在具体的模型搭建和使用过程中,先导入 scikit-learn 中随机森林分类器的相关机器学习库,再通过imblearn.over_sampling 导入 SMOTE,完成前期准备工作。按时间先后顺序对样本进行排序,将前 80%划
21、分为训练集,后 20%划分为测试集,并使用 SMOTE 过采样技术对训练集进行平衡化处理。随后构建随机森林分类器模型,将模型内决策树的数量设置为 1000,向模型投入训练集进行训练再投入测试集测试模型效果。舞弊机会模型、舞弊压力模型和舞弊借口模型采用了相同的算法模型和采样技术,但相互独立、互不影响。赵宇 等 DOI:10.12677/mm.2023.138129 1029 现代管理 4.2.评价指标选取评价指标选取 在 scikit-learn 的随机森林分类器模型中,对应的 RFC 接口较多,可以向使用者反馈森林中的决策树结构、模型评估对象的参数和通过测试集检验出的平均准确度等信息。想要更加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 药业 财务 舞弊 甄别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。