加载中 ...
首页 > 个股 > 个股导读 > 正文

[600128股吧]数据挖掘过程中绝不能犯这11大错误

2024-01-31 15:16:12 来源:倾延资

1.缺少数据(LackData)

关于分类问题或预估问题来说,常常缺少精确标示的事例。

例如:诈骗侦测(FraudDetection):在上百万的买卖中,或许只要寥寥无几的诈骗买卖,还有许多的诈骗买卖没有被正确标示出来,这就需求在建模前花费许多人力来批改。

信誉评分(CreditScoring):需求对潜在的高风险客户进行长时刻盯梢(比方两年),然后堆集满足的评分样本。

2.太重视练习(FocusonTraining)

IDMer:就象体育练习中越来越重视实战练习,由于单纯的封闭式练习常常会练习时状况神勇,竞赛时乌烟瘴气。

实践上,只要样本外数据上的模型评分成果才真实有用!(不然的话,直接用参照表好了!)

例如:癌症检测(Cancerdetection):MDAnderson的医师和研讨人员(1993)运用神经网络来进行癌症检测,惊讶地发现,练习时刻越长(从几天延伸至数周),对练习集的功能改进十分细微,但在测验集上的功能却显着下降。

机器学习或计算机科学研讨者常常企图让模型在已知数据上体现最优,这样做的成果通常会导致过度拟合(overfit)。

处理办法:处理这个问题的典型办法是重抽样(Re-Sampling)。重抽样技能包含:bootstrap、cross-validation、jackknife、leave-one-out…等等。

3.只依靠一项技能(RelyonOneTechnique)

IDMer:这个过错和第10种过错有相通之处,请一起参照其处理办法。没有比照也就没有所谓的好坏,辩证法的思想在此体现无遗。

“当小孩子手拿一把锤子时,整个世界看起来便是一枚钉子。”要想让作业一无是处,就需求一套完好的东西箱。

不要简略地信任你用单个办法剖析的成果,至少要和传统办法(比方线性回归或线性判别剖析)做个比较。

研讨成果:依照《神经网络》期刊的计算,在曩昔3年来,只要1/6的文章中做到了上述两点。也便是说,在独立于练习样本之外的测验集进步行了开集测验,并与其它广泛选用的办法进行了比照。

处理办法:运用一系列好的东西和办法。(每种东西或办法或许最多带来5%~10%的改进)。

4.提错了问题(AsktheWrongQuestion)

IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的规范,但在实践项目中咱们却简直不看这个方针。为什么?由于那不是咱们重视的方针。

项目的方针:一定要确定正确的方针

例如:诈骗侦测(重视的是正例!)(Shannon试验室在世界长途电话上的剖析):不要企图在一般的通话中把诈骗和非诈骗行为分类出来,要点应放在怎么描绘正常通话的特征,然后据此发现反常通话行为。

模型的方针:让计算机去做你期望它做的事

大多数研讨人员会沉迷于模型的收敛性来尽量下降差错,这样让他们可以获得数学上的美感。但更应该让计算机做的工作应该是怎么改进事务,而不是只是偏重模型计算上的精度。

5.只靠数据来说话(Listen(only)totheData)

IDMer:“让数据说话”没有错,关键是还要记住另一句话:兼听则明,偏听则暗!假如数据+东西就可以处理问题的话,还要人做什么呢?

投机取巧的数据:数据自身只能协助剖析人员找到什么是明显的成果,但它并不能告知你成果是对仍是错。

通过规划的试验:某些试验规划中掺杂了人为的成分,这样的试验成果也常常不行信。

6.运用了未来的信息(AcceptLeaksfromtheFuture)

IDMer:看似不或许,却是实践中很简单犯的过错,特别是你面临不计其数个变量的时分。细心、细心、有条理是数据发掘人员的基本要求。

预告(Forecast)示例:预告芝加哥银行在某天的利率,运用神经网络建模,模型的精确率到达95%。但在模型中却运用了该天的利率作为输入变量。

金融业中的预告示例:运用3日的移动均匀来预告,但却把移动均匀的中点设在今日。

处理办法:要细心检查那些让成果体现得反常好的变量,这些变量有或许是不应该运用,或许不应该直接运用的。给数据加上时刻戳,防止被误用。

7.扔掉了不应疏忽的事例(DiscountPeskyCases)

IDMer:到底是“宁为鸡头,不为凤尾”,仍是“大隐约于市,小隐约于野”?不同的人生态度可以有相同精彩的人生,不同的数据也或许包含相同重要的价值。

反常值或许会导致过错的成果(比方价格中的小数点标错了),但也或许是问题的答案(比方臭氧洞)。所以需求细心检查这些反常。

研讨中最让激动的言语不是“啊哈!”,而是“这就有点奇怪了……”

数据中的不一致性有或许会是处理问题的头绪,深挖下去或许可以处理一个大的事务问题。

例如:在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而或许是新的营销时机。

处理办法:可视化可以协助你剖析许多的假定是否建立。

8.轻信猜测(Extrapolate)

IDMer:依然是辩证法中的观念,事物都是不断发展变化的。

人们常常在经历不多的时分容易得出一些定论。

即使发现了一些反例,人们也不太乐意抛弃原先的主意。

维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。

处理办法:进化论。没有正确的定论,只要越来越精确的定论。

9.企图答复一切问题(AnswerEveryInquiry)

IDMer:有点像我爬山时鼓舞自己的一句话“我不知道什么时分能登上山峰,但我知道爬一步就离结尾近一步。”

“不知道”是一种有意义的模型成果。

模型或许无法100%精确答复问题,但至少可以帮咱们估量呈现某种成果的或许性。

10.随便地进行抽样(SampleCasually)

下降抽样水平。例如,MD直邮公司进行呼应猜测剖析,但发现数据会集的不呼应客户占比太高(一共一百万直邮客户,其间超越99%的人未对营销做出呼应)。所以建模人员做了如下抽样:把一切呼应者放入样本集,然后在一切不呼应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集到达10万人。但模型竟然得出如下规矩:但凡居住在Ketchikan、Wrangell和WardCoveAlaska的人都会呼应营销。这显然是有问题的定论。(问题就出在这种抽样办法上,由于原始数据集现已依照邮政编码排序,上面这三个区域中不呼应者未能被抽取到样本会集,故此得出了这种定论)。

处理办法:“喝前摇一摇!”先打乱原始数据会集的次序,然后确保抽样的随机性。

进步抽样水平。例如,在信誉评分中,由于违约客户的占比一般都十分低,所以在建模经常常会人为调高违约客户的占比(比方把这些违约客户的权重进步5倍)。建模中发现,跟着模型越来越杂乱,判别违约客户的精确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的区分上。在把原始数据集区分为练习集和测验集时,原始数据会集违约客户的权重现已被进步过了)

处理办法:先进行数据集区分,然后再进步练习会集违约客户的权重。

11.太信任最佳模型(BelievetheBestModel)

IDMer:仍是那句老话-“没有最好,只要更好!”

可解说性并不一定总是必要的。看起来并不完全正确或许可以解说的模型,有时也会有用。

“最佳”模型中运用的一些变量,会涣散人们太多的注意力。(不行解说性有时也是一个长处)

一般来说,许多变量看起来互相都很类似,而最佳模型的结构看上去也千差万别,无迹可循。但需注意的是,结构上类似并不意味着功能上也类似。

处理办法:把多个模型集装起来或许会带来更好更安稳的成果。

数据发掘最重要的要素是剖析人员的相关事务知识和思想形式。丰厚的事务知识是规划有用的相关变量的必要条件,而剖析人员的思想形式从别的一个方面也保证了规划变量的结构化和完好性。所以咱们在把握丰厚的事务知识一起,假如可以依照正确的思想形式去思考问题,将会发现处理问题并不是很困难的。
数据剖析,数据发掘,模型,idmer
猜你喜欢的标签:钱宝网 银行贷款怎么还款

“走马消息,分享精选全球有价值的财经新闻”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 中国8月CPI年率2.3%,预期2.1%,前值2.1%。中国8月PPI年率4.1%,预期4.0%,前值4.6%。

    08:00
  • 【统计局解读8月CPI:主要受食品价格上涨较多影响】从环比看,CPI上涨0.7%,涨幅比上月扩大0.4个百分点,主要受食品价格上涨较多影响。食品价格上涨2.4%,涨幅比上月扩大2.3个百分点,影响CPI上涨约0.46个百分点。从同比看,CPI上涨2.3%,涨幅比上月扩大0.2个百分点。1-8月平均,CPI上涨2.0%,与1-7月平均涨幅相同,表现出稳定态势。

    08:00
  • 【 统计局:从调查的40个行业大类看,8月价格上涨的有30个 】统计局:从环比看,PPI上涨0.4%,涨幅比上月扩大0.3个百分点。生产资料价格上涨0.5%,涨幅比上月扩大0.4个百分点;生活资料价格上涨0.3%,扩大0.1个百分点。从调查的40个行业大类看,价格上涨的有30个,持平的有4个,下降的有6个。 在主要行业中,涨幅扩大的有黑色金属冶炼和压延加工业,上涨2.1%,比上月扩大1.6个百分点;石油、煤炭及其他燃料加工业,上涨1.7%,扩大0.8个百分点。化学原料和化学制品制造业价格由降转升,上涨0.6%。

    08:00
  • 【日本经济已重回增长轨道】日本政府公布的数据显示,第二季度经济扩张速度明显快于最初估值,因企业在劳动力严重短缺的情况下支出超预期。第二季度日本经济折合成年率增长3.0%,高于1.9%的初步估计。经济数据证实,该全球第三大经济体已重回增长轨道。(华尔街日报)

    08:00
  • 工信部:1-7月我国规模以上互联网和相关服务企业完成业务收入4965亿元,同比增长25.9%。

    08:00
  • 【华泰宏观:通胀短期快速上行风险因素主要在猪价】华泰宏观李超团队点评8月通胀数据称,今年二、三季度全国部分地区的异常天气(霜冻、降雨等)因素触发了粮食、鲜菜和鲜果价格的波动预期,但这些因素对整体通胀影响有限,未来重点关注的通胀风险因素仍然是猪价和油价,短期尤其需要关注生猪疫情的传播情况。中性预测下半年通胀高点可能在+2.5%附近,年底前有望从高点小幅回落。

    08:00
  • 【中国信通院:8月国内市场手机出货量同比环比均下降】中国信通院公布数据显示:2018年8月,国内手机市场出货量3259.5万部,同比下降20.9%,环比下降11.8%,其中智能手机出货量为3044.8万部,同比下降 17.4%; 2018年1-8月,国内手机市场出货量2.66亿部,同比下降17.7%。

    08:00
  • 土耳其第二季度经济同比增长5.2%。

    08:00
  • 乘联会:中国8月份广义乘用车零售销量176万辆,同比减少7.4%。

    08:00
  • 央行连续第十四个交易日不开展逆回购操作,今日无逆回购到期。

    08:00
  • 【黑田东彦:日本央行需要维持宽松政策一段时间】日本央行已经做出调整,以灵活地解决副作用和长期收益率的变化。央行在7月政策会议的决定中明确承诺将利率在更长时间内维持在低水平。(日本静冈新闻)

    08:00
  • 澳洲联储助理主席Bullock:广泛的家庭财务压力并非迫在眉睫,只有少数借贷者发现难以偿还本金和利息贷款。大部分家庭能够偿还债务。

    08:00
  • 【 美联储罗森格伦:9月很可能加息 】美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:鉴于经济表现强劲,未来或需采取“温和紧缩的”政策。

    08:00