e-works数字化企业网  »  文章频道  »  管理信息化  »  SCM及物流

供应链中的数据清理有哪些要点?

2023/7/10    来源:微信公众号《弘毅供应链》    作者:卓弘毅      
关键字:供应链  数据清理  
数据是数字化的根基,数据清理是数字化最基础的技术之一,各个行业都会用到它。供应链管理活动会处理大量数据,有许多数据清理的场景,今天就来聊一聊这个话题。
一、输入的是垃圾,输出的也是垃圾

       相信许多小伙伴都听过这样一句话“Garbage in,Garbage out”,中文的意思是“输入数据是垃圾,输出的结果也是垃圾”。这个垃圾不是我们日常生活中的废弃物,特指无用的、错误的数据。为什么会是这样?这需要从数据处理的过程说起。

       当我们从外部数据源获得数据后,根据一定的公式和模型对数据进行分析处理。源头是输入input,输出结果就是output。

       我们可以把整个计算过程想象成一个函数公式,有些是无比复杂的计算,比如物料需求计算,已经不能依靠手工计算,必须依赖于MRP系统。

       还有一些简单的线性函数,比如计算运输费用,一般会有一个基础起步价,然后根据距离乘以每公里的收费标准,得出这趟的运费是多少。

       在这过程中,A点和B点之间的距离是一个变量X,根据计算公式得出费用Y的值。如果我们获得的X值是错误的,那么计算出的Y值肯定也是错误的。输入的源头数据是错的,输出的结果必然也是没用的,这就是Garbage in,Garbage out的意思。

       数据错误的情况在供应链日常工作中比比皆是,比如盘点的时候清点错了,输入了错误的库存数量,那么库存总数和金额就是错的。我列举了几种典型的错误类型,欢迎大家对号入座。

       1.错误的数值

       表格中的无效值,比如加了空格和句号。有时候数据还会出现负值,例如库存,它怎么会是负数呢?可能是扣账的时候有一笔收货没有入库,就出现了负值。

       有些数值出现在了文本单元格里,自然就不能被统计到。还有合并单元格,会导致数据统计错误或缺失。

       2.重复项

       有些编号应该是唯一的,比如货物追踪号,一票货对应的是一个追踪号码,是一对一的关系。我们得检查有没有出现重复的情况。

       3.人为操作错误

       只要是手工输入的,就存在一定出错的概率。输入数据的人手指一滑,碰到了其他的键,就输错了。或是在排序的时候没有全部选中单元格,还有可能是在用公式的时候输错了。

       4.其他

       有些数据和大部分数据差距过大,比如在一个产品系列中,大多数产品单价在0.5元至10元之间,突然出现了一些超过100元的数据就很可疑。可能是系统里的报价前者是美元,后者是日元。

       我们需要仔细地查看数据,每次可能都有新发现,那种感觉就像是哥伦布发现新大陆一样,总会给人惊喜。

二、如何发现错误数据

       找出错误数据就像是在大海里捞针,如果没有合适的方法,可能看了半天数据只会看到满天的小星星。这里介绍几种方法供大家参考。

       1.使用公式

       首先要确保数据是有效的,因此要做一次的大排查,把数据中的无效值找出来。比如我们可以用求和或是查找的公式快速查看,根据公式结果判断是否有无效值。当一列数据求和结果为零时,说明这些数据格式不是数字。

       如果想要把无效值抓出来,在Excel中可以用vlookup公式,如果返回值是“#N/A”,说明这个记录有问题,可能是输入错误,或是有空格。

       2.使用目视化图表

       用图表可以快速查看是否存在异常数据,比如用散点图和柱状图目测是否有特别离谱的数值。

目视化图表

图1 目视化图表

       在上图中,在Y轴上方有几个游离在大部队之外的数值需要重点看一看。

       3.使用数据透视表

       数据透视表汇总看异常,Excel中的pivot table也就是数据透视表是个很好用的工具。拖拽起来方便,而且容易理解。

数据透视表

图2 数据透视表

       上图中,从左边的原始表格汇总出来的数据存在两个错误点。首先是两个产品号ABC50535没有被汇总,说明其中一个的产品件号存在无效值。

       其次,产品ABC35816汇总数量为零,但是左侧没有为零的数值,说明这个产品的库存数量单元格存在错误,可能是格式问题。

       4.分析变异系数

       使用变异系数反映数据离散程度,也叫离散系数。简单地说,在进行数据统计分析时,如果变异系数大于一定程度,比如大于1,意味着数据变化较大。这是进阶的内容,属于概率和统计分析的概念,具体就不在这里展开了。

三、有条理地清洗数据

       找到数据问题点后,最后就是要做数据清理了。具体的方法有许多种,每个人都有自己擅长的方式。在这里我们就讨论一下通用性的原则。

       1.先备份

       以前我在打电脑游戏的时候,一般在和大BOSS决战之前都要先存档,万一打输了就调档,这样我就不会Game Over。

       我们做数据清理之前也要先备份存档,万一没处理好,至少还有原始数据,否则后果不堪设想。

       在做改动之前,我们一定要先把旧的文件存好,在Excel里另存或是复制。我们修改过什么,也要留下记录。

       如果发现可疑数据,在清洗之前,需要和相关人员确认一下。比如价格汇率到底是美元还是日元,找到相关采购员问一下,确认后再进行修改。

       盘点库存的时候发现可疑数据,先不要急着改,再去现场盘点一次,然后再根据实际情况修改。万一自己是错的,把数据改了岂不是太过草率?

       2.做记录

       一定要把我们发现的问题和采取的措施完完全全地记录下来。对于所有的改动,我们都要确保能解释清楚。

       人的记忆力没那么好,好记性不如烂笔头,记录一下也没什么损失。以后万一有需要,我们还可以随时找到改动过的地方,撤销改动。所以说原始数据永远不要删,把它们复制一份保存好,把清理过后的数据用于以后的分析。

       原始的数据绝没有我们想象中那样干净,需要花点时间进行清洗,然后才能用于下一步的整理、汇总和分析,并进一步提炼出洞察。我们要时刻对外部数据持有怀疑态度,警惕地观察一切不合理的数据。
责任编辑:程玥
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐