微信 手机版
首页 > 热点 > 滚动 >
【报资讯】如何进行数据质量管理 2023-04-11 13:02:02  来源:数通畅联

随着市场发展的日趋成熟,“数据资产化”的概念逐步深入人心。面对指数级增长的数据量,如何满足不同业务和产品的需求、如何管理数据并从中发掘潜在机遇?这一切都建立在数据质量提升与治理的基础之上。数据质量与来源不统一、交换与共享困难、应用和管理机制低效,以及隐私、数据安全等隐患,都是数据治理需要解决的重要问题。通过扎实的数据治理,才能 迈向数据智能应用

在每一个企业中,每个部门每天都会产出其对应的数据,根据产出的这些数据就可分析给每个部门下达的任务是否达标。所以,数据在企业中起着至关重要的作用。如何进行数据质量管理,积累对企业经营有价值的数据是企业必须直面的问题。


(相关资料图)

数据质量定义

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它可以以文字、数字、图像等多种形式存在,目前我们可以 将一切通过电子形式记录的信息统称为“数据”

1.何为数据质量

数据质量的常用评估标准按照 可获得度、可理解度、可信度、可用度 四个不同的方面进行了描述。可获得度指用户获得数据的可能性和便利程度,在收集数据之前,用户必须要考虑能否得到、怎样得到数据。可理解度是指数据必须是用户可以理解的数据,包括语法、语义等,使用户可以理解数据,从而才可挖掘数据,这是基础的要求。

可信度是对数据的真实性的测度,可信度相对较抽象、主观,可具体再划分为准确性、一致性、完整性、唯一性、可靠性等具体的维度进行评估。可用度是指数据对于用户的效用的大小,数据是准确的但是不一定有意义,或者对某一群体用户有用,对其他用户没有需求和效用,包括相关性、时效性、可比性、有效性等。同时,它们也相辅相成,如果数据准确性差,那么它的可靠性、有效性也就大打折扣,如果数据能够做到准确、一致、有时效,那它必然也比较有可靠性。

2.数据评价标准

1. 完整性

指的是按照数据规则要求,数据元素被赋予数值的程度。例如互联网 + 监管主题库中,监管对象为特种设备时,监管对象标识必须包含企业统一社会信用代码 + 产品品牌 + 设备编码,监管对象为药品时,监管对象标识必须包含药品名称 + 批准文号 + 生产批号。

2. 一致性

一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是一项数据存在特定的格式。

3. 准确性

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。 数据质量的准确性可能存在于个别记录,也可能存在于整个数据集。

4. 及时性

及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。

3.无用数据形式

1. 孤立的数据

又称“数据筒仓”,这些独立的数据组要么属于特定的业务单元,要么包含在特定的软件中。隔离数据的问题是组织的其他部分无法访问它,因为该软件可能与任何其他内容不兼容,或者业务单元严格控制用户权限。虽然这些数据可能提供有用的甚至是非常有价值的洞察力,因为它不容易被访问,但是业务不能对它形成一个完整的图景,更不用说从中受益了。

2. 过时的数据

企业结构庞大而复杂,有多个团队和部门。因此,跨组织收集数据通常是一个缓慢而费力的过程。到收集所有数据时,如果不是大多数在相关性方面已经落后,会大大降低了其对组织的价值。

3. 复杂的数据

数据来自许多不同的来源和不同的形式。数据来自智能手机、笔记本电脑、网站、客户服务交互、销售和营销、数据库等。它可以是结构化的也可以是非结构化的数据。理解输入的数据量和数据种类,并使其标准化供每个人使用是一个资源密集型的过程,许多组织没有足够的带宽或专门知识来跟上。

数据中台方案

在介绍数据中台的质量管理规范前,针对数据中台的整体情况、集成架构、数据架构做一个简单的说明。整体架构对数据中台涉及相关产品及技术进行说明,集成架构对数据中台基础数据及数仓分析指标信息主要集成关系进行说明,数据架构对数据中台的整体数据流向进行说明,具体架构信息如下。

1.方案整体介绍

数据中台主要帮助进行全链路业务、全生命周期的数据管理,基于建立在数据仓库和数据平台之上,通过数据清洗导入、数据同步/分发、数据处理、分析等技术,对企业内外部海量数据进行采集、计算、存储、 加工、分析等一系列活动,从而为企业的业务决策提供数据方面的参考, 用数据为公司业务、营销、管理赋能

1.数据中台对企业中的基础数据进行集中管理,统一进行清洗、校验和丰富,建立统一、标准、完整的基础数据体系,并为其它系统提供标准的基础数据;

2.同时基础数据信息会为数据分析提供基础数据支持;通过数据中台的企业数据总线从各个系统抽取数据并同步至数据中台;

3.数据中台 支持基础数据校验、清洗和汇聚 ,并对其它业务系统进行基础数据分发;

4.在数据分发过程中会将基础数据作为数据分析模块的维度信息提供,在数据中台内部通过企业数据总线进行业务数据流程同步;

5 .数据分析平台结合ESB企业数据总线从各系统进行数据抽取、加工、转换 ,并汇聚存储到数仓中,构建企业的数据仓库,基于数仓通过图形化、拖拽式配置构建分析主题,实现快速、精准分析,支持领导层的决策。

2.集成架构说明

数据中台在通常情况下只对数据进行消费,所以在数据分析或数据治理过程中,业务数据及相关基础数据都会从其它业务系统中抽取, 通过企业数据总线对业务数据及基础数据进行数据的加工或数据同步 ,在数据分析过程中由基础数据作为标准的数据分析维度,业务数据与基础数据加工汇总后作为分析模型的数据分析指标最终进行数据的展现。

1.数据中台中每类主题需要分析的业务数据,都会有对应的来源系统作为数据源头;

2.通过提供从库或直接获取数据表的访问权限,通过ESB进行数据抽取将需要分析的数据同步至ODS中;

3.将统一的标准基础数据(组织、人员等)进行基础数据的治理, 进行数据的建模、数据的清洗 等,将这些数据下发至下游系统中;

4.基础数据中的数据作为数据分析的维表同步至数仓中;

5.最终维表、ODS表通过汇总、分析、计算等实现数据整合,以及最终的图形化展现。

3.数据架构说明

数据中台进行基础数据管理,在数据分析过程中通过抽取源头系统的业务数据与基础数据系统中的维度数据,通过数据总线对数据进行加工汇总,通过 业务系统—>ODS,ODS—>数据仓库 ,数据仓库加工汇总后对业务指标整合分析最终进行可视化展现。

1.由业务系统提供业务数据,ESB通过数据集成、业务系统接口调用或者DAP通过读取源库等方式,将源头系统的业务数据抽取到ODS中,其中 MDM基础数据平台提供基础数据,业务系统提供业务数据

2.ODS中的基础数据、业务数据,通过ESB的聚合流程按照类别汇聚到数仓的维表或事实表中;

3.维表与事实表中的数据根据业务主题、业务指标,再次进行加工汇总,形成数仓中的汇总事实表;

4.DAP的分析模型根据汇总数据进行整合计算;

5.结合分析模型整合计算的数据与DAP预置的展现组件,形成直观的图形、图表展现,最终配置成各类展现看板、报表等,完成可视化效果的最终呈现。

数据质量管理

针对数据质量管理,将企业需要管理的基础数据和分析时所需要用到的业务数据进行质量管理,数据中台在数据归集时对垃圾数据和重复数据进行清理和调整,最终保证数据中台所管理的数据是干净的数据。

1.数据清洗说明

数据清洗的主要目的是将历史数据中重复的、不规范的数据基本信息进行整理、合并,提高数据信息的准确度,进而实现数据的统一、集中管理,实施标准化应用,最终达到 数据同源、规范共享、应用统一、服务集中 的目的。

1. 残缺数据 :此类数据主要是缺少某些应包括的信息,如组织编码信息、组织分类信息、人员职务信息、供应商名称、分公司名称、客户区域信息缺失等。那么对于这一类型的数据在管理之前就需要过滤出来,将数据反馈至源头系统并在规定的时间内补全,或者设定默认值,处理完成后再统一进行管理;

2. 错误数据 :这类数据的原因是业务系统完善接收输入后没有判断直接写入背景数据库,如数值数据输成全角数字字符、字符串数据、日期格式不正确、日期越界等。这种类型的数据还需要进行分类,对于类似于全角字符、数据前后出现不可见字符的问题数据信息,针对上述数据错误数据需要甄别挑选出来,交给业务主管部门,要求限期修改,更改后再统一进行管理;

3. 重复数据 :针对重复数据在数据清洗之前可以为其设定数据清洗规则,例如供应商数据信息可以设置其统一社会信用代码为唯一校验,在数据清洗时将其甄别出来反馈至集团业务部门进行处理,调整后再统一进行管理。

2.数据巡检说明

数据巡检功能主要是将导入的或者现有的数据进行重复检查操作,通过配置巡检的字段和相似度得到一系列的重复数据,进行排除操作从而得到高质量的数据。 根据校验规则定义数据的巡检方式 ,通过配置巡检时间定义巡检频率、业务审计角色、巡检方式及巡检频率定期对基础数据的数据质量进行检测和维护。

3.二者区别联系

MDM基础数据平台对于数据质量的管理主要有两种途径: 数据巡检和数据清洗 。两者的区别在于数据巡检是针对已经存在于MDM中的数据,筛选出相似数据,相似度和相似字段可以在功能建模中进行配置;而数据清洗是在数据进入到MDM之前对数据进行校验,包括重复校验以及基于各种校验规则对数据进行清洗。

数据集成管理

针对数据集成管理,在数据中台中数据分为基础数据和业务数据,这两种数据在集成过程中都需要进行管理,很多情况集成的流程会由数据中台内部处理,主要针对基础数据的集成、业务数据同步方式、业务数据加工方式的管理。

1.基础数据同步

数据同步过程数据中台与源头系统明确对接方式,如: 接口同步,提供视图 等。通过推拉的模式获取到本次同步的数据信息,数据中台内部处理后将数据同步至主数据模块。实现产品的最大程度兼容,也能使同步数据存储透明,当同步数据异常时,开发人员能快速定位问题源头,从而迅速解决。

2.基础数据分发

数据中台提供标准的数据分发方式 ,由业务系统提供对应的数据接收接口,由数据中台进行调用。如果业务系统无法提供相关接口,也可以提供对应的数据写入方式,包括接口写入、数据库写入等由数据中台统一管理。分发过程中由数据中台发起流程,分发数据会提交至相关的审批人员,审批人员通过后会将数据下发。

3.业务数据处理

业务数据通过源库读取、接口同步、流程同步的方式将数据同步到ODS,在同步之前需要与源头系统沟通通过哪种方式进行数据获取。在数据拉取前,明确拉取的ODS数据最终是成为分析维度还是最终纳入基础事实表。

数仓中的基础事实表与维表通过来源系统给出的指标计算需求,进行汇总事实表加工。通过 数据集、立方体、业务类报表 进行多维度分析。最终通过数据中台预置的组件进行数据的可视化展现。

>>>>业务系统到ODS

ODS(Operational Data Store)面向主题的数据运营层也叫ODS层 ,ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、清洗、传输(ETL/ESB)装入ODS库。ODS的数据,总体上大多按照源头业务系统的分类方式而分类。

一般来讲,为了考虑后续可能需要数据追根溯源问题,因此对于这一层不建议做过多的数据清洗工作,原封不动地接入业务系统原始数据即可,为数据拉取定义时间戳或数据对比字段,便于ODS到数仓的数据增量同步。针对数据的清洗、去重、异常值处理等过程建议放在数仓处理。

>>>>ODS转换到数仓

ODS层中的业务数据转换至数仓一般保持和ODS层一样的数据粒度,主要提供一定的数据质量保证。这个过程是对ODS内的数据按照主题进行划分,并且对数据进行数据的清洗,同时,为了提高数据明细层的易用性,该层会进行维度的提炼,将维度整合至维度表中, 使数仓内的数据均采用黄金编码

>>>>汇总事实表加工

汇总事实表加工是指在维表、基础事实表的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。同时也会做一部分的数据聚合,将相同主题的数据汇集到一张表中, 提高数据的可用性 。简单来讲,就是对基础表的基础指标进行计算,按照通用的核心维度进行聚合操作,算出相应的统计指标,在根据这个汇总表生成数据集、立方体以及综合业务报表进行多维度分析,在增加开放的OpenAPI,使数仓数据能够实时共享。

数据服务管理

针对数据服务管理,数据中台主要管理数据分析模块服务及主数据管理平台当中的服务, 数据服务主要是为了弥补数据开发和应用开发之间由于开发速度不匹配,而导致响应力跟不上的问题。

1.数据接收服务

数据接收服务是指各业务系统将业务数据同步至ODS层的过程 ,数据中台根据客户业务系统建设情况评估是否存在“数据孤岛”情况,如果存在该情况需将各业务系统采集整合,数据的采集是通过数据中台数据接收服务完成,数据中台基于业务系统数据格式构建ODS层当中的数据表,业务系统可以调用数据中台的各类表单数据接收服务将数据存储在数据中台。

2.数据查询服务

数据查询服务是将数据中台数据分析模块中的数据集以服务的方式对外发布 ,数据集是数据中台数据的集合,各业务系统调用该服务后以表格形式获取数据,每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员,基于数据查询服务获取数据使各部门快速生成业务报表。

3.数据统计服务

数据统计服务是将数据中台数据分析模块中的立方体以服务的方式对外发布 ,立方体主要由数据集构成,将数据集以标准维度进行聚合汇总,集团可以通过数据中台数据统计服务考核各公司的财务、运营等情况进行多维度分析。

4.数据指标服务

数据指标分为两类,一类是 原生指标 ,一类是 衍生指标 ,通俗来讲就是基础指标和加工后的指标,而加工过后的指标就是衍生指标,数据指标服务更多是指将衍生指标以服务方式对外发布,通过指标来进行集团财务、运营、成本等多层面考核,各业务系统需要指标信息数据时可以通过数据中台指标服务获取。

数据管理意义

我们正处于一个飞速发展的信息时代,随着大数据时代的来临,在企业的日常的和经营中,数据无处不在,数据的汇总、整合、分析、研究对企业的发展、决策有着十分重要的作用。

1.提高数据质量

通过数据总线,实现一致性的企业数据视图,大大降低数据交互访问的复杂性。基于面向服务架构的标准化数据服务, 实现访问的透明化 。数据自动化服务实现了统一的业务访问标准,主动分发服务保证了相关业务目标系统数据的变更同步性,大幅降低数据的集成和共享成本,有效降低人为因素所产生的数据问题,提高数据应用质量。

2.构建标准体系

通过数据管控体系和数据运维体系咨询服务,对组织架构、运营模式、管控流程、角色与职责进行明晰的定义。通过标准业务流程驱动,强化数据中台的作用,打造企业信息基础数据集成和共享平台,实现企业数据层面的战略规划管理。支持集团化多组织结构的复杂管理层级,能够构建在多组织结构上的应用系统,兼顾集团公司整体管理和下属企业作业流程之间的平衡, 实现流程驱动和数据管控

3.实现数据汇聚

企业在经营过程中往往涉及 生产、销售、仓储、运输 等多个环节。通过数据中台能整合现有业务数据,打破数据孤岛,让企业内部各个业务系统的数据实现互联互通,实现业务数据的快速汇聚,集中展现,及时把控企业的运营情况,提高数据价值,有利于企业经营体系的优化。

4.支撑经营决策

在数据中台方案中,强调数据的价值,数据资产的管理,业务主题、业务指标的梳理与分析,数据分析的价值终极的体现,就是作为决策的支撑,即通过各种维度数据对比、多维分析、趋势分析等诸多分析方法,对“数据”进行价值的挖掘,形成公司业务实现增长、降本增效,提供最终的解决方案,创造商业价值。所有 数据分析的最终目的是指导业务决策,实现增长、降本增效

从企业角度而言,如何应对全球化、精益化、服务化、智能化和协同化的趋势发展,将数据信息转变为战略资产是一项艰巨的任务。但企业面对数据,不应该变得浮躁,急于求成。在企业数据治理这条曲折而漫长的道路上,这条路上讲究的不是谁快,而是谁稳,信息化意识、整体规划、构建前提、严格选型、协作配合缺一不可,只有这样,才能不偏离企业发展的战略目标,在企业信息化保卫战中立于不败之地,同时选择合适的伙伴,对于挖掘数据价值,赋能业务发展非常重要。

数据质量提升与治理是当前数字化浪潮下企业转型升级的关键 ,支撑所有业务达到难以触及的巅峰。随着人工智能、机器学习等更多技术的逐步普及,以及企业内信息系统构建越发完善,我们坚信这段隐藏在业务层后面的看不见的征程,必将通往星辰大海。

本文由 原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~

关键词:

热点文章
热点 图片