• 中文核心期刊
  • 中国科技核心期刊
  • ISSN 1007-6336
  • CN 21-1168/X

基于粗集理论的海洋数据质量检验方案多属性决策法

陈括, 匡翠萍, 王蕾, 裴军峰, 杨生强, 冯涛

陈括, 匡翠萍, 王蕾, 裴军峰, 杨生强, 冯涛. 基于粗集理论的海洋数据质量检验方案多属性决策法[J]. 海洋环境科学, 2019, 38(2): 233-237. DOI: 10.12111/j.mes20190210
引用本文: 陈括, 匡翠萍, 王蕾, 裴军峰, 杨生强, 冯涛. 基于粗集理论的海洋数据质量检验方案多属性决策法[J]. 海洋环境科学, 2019, 38(2): 233-237. DOI: 10.12111/j.mes20190210
CHEN Kuo, KUANG Cui-ping, WANG Lei, PEI Jun-feng, YANG Sheng-qiang, FENG Tao. Marine data quality inspection plan based on rough set of multiple attributes decision[J]. Chinese Journal of MARINE ENVIRONMENTAL SCIENCE, 2019, 38(2): 233-237. DOI: 10.12111/j.mes20190210
Citation: CHEN Kuo, KUANG Cui-ping, WANG Lei, PEI Jun-feng, YANG Sheng-qiang, FENG Tao. Marine data quality inspection plan based on rough set of multiple attributes decision[J]. Chinese Journal of MARINE ENVIRONMENTAL SCIENCE, 2019, 38(2): 233-237. DOI: 10.12111/j.mes20190210

基于粗集理论的海洋数据质量检验方案多属性决策法

基金项目: 

国家海洋局东海分局青年基金项目 201614

国家重点研发计划-"海洋环境安全保障"重点专项 2016YFC1403200

详细信息
    作者简介:

    陈括(1988-), 男, 河北秦皇岛人, 工程师, 在读博士生, 主要研究方向为海洋数据分析与检验, E-mail:chenkuo@ecs.mnr.gov.cn

  • 中图分类号: TP391.7

Marine data quality inspection plan based on rough set of multiple attributes decision

  • 摘要:

    针对大规模复杂、不确定的海洋数据,决策者如何选择适合的数据质量检验方案是制约其快速应用的重要问题之一。本文将粗集理论引入海洋数据质量检验方案的优化选择过程中,对不同方案的残差与接收概率进行离散处理并求出泛化值。计算不同属性对决策属性的依赖度,进而确定每种条件属性的权重,最终优化海洋数据质量检验方案,以供决策者进行选择。最后通过对某海域监测站点的海洋数据进行实验,验证了方法的可行性。

    Abstract:

    When managers facing a large number of complex and uncertain marine data, how to make a choice of those data quality inspection plans has become one of important problems for application.In this paper, the rough set theory was brought into optimal selection process of the marine data quality inspection plans.Firstly, the residuals and receiving probability was discretized for each inspection plans, and the generalization value was calculated.Then computed the dependence degree of different attributes for decision, and determined the weights of each attributes.Eventually the marine data quality inspection plans were optimized for managers to choose.The method was verified by marine data of monitoring sites in a certain sea area.

  • 随着世界各国海洋事业的逐步发展,海洋信息化建设已成为发展海洋事业的重要组成部分,而数字海洋是实现海洋信息化的重要措施。近年来,海洋强国战略的提出,进一步促进海洋立体化观测系统的建立,催生了多源、多样、大规模海洋数据的生成。

    随着海洋数据“量”的几何级增长,海洋数据“质”的问题也不容小觑。如何进一步提高海洋数据质量检验时效性,是当前国内外研究者关注的核心问题。Stephen [1]针对海洋环境监测数据,主要面向海洋监测工作质量控制和管理方法进行了初步探索。郭越[2]面向海洋数据质量监控体系的构建及监控方法必要性进行了一定研究。这些专家学者针对不同类型的海洋数据进行了质量检验研究,但是面对类型复杂的海洋大数据时,如何确立其质量检验方案并对其质量进行控制的相关研究较少。张铁艳[3]采用统计检验法对海洋测量资料数据进行质量检验。史静涛[4]针对海洋环境实时观测数据,利用极值控制,t检验法等方法对海洋数据质量检验方案进行了实验研究。黄冬梅[5]利用skyline的方法对海洋数据质量检验方案进行了筛选,最终得出一个相对优化的质量检验方案。

    海洋数据质量检验方案的优劣与其检验数据和具体应用场景高度相关。因此决策者在决策的时候需要至少两种以上的备选方案,根据方案的优良程度,以及决策者自身经验和数据应用场景选择决策。筛选不同备选方案的过程涉及到不确定多属性决策的问题,而粗集理论则为解决不确定多属性决策提供了一个有效的方法。

    本文的主要贡献有:(1)引入粗集理论对不同质量检验方案的接收概率和残差进行离散泛化处理得出不同条件属性依赖度;(2)通过客观属性权重分配优化出两个以上优选方案供决策者选择,结合实际情况实现最终决策。

    粗集理论(rough set)是20世纪80年代初由波兰华沙理工大学Pawlak提出的一种处理不完整、不确定、不一致数据的表达、学习、归纳方法[6]。粗集作为一种模糊数学研究方法,已经被广泛应用在机器学习、近似推理、人工智能、模式识别等众多领域。张维英[7]运用粗集对船型方案数据进行分析,进而对船型方案各属性进行了模糊离散处理,对不同船型方案做出了优化选择;童一飞[8]通过信息公理与粗集理论对网格资源进行加权和优选,验证了该方法的有效性。

    粗集作为一种解决模糊问题的方法,其研究对象由多值属性集合描述,对于每个对象及其属性都有一个值作为其描述符号,因此对象、属性和描述符是表达决策问题的三个基本要素[9]

    粗集权重分析主要是通过知识系统中各属性之间的依赖关系,通过条件属性对决策属性的依赖度来确定权重。其知识表达系统定义为:S=(UAVf),其中U是论域,为对象的集合;A作为属性集合,其包括条件属性C和决策属性D,且A=C×DV为属性值的集合;f则表示U×AV的映射信息。

    当确定粗集条件属性和决策属性等信息后,通过正域关系可计算出不同粗集属性依赖度。进而作为描述不同属性权重的基础。

    粗集属性依赖度公式如下[10]

    (1)

    式中:CARD为集合的基数;POSj为正域;U为对象集合。

    将海洋数据的质量检验方案记为S(Nnc),其中N为批量,即待检验的海洋数据的总体数量;n为样本量,即从批量中抽取的用来检查的海洋数据样本数量;c为接收数,即样本中允许出现的海洋数据不合格数的最大值。从待检验海洋数据检验批N中抽取n个数据,对其质量进行逐一检查;记录结果数据中的不合格品数为d,若海洋数据不合格数小于等于接收数c,则该批海洋数据达到了精度要求,反之则认为该批海洋数据存在质量问题。

    针对每一批待检验海洋数据,存在一个接收质量限AQL(acceptance quality level)和极限质量限LQL(limit quality level)。接收质量限(AQL)[11]是当一批连续系列被提交验收检验时,可允许的最差过程平均质量水平,是可以接收和拒绝接收的过程平均界限值。极限质量限(LQL)[12]指为了抽样检验,限制在某一低接收概率的质量水平,它是在抽样检验中对不应接收的批质量的最小值。

    基于超几何分布模型,可以得出质量检验方案的接收概率记为L(p)。

    (2)

    因此,基于AQL的接收质量限接收概率残差Ea,和LQL的极限质量限接收概率残差Eb,由下式给出:

    (3)

    (4)

    式中:round为取整函数;α为生产方风险,当海洋数据的质量达到质量接收限AQLEa为接收质量限接收概率残差;β为使用方风险,当质量水平低于极限质量限LQLEb为极限质量限接收概率残差[13]

    这时我们得到4个质量检验方案的条件属性,分别是AQL的接收概率L(pa)和LQL的接收概率L(pb)以及AQL的残差EaLQL的残差Eb。下面通过具体实验,来展示通过粗集理论对海洋数据质量检验方案的条件属性进行处理并得出结论的过程。

    本研究采用的吕四海洋环境监测站和洋口港海洋环境监测站的养殖区域监测数据,监测区域空间范围北起32.92°N,南至31.81°N,西起120.91°E,东至121.93°E的海域,其中包括启东、如东、海门、牛角沙、腰沙等多个养殖监测区域,数据选取时间范围为2015年1月~12月,其每一点位包括其矢量要素数据、属性要素数据和养殖信息数据。如图 1所示。

    图  1  养殖区分布信息
    Fig.  1  Distribution information of breeding area

    通过格式、日期、位置检验对本批数据基础规范性进行初筛,选出本次研究区域内记录规范数据批量N共计1392个。结合GB/T 2828中“样本量字码表”,可得出待检验批量N在1201~3200区间范围,进而可确定本次检验水平为K级,查表计算得出本次数据预期接收概率Pa=0.02,Pb=0.1。

    根据GB/T 2828.1-2012计数抽样检验程序标准百分比抽样方法[14],采用4种不同的抽样比f对海洋数据进行质量检验,样本量n分别取批量N的5%,10%,15%和20%,接收数c从0起依次递增取不同的值。

    通过GB/T 2828中“正常检验抽样方案表”查询不同抽样比所对应的较为合适的K级数值样本量n与接收数c,进而初步确定本次质量检验方案S(Nnc)待决策选项。

    利用超几何分布模型公式(2)以及残差公式(3)和(4)可计算得出不同检验方案所对应的接收概率值L(pa),L(pb),以及残差值EaEb

    初步得出监测点位数据批量N中的不同百分比样本量的质量检验方案及其属性值,如下表所示。

    表  1  不同百分比质量检验方案及其属性
    Tab.  1  Different percentage of quality inspection plans and attributes
    下载: 导出CSV 
    | 显示表格

    此时由查表选出的检验方案都是相对优秀的方案,如果用传统方法对这些方案的残差进行逐一比较,虽然能够得出一个优化方案,但却可能会删掉同等优秀的检验方案,无法让决策者根据实际情况和经验灵活选择。

    因此,文章引入粗集多属性模糊优选的方法,对每一个方案的不同属性进行离散处理,然后根据条件属性类对决策属性类的依赖度来确定客观权重,最终对每个方案的优劣度进行比较来优选方案。

    首先对表 2中的4个资源条件属性值进行整理描述。

    表  2  检验方案条件属性信息表
    Tab.  2  Condition attribute information of inspection plans
    下载: 导出CSV 
    | 显示表格

    采用等宽法对评价指标属性进行离散化,离散结果用3、2、1、0分别表示优、良、可、劣4个好坏程度。区间数K=4,分别对L(Pa)、L(Pb)、EaEb进行离散。以L(Pa)为例,根据其最大值nmax和最小值nmin来计算区间宽度,计算出的区间宽度值为0.0177;根据区间宽度将区间[0.9128, 0.9837]分为[0.9128,0.9305)、[0.9305,0.9428)、[0.9428,0.9659)、[0.9659,0.9837],将这4个离散后的区间分别泛化为“0(劣)”、“1(可)”、“2(良)”、“3(优)”表示。同理可得其余属性离散后的泛化值,结果如下表所示。

    表  3  检验方案属性泛化值
    Tab.  3  Attribute generalization value of inspection plans
    下载: 导出CSV 
    | 显示表格

    从表中可以明显看出6号方案在此集中各项泛化值均为0(劣),表示此方案在这批次中没有任何区分度和竞争力,故剔除不予考虑。此时集合的基数为CARD(U)=6,同时设决策属性为D

    计算其余方案的资源泛化值的各属性指标近似集,由上述定义与表格所得如下:

    U/ind(Pa)={(1, 4, 7),2,(3, 5)};

    U/ind(Pb)={(1, 3),2,(4, 5), 7};

    U/ind(Ea)={(1, 2, 4),(3, 5),7};

    U/ind(Eb)={(1, 2, 4),3,5,7}

    剔除近似集可得

    POS(Pa)(D)={2};

    POS(Pb)(D)={2,7};

    POS(Ea)(D)={7};

    POS(Eb)(D)={3, 5, 7}

    由公式(1)可得各个属性的依赖度为:

    由客观权重计算公式[15]

    (5)

    可得出每一项属性的权重值为:

    将属性的权重值结合表 3条件属性泛化值计算结果,可得出各项属性值与权重值乘积以及决策属性D的最终值。如下表 4所示。

    表  4  检验方案决策属性最终值
    Tab.  4  Final value of inspection plans decision attributes
    下载: 导出CSV 
    | 显示表格

    由表 5可以得出D1D2的值均大于2,为优等级,D3D4的值在1.5~2.0之间也是良好范围,而D5D7则相对较差,各检验方案结果比较如图 2所示。

    图  2  检验方案决策属性值对比
    Fig.  2  Inspection plans decision attribute value contrast

    因此1号和2号检验方案,既S(1392, 69, 3)和S(1392, 139, 5)同为这批海洋数据中相对优化的质量检验方案,其中1号方案比2号方案的样本量小,故在检验时间与费用上消耗相对较少,而2号方案在精度上相对1号方案更有优势。决策者可以根据具体费用与精度需求等不同实际情况进行权衡选择。

    文献[5]中通过skyline的块嵌套循环算法尝试计算选出为最优方案,虽然方法可行,但是结果过于绝对,没有充分考虑到决策者的经验和数据本身的重要性,而单纯通过GB/T 2828选出的结果也具有大批量过严,小批量过宽的劣势[16]。本文通过粗集理论对海洋数据质量检验方案进行模糊优选,此结果与文献[5]中结果以及GB2828抽样标准相比,具有以下优点:

    (1) 该方法利用数据本身特性进行优选,不完全依靠经验,便于计算实现优选。

    (2) 引用粗集理论中的依赖度对各属性进行权重分配,增加了选择的合理性,在选择时更为客观。

    (3) 此方法将各个方案的优势度列出比较,决策者可根据具体情况对检验方案进行灵活选择。

    本文针对海洋数据质量检验方案多属性优化选择问题,引入粗集理论计算的思想,设计了海洋数据抽样检验过程中不同方案属性依赖度计算以及权重对比方法,通过对研究区域内1392个批量数据进行实验,从多种方案中优选出S(1392, 69, 3)和S(1392, 139, 5)两个方案供决策者进行终选。此决策方法在考虑数据本身特点的同时又兼顾了决策者经验,为海洋数据质量检验方案选择提供了一种新思路。

  • 图  1   养殖区分布信息

    Fig.  1.   Distribution information of breeding area

    图  2   检验方案决策属性值对比

    Fig.  2.   Inspection plans decision attribute value contrast

    表  1   不同百分比质量检验方案及其属性

    Tab.  1   Different percentage of quality inspection plans and attributes

    下载: 导出CSV

    表  2   检验方案条件属性信息表

    Tab.  2   Condition attribute information of inspection plans

    下载: 导出CSV

    表  3   检验方案属性泛化值

    Tab.  3   Attribute generalization value of inspection plans

    下载: 导出CSV

    表  4   检验方案决策属性最终值

    Tab.  4   Final value of inspection plans decision attributes

    下载: 导出CSV
  • [1]

    BURROUGHSS M, TEBBENS S F.Power-law scaling and probabilistic forecasting of tsunami runup heights[J].Pure and Applied Geophysics, 2005, 162(2):331-342. doi: 10.1007/s00024-004-2603-5

    [2] 郭越, 宋维玲, 董伟.构建海洋统计数据质量监控体系的思考[J].海洋开发与管理, 2010, 27(11):4-8. doi: 10.3969/j.issn.1005-9857.2010.11.002
    [3] 张铁艳, 王化仁, 杨鲲, 等.海洋调查观测资料的质量控制[J].水道港口, 2006, 27(1):48-50. doi: 10.3969/j.issn.1005-8443.2006.01.012
    [4] 史静涛.海洋环境实时观测数据质量控制方法研究与软件实现[D].天津: 国家海洋技术中心, 2010.
    [5] 黄冬梅, 陈括, 王振华, 等.基于块嵌套循环的海洋大数据质量检验方案选择算法[J].计算机工程与科学, 2013, 35(10):51-57. doi: 10.3969/j.issn.1007-130X.2013.10.006
    [6]

    PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences, 1982, 11(5):341-356. http://d.old.wanfangdata.com.cn/Periodical/zdhxb200103002

    [7] 张维英, 林焰, 纪卓尚.基于粗集数据分析的船型方案模糊优选法[J].哈尔滨工程大学学报, 2004, 25(4):434-439. doi: 10.3969/j.issn.1006-7043.2004.04.007
    [8] 童一飞, 李东波, 于敏建, 等.基于信息公理与粗集理论的多属性模糊优选研究[J].中国机械工程, 2007, 18(17):2029-2033. doi: 10.3321/j.issn:1004-132x.2007.17.004
    [9]

    PAWLAK Z.Some issues on rough sets[M]//PETERS J S, SKOWRON A, GRZYMAŁA-BUSSE J W, et al.Transactions on Rough Sets I.Berlin, Heidelberg: Springer, 2004: 1-58.

    [10] 黄广龙, 余忠华, 吴昭同, 等.基于粗集理论的多因素数据分析[J].浙江大学学报:工学版, 2001, 35(5):507-510. http://d.old.wanfangdata.com.cn/Periodical/zjdxxb-gx200105009
    [11] 王振华.空间数据质量抽样检验与控制的理论、方法和应用[D].上海: 同济大学, 2011.
    [12]

    KURALMANI V, GOVINDARAJU K.Modified tables for the selection of double sampling attribute plan indexed by AQL and LQL[J].Communications in Statistics-Theory and Methods, 1995, 24(7):1897-1927. doi: 10.1080/03610929508831593

    [13]

    ELEFTHERIOU M, FARMAKIS N.Continuous sampling plan underquadratically varying acceptance cost[C]//Proceedings of the XⅢ International Conference "Applied Stochastic Models and Data Analysis".Vilnius, Lithuania: IKEE, 2009: 289-293.

    [14] GB/T 2828-1987, 逐批检查计数抽样程序及抽样表(适用于连续批的检查)[S].
    [15]

    SLOWIŃSKI R, STEFANOWSKI J.Rough-set reasoning about uncertain data[J].Fundamenta Informaticae, 1996, 27(2/3):229-244. http://d.old.wanfangdata.com.cn/NSTLHY/NSTL_HYCC024945761/

    [16]

    ZOU Y H, XI W F.Research on planning approval data interoperation implementation between AutoCAD andArcSDE[J].Applied Mechanics and Materials, 2013, 263/266:1897-1901. http://en.cnki.com.cn/Article_en/CJFDTOTAL-CSKC201303002.htm

  • 期刊类型引用(4)

    1. 荆林波,逯万辉. 新时代我国哲学社会科学评价研究进展:理论与实践. 中国人民大学学报. 2023(02): 168-181 . 百度学术
    2. 张霞,何南. 综合评价方法分类及适用性研究. 统计与决策. 2022(06): 31-36 . 百度学术
    3. 张彭辉,杜建平,吴帅,程文华,侯健,孔祥峰,张丽. 海洋环境大数据系统建设研究进展. 海洋开发与管理. 2021(11): 104-112 . 百度学术
    4. 米安然. 整机设备可靠性条件推断方法. 冶金管理. 2020(07): 96-97 . 百度学术

    其他类型引用(3)

图(2)  /  表(4)
计量
  • 文章访问数:  2478
  • HTML全文浏览量:  2624
  • PDF下载量:  23
  • 被引次数: 7
出版历程
  • 收稿日期:  2017-09-18
  • 修回日期:  2018-01-01
  • 刊出日期:  2019-04-19

目录

/

返回文章
返回
x 关闭 永久关闭