• 中文核心期刊
  • 中国科技核心期刊
  • ISSN 1007-6336
  • CN 21-1168/X

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于粗集理论的海洋数据质量检验方案多属性决策法

陈括 匡翠萍 王蕾 裴军峰 杨生强 冯涛

引用本文:
Citation:

基于粗集理论的海洋数据质量检验方案多属性决策法

    作者简介: 陈括(1988-), 男, 河北秦皇岛人, 工程师, 在读博士生, 主要研究方向为海洋数据分析与检验, E-mail:chenkuo@ecs.mnr.gov.cn;
  • 基金项目: 国家重点研发计划-"海洋环境安全保障"重点专项 2016YFC1403200
    国家海洋局东海分局青年基金项目 201614

  • 中图分类号: TP391.7

Marine data quality inspection plan based on rough set of multiple attributes decision

  • CLC number: TP391.7

  • 摘要: 针对大规模复杂、不确定的海洋数据,决策者如何选择适合的数据质量检验方案是制约其快速应用的重要问题之一。本文将粗集理论引入海洋数据质量检验方案的优化选择过程中,对不同方案的残差与接收概率进行离散处理并求出泛化值。计算不同属性对决策属性的依赖度,进而确定每种条件属性的权重,最终优化海洋数据质量检验方案,以供决策者进行选择。最后通过对某海域监测站点的海洋数据进行实验,验证了方法的可行性。
  • 图 1  养殖区分布信息

    Figure 1.  Distribution information of breeding area

    图 2  检验方案决策属性值对比

    Figure 2.  Inspection plans decision attribute value contrast

    表 1  不同百分比质量检验方案及其属性

    Table 1.  Different percentage of quality inspection plans and attributes

    下载: 导出CSV

    表 2  检验方案条件属性信息表

    Table 2.  Condition attribute information of inspection plans

    下载: 导出CSV

    表 3  检验方案属性泛化值

    Table 3.  Attribute generalization value of inspection plans

    下载: 导出CSV

    表 4  检验方案决策属性最终值

    Table 4.  Final value of inspection plans decision attributes

    下载: 导出CSV
  • [1] BURROUGHSS M, TEBBENS S F.Power-law scaling and probabilistic forecasting of tsunami runup heights[J].Pure and Applied Geophysics, 2005, 162(2):331-342. doi: 10.1007/s00024-004-2603-5
    [2] 郭越, 宋维玲, 董伟.构建海洋统计数据质量监控体系的思考[J].海洋开发与管理, 2010, 27(11):4-8. doi: 10.3969/j.issn.1005-9857.2010.11.002
    [3] 张铁艳, 王化仁, 杨鲲, 等.海洋调查观测资料的质量控制[J].水道港口, 2006, 27(1):48-50. doi: 10.3969/j.issn.1005-8443.2006.01.012
    [4] 史静涛.海洋环境实时观测数据质量控制方法研究与软件实现[D].天津: 国家海洋技术中心, 2010.
    [5] 黄冬梅, 陈括, 王振华, 等.基于块嵌套循环的海洋大数据质量检验方案选择算法[J].计算机工程与科学, 2013, 35(10):51-57. doi: 10.3969/j.issn.1007-130X.2013.10.006
    [6] PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences, 1982, 11(5):341-356.
    [7] 张维英, 林焰, 纪卓尚.基于粗集数据分析的船型方案模糊优选法[J].哈尔滨工程大学学报, 2004, 25(4):434-439. doi: 10.3969/j.issn.1006-7043.2004.04.007
    [8] 童一飞, 李东波, 于敏建, 等.基于信息公理与粗集理论的多属性模糊优选研究[J].中国机械工程, 2007, 18(17):2029-2033. doi: 10.3321/j.issn:1004-132x.2007.17.004
    [9] PAWLAK Z.Some issues on rough sets[M]//PETERS J S, SKOWRON A, GRZYMAŁA-BUSSE J W, et al.Transactions on Rough Sets I.Berlin, Heidelberg: Springer, 2004: 1-58.
    [10] 黄广龙, 余忠华, 吴昭同, 等.基于粗集理论的多因素数据分析[J].浙江大学学报:工学版, 2001, 35(5):507-510.
    [11] 王振华.空间数据质量抽样检验与控制的理论、方法和应用[D].上海: 同济大学, 2011.
    [12] KURALMANI V, GOVINDARAJU K.Modified tables for the selection of double sampling attribute plan indexed by AQL and LQL[J].Communications in Statistics-Theory and Methods, 1995, 24(7):1897-1927. doi: 10.1080/03610929508831593
    [13] ELEFTHERIOU M, FARMAKIS N.Continuous sampling plan underquadratically varying acceptance cost[C]//Proceedings of the XⅢ International Conference "Applied Stochastic Models and Data Analysis".Vilnius, Lithuania: IKEE, 2009: 289-293.
    [14] GB/T 2828-1987, 逐批检查计数抽样程序及抽样表(适用于连续批的检查)[S].
    [15] SLOWIŃSKI R, STEFANOWSKI J.Rough-set reasoning about uncertain data[J].Fundamenta Informaticae, 1996, 27(2/3):229-244.
    [16] ZOU Y H, XI W F.Research on planning approval data interoperation implementation between AutoCAD andArcSDE[J].Applied Mechanics and Materials, 2013, 263/266:1897-1901.
  • [1] 黄冬梅施黎莉王振华苏诚黄雅馨 . 一种基于空间相关性的海洋环境监测数据优化抽样方法. 海洋环境科学, 2015, 34(4): 553-557. doi: 10.13634/j.cnki.mes20150414
    [2] 黄冬梅季丽伟袁小华王振华 . 基于时空一体化的海洋大数据快速展示平台. 海洋环境科学, 2015, 34(5): 743-748. doi: 10.13634/j.cnki.mes20150517
    [3] 李健王铮史浩臧琦 . 海洋环境突发事件的大数据协同治理体系研究. 海洋环境科学, 2015, 34(6): 949-953. doi: 10.13634/j.cnki.mes20150624
    [4] 许宁陈伟斌马玉贤袁帅刘雪琴史文奇 . 面向海洋调查与风险评估的冰情数据应用需求分析. 海洋环境科学, 2018, 37(5): 705-712. doi: 10.12111/j.cnki.mes20180512
    [5] 陶冠峰隋伟娜赵辉马明辉梁斌梁雅惠朱容娟张鹏骥 . 海洋环境监测数据集成系统的研究与实现. 海洋环境科学, 2017, 36(2): 281-283, 290. doi: 10.13634/j.cnki.mes20170219
    [6] 苑清敏秦聪聪杨蕊宁宁宁 . 基于生态位理论的我国沿海省市海洋产业竞争策略分析. 海洋环境科学, 2015, 34(1): 126-130. doi: 10.13634/j.cnki.mes20150122
    [7] 关道明 . “海洋资源环境承载能力监测预警理论和技术研究”专刊序言. 海洋环境科学, 2018, 37(4): 481-481. doi: 10.12111/j.cnki.mes20180401
    [8] 陈培雄周鑫徐伟向芸芸 . 海洋功能区划评估理论研究-以浙江省为例. 海洋环境科学, 2018, 37(6): 888-892, 898. doi: 10.12111/j.mes20180613
    [9] 王斌杨振姣 . 基于海洋生态质量目标识别的海洋生态安全格局研究. 海洋环境科学, 2018, 37(1): 33-37. doi: 10.13634/j.cnki.mes20180106
    [10] 刘修泽李轶平王爱勇于旭光王彬郭栋董婧 . 基于GIS和专家评估法的海洋生物资源损害评估数据标准化方法. 海洋环境科学, 2015, 34(1): 101-106. doi: 10.13634/j.cnki.mes20150118
    [11] 于春艳鲍晨光许妍兰冬东李冕刘亮梁斌 . 海洋环境质量控制目标研究以渤海海域为例. 海洋环境科学, 2015, 34(5): 759-762. doi: 10.13634/j.cnki.mes20150520
    [12] 禹定峰周燕邢前国盖颖颖周斌樊彦国 . 基于实测数据和卫星数据的黄东海透明度估测模型研究. 海洋环境科学, 2016, 35(5): 774-779. doi: 10.13634/j.cnki.mes20160523
    [13] 李炳南杨建洪蒋雪中吴彤 . 基于多源数据的海水水质空间评价系统设计. 海洋环境科学, 2015, 34(1): 113-119. doi: 10.13634/j.cnki.mes20150120
    [14] 苏乔徐兴永陈广泉付腾飞刘文全 . 基于面板数据分析的潮汐对地下水的影响研究. 海洋环境科学, 2017, 36(5): 741-745. doi: 10.13634/j.cnki.mes20170516
    [15] 张明吕晓琪王军凯张晰 . 基于Sentinel-1数据波弗特海域海冰漂移检测技术研究. 海洋环境科学, 2018, 37(2): 287-293. doi: 10.12111/j.cnki.mes20180220
    [16] 胡静雯陈树果张亭禄张国朋 . 利用MODIS卫星遥感数据监测东中国海浊度的时空分布. 海洋环境科学, 2015, 34(4): 564-569. doi: 10.13634/j.cnki.mes20150416
    [17] 王常颖王志锐初佳兰赵建华 . 基于决策树与密度聚类的高分辨率影像海岸线提取方法. 海洋环境科学, 2017, 36(4): 590-595. doi: 10.13634/j.cnki.mes20170417
    [18] 张宇吴文周王琦苏奋振宋德瑞 . 面向服务架构的南海地理信息决策模拟系统功能设计与实现. 海洋环境科学, 2018, 37(1): 137-142. doi: 10.13634/j.cnki.mes20180121
    [19] 杨正先索安宁张振冬苏岫卫宝泉 . “短板效应”理论在资源环境承载能力评价中的应用及优化研究. 海洋环境科学, 2018, 37(4): 602-607. doi: 10.12111/j.cnki.mes20180418
    [20] 吴培枫韩光耀谢丽玲黄锦源唐开铭卢金桓 . 溶藻菌Halomona Sp.DH-e无菌滤液对东海原甲藻抗氧化系统的影响及急性毒性检验. 海洋环境科学, 2018, 37(2): 228-232. doi: 10.12111/j.cnki.mes20180211
  • 加载中
图(2)表(4)
计量
  • 文章访问数:  109
  • HTML全文浏览量:  93
  • PDF下载量:  0
出版历程
  • 收稿日期:  2017-09-19
  • 录用日期:  2018-01-02
  • 刊出日期:  2019-04-20

基于粗集理论的海洋数据质量检验方案多属性决策法

    作者简介:陈括(1988-), 男, 河北秦皇岛人, 工程师, 在读博士生, 主要研究方向为海洋数据分析与检验, E-mail:chenkuo@ecs.mnr.gov.cn
  • 1. 国家海洋局东海信息中心, 上海 200136
  • 2. 同济大学 土木工程学院, 上海 200092
基金项目:  国家重点研发计划-"海洋环境安全保障"重点专项 2016YFC1403200国家海洋局东海分局青年基金项目 201614

摘要: 针对大规模复杂、不确定的海洋数据,决策者如何选择适合的数据质量检验方案是制约其快速应用的重要问题之一。本文将粗集理论引入海洋数据质量检验方案的优化选择过程中,对不同方案的残差与接收概率进行离散处理并求出泛化值。计算不同属性对决策属性的依赖度,进而确定每种条件属性的权重,最终优化海洋数据质量检验方案,以供决策者进行选择。最后通过对某海域监测站点的海洋数据进行实验,验证了方法的可行性。

English Abstract

  • 随着世界各国海洋事业的逐步发展,海洋信息化建设已成为发展海洋事业的重要组成部分,而数字海洋是实现海洋信息化的重要措施。近年来,海洋强国战略的提出,进一步促进海洋立体化观测系统的建立,催生了多源、多样、大规模海洋数据的生成。

    随着海洋数据“量”的几何级增长,海洋数据“质”的问题也不容小觑。如何进一步提高海洋数据质量检验时效性,是当前国内外研究者关注的核心问题。Stephen [1]针对海洋环境监测数据,主要面向海洋监测工作质量控制和管理方法进行了初步探索。郭越[2]面向海洋数据质量监控体系的构建及监控方法必要性进行了一定研究。这些专家学者针对不同类型的海洋数据进行了质量检验研究,但是面对类型复杂的海洋大数据时,如何确立其质量检验方案并对其质量进行控制的相关研究较少。张铁艳[3]采用统计检验法对海洋测量资料数据进行质量检验。史静涛[4]针对海洋环境实时观测数据,利用极值控制,t检验法等方法对海洋数据质量检验方案进行了实验研究。黄冬梅[5]利用skyline的方法对海洋数据质量检验方案进行了筛选,最终得出一个相对优化的质量检验方案。

    海洋数据质量检验方案的优劣与其检验数据和具体应用场景高度相关。因此决策者在决策的时候需要至少两种以上的备选方案,根据方案的优良程度,以及决策者自身经验和数据应用场景选择决策。筛选不同备选方案的过程涉及到不确定多属性决策的问题,而粗集理论则为解决不确定多属性决策提供了一个有效的方法。

    本文的主要贡献有:(1)引入粗集理论对不同质量检验方案的接收概率和残差进行离散泛化处理得出不同条件属性依赖度;(2)通过客观属性权重分配优化出两个以上优选方案供决策者选择,结合实际情况实现最终决策。

    • 粗集理论(rough set)是20世纪80年代初由波兰华沙理工大学Pawlak提出的一种处理不完整、不确定、不一致数据的表达、学习、归纳方法[6]。粗集作为一种模糊数学研究方法,已经被广泛应用在机器学习、近似推理、人工智能、模式识别等众多领域。张维英[7]运用粗集对船型方案数据进行分析,进而对船型方案各属性进行了模糊离散处理,对不同船型方案做出了优化选择;童一飞[8]通过信息公理与粗集理论对网格资源进行加权和优选,验证了该方法的有效性。

      粗集作为一种解决模糊问题的方法,其研究对象由多值属性集合描述,对于每个对象及其属性都有一个值作为其描述符号,因此对象、属性和描述符是表达决策问题的三个基本要素[9]

      粗集权重分析主要是通过知识系统中各属性之间的依赖关系,通过条件属性对决策属性的依赖度来确定权重。其知识表达系统定义为:S=(UAVf),其中U是论域,为对象的集合;A作为属性集合,其包括条件属性C和决策属性D,且A=C×DV为属性值的集合;f则表示U×AV的映射信息。

      当确定粗集条件属性和决策属性等信息后,通过正域关系可计算出不同粗集属性依赖度。进而作为描述不同属性权重的基础。

      粗集属性依赖度公式如下[10]

      式中:CARD为集合的基数;POSj为正域;U为对象集合。

    • 将海洋数据的质量检验方案记为S(Nnc),其中N为批量,即待检验的海洋数据的总体数量;n为样本量,即从批量中抽取的用来检查的海洋数据样本数量;c为接收数,即样本中允许出现的海洋数据不合格数的最大值。从待检验海洋数据检验批N中抽取n个数据,对其质量进行逐一检查;记录结果数据中的不合格品数为d,若海洋数据不合格数小于等于接收数c,则该批海洋数据达到了精度要求,反之则认为该批海洋数据存在质量问题。

      针对每一批待检验海洋数据,存在一个接收质量限AQL(acceptance quality level)和极限质量限LQL(limit quality level)。接收质量限(AQL)[11]是当一批连续系列被提交验收检验时,可允许的最差过程平均质量水平,是可以接收和拒绝接收的过程平均界限值。极限质量限(LQL)[12]指为了抽样检验,限制在某一低接收概率的质量水平,它是在抽样检验中对不应接收的批质量的最小值。

      基于超几何分布模型,可以得出质量检验方案的接收概率记为L(p)。

      因此,基于AQL的接收质量限接收概率残差Ea,和LQL的极限质量限接收概率残差Eb,由下式给出:

      式中:round为取整函数;α为生产方风险,当海洋数据的质量达到质量接收限AQLEa为接收质量限接收概率残差;β为使用方风险,当质量水平低于极限质量限LQLEb为极限质量限接收概率残差[13]

      这时我们得到4个质量检验方案的条件属性,分别是AQL的接收概率L(pa)和LQL的接收概率L(pb)以及AQL的残差EaLQL的残差Eb。下面通过具体实验,来展示通过粗集理论对海洋数据质量检验方案的条件属性进行处理并得出结论的过程。

    • 本研究采用的吕四海洋环境监测站和洋口港海洋环境监测站的养殖区域监测数据,监测区域空间范围北起32.92°N,南至31.81°N,西起120.91°E,东至121.93°E的海域,其中包括启东、如东、海门、牛角沙、腰沙等多个养殖监测区域,数据选取时间范围为2015年1月~12月,其每一点位包括其矢量要素数据、属性要素数据和养殖信息数据。如图 1所示。

      图  1  养殖区分布信息

      Figure 1.  Distribution information of breeding area

      通过格式、日期、位置检验对本批数据基础规范性进行初筛,选出本次研究区域内记录规范数据批量N共计1392个。结合GB/T 2828中“样本量字码表”,可得出待检验批量N在1201~3200区间范围,进而可确定本次检验水平为K级,查表计算得出本次数据预期接收概率Pa=0.02,Pb=0.1。

      根据GB/T 2828.1-2012计数抽样检验程序标准百分比抽样方法[14],采用4种不同的抽样比f对海洋数据进行质量检验,样本量n分别取批量N的5%,10%,15%和20%,接收数c从0起依次递增取不同的值。

      通过GB/T 2828中“正常检验抽样方案表”查询不同抽样比所对应的较为合适的K级数值样本量n与接收数c,进而初步确定本次质量检验方案S(Nnc)待决策选项。

      利用超几何分布模型公式(2)以及残差公式(3)和(4)可计算得出不同检验方案所对应的接收概率值L(pa),L(pb),以及残差值EaEb

      初步得出监测点位数据批量N中的不同百分比样本量的质量检验方案及其属性值,如下表所示。

      表 1  不同百分比质量检验方案及其属性

      Table 1.  Different percentage of quality inspection plans and attributes

      此时由查表选出的检验方案都是相对优秀的方案,如果用传统方法对这些方案的残差进行逐一比较,虽然能够得出一个优化方案,但却可能会删掉同等优秀的检验方案,无法让决策者根据实际情况和经验灵活选择。

      因此,文章引入粗集多属性模糊优选的方法,对每一个方案的不同属性进行离散处理,然后根据条件属性类对决策属性类的依赖度来确定客观权重,最终对每个方案的优劣度进行比较来优选方案。

    • 首先对表 2中的4个资源条件属性值进行整理描述。

      表 2  检验方案条件属性信息表

      Table 2.  Condition attribute information of inspection plans

      采用等宽法对评价指标属性进行离散化,离散结果用3、2、1、0分别表示优、良、可、劣4个好坏程度。区间数K=4,分别对L(Pa)、L(Pb)、EaEb进行离散。以L(Pa)为例,根据其最大值nmax和最小值nmin来计算区间宽度,计算出的区间宽度值为0.0177;根据区间宽度将区间[0.9128, 0.9837]分为[0.9128,0.9305)、[0.9305,0.9428)、[0.9428,0.9659)、[0.9659,0.9837],将这4个离散后的区间分别泛化为“0(劣)”、“1(可)”、“2(良)”、“3(优)”表示。同理可得其余属性离散后的泛化值,结果如下表所示。

      表 3  检验方案属性泛化值

      Table 3.  Attribute generalization value of inspection plans

      从表中可以明显看出6号方案在此集中各项泛化值均为0(劣),表示此方案在这批次中没有任何区分度和竞争力,故剔除不予考虑。此时集合的基数为CARD(U)=6,同时设决策属性为D

      计算其余方案的资源泛化值的各属性指标近似集,由上述定义与表格所得如下:

      U/ind(Pa)={(1, 4, 7),2,(3, 5)};

      U/ind(Pb)={(1, 3),2,(4, 5), 7};

      U/ind(Ea)={(1, 2, 4),(3, 5),7};

      U/ind(Eb)={(1, 2, 4),3,5,7}

      剔除近似集可得

      POS(Pa)(D)={2};

      POS(Pb)(D)={2,7};

      POS(Ea)(D)={7};

      POS(Eb)(D)={3, 5, 7}

      由公式(1)可得各个属性的依赖度为:

    • 由客观权重计算公式[15]

      可得出每一项属性的权重值为:

      将属性的权重值结合表 3条件属性泛化值计算结果,可得出各项属性值与权重值乘积以及决策属性D的最终值。如下表 4所示。

      表 4  检验方案决策属性最终值

      Table 4.  Final value of inspection plans decision attributes

      由表 5可以得出D1D2的值均大于2,为优等级,D3D4的值在1.5~2.0之间也是良好范围,而D5D7则相对较差,各检验方案结果比较如图 2所示。

      图  2  检验方案决策属性值对比

      Figure 2.  Inspection plans decision attribute value contrast

      因此1号和2号检验方案,既S(1392, 69, 3)和S(1392, 139, 5)同为这批海洋数据中相对优化的质量检验方案,其中1号方案比2号方案的样本量小,故在检验时间与费用上消耗相对较少,而2号方案在精度上相对1号方案更有优势。决策者可以根据具体费用与精度需求等不同实际情况进行权衡选择。

      文献[5]中通过skyline的块嵌套循环算法尝试计算选出为最优方案,虽然方法可行,但是结果过于绝对,没有充分考虑到决策者的经验和数据本身的重要性,而单纯通过GB/T 2828选出的结果也具有大批量过严,小批量过宽的劣势[16]。本文通过粗集理论对海洋数据质量检验方案进行模糊优选,此结果与文献[5]中结果以及GB2828抽样标准相比,具有以下优点:

      (1) 该方法利用数据本身特性进行优选,不完全依靠经验,便于计算实现优选。

      (2) 引用粗集理论中的依赖度对各属性进行权重分配,增加了选择的合理性,在选择时更为客观。

      (3) 此方法将各个方案的优势度列出比较,决策者可根据具体情况对检验方案进行灵活选择。

    • 本文针对海洋数据质量检验方案多属性优化选择问题,引入粗集理论计算的思想,设计了海洋数据抽样检验过程中不同方案属性依赖度计算以及权重对比方法,通过对研究区域内1392个批量数据进行实验,从多种方案中优选出S(1392, 69, 3)和S(1392, 139, 5)两个方案供决策者进行终选。此决策方法在考虑数据本身特点的同时又兼顾了决策者经验,为海洋数据质量检验方案选择提供了一种新思路。

参考文献 (16)

目录

    /

    返回文章