覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文

上傳人:沈*** 文檔編號:43249671 上傳時間:2021-11-30 格式:DOC 頁數(shù):73 大?。?.20MB
收藏 版權(quán)申訴 舉報 下載
覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文_第1頁
第1頁 / 共73頁
覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文_第2頁
第2頁 / 共73頁
覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文_第3頁
第3頁 / 共73頁

下載文檔到電腦,查找使用更方便

10 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文》由會員分享,可在線閱讀,更多相關(guān)《覆蓋粒計算及其應(yīng)用研究 碩士學(xué)位論文(73頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、 學(xué)校代碼 10345 研究類型 應(yīng)用基礎(chǔ)研究 碩 士 學(xué) 位 論 文 題 目: 覆蓋粒計算及其應(yīng)用研究 Research on the Covering and Its Application Based on Granular Computing Research on the Covering and Its Application Based on Granular Computing Thes

2、is Submitted to Zhejiang Normal University for the degree of Master of Engineering By Shuang Liu (Computer Software and Theory) Thesis Supervisor: Professor Jiyi Wang June, 2011 摘 要 覆蓋粒計算及其應(yīng)用研究 摘 要 粒計算是研究基于多層次粒結(jié)構(gòu)的思維方法、問題求解方法、信息處理模式及其相關(guān)理論、技術(shù)和工具的學(xué)科。它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),

3、主要用于對不確定、不準(zhǔn)確、不完整信息的處理,對大規(guī)模海量的數(shù)據(jù)和對復(fù)雜問題的求解。粗糙集作為粒計算的一個重要分支,在理論和應(yīng)用上不斷取得豐碩成果的同時,也得到了廣泛有意義的推廣。而覆蓋廣義粗糙集理論是Pawlak粗糙集理論在劃分基礎(chǔ)上推廣到覆蓋建立起來的,它是研究與覆蓋相關(guān)的理論體系及其應(yīng)用,由于它是在粗糙集理論上的關(guān)系推廣,有關(guān)粗糙集的一些理論和應(yīng)用并不一定在覆蓋廣義粗糙集下適用。因此,本文的主要內(nèi)容是在粒計算思想理論背景下,研究與覆蓋相關(guān)的理論及其應(yīng)用。具體研究工作如下: 一、在面向基于粗糙集理論的動態(tài)信息系統(tǒng)規(guī)則挖掘的研究中,利用覆蓋粒計算相關(guān)理論提出了一種能消除引起差異信息系統(tǒng)規(guī)則挖

4、掘中不一致因素的公理化方法。實驗結(jié)果表明,在保持時間復(fù)雜度不變的情況下,利用改進(jìn)的規(guī)則挖掘算法,通過消除不一致因素而獲得的規(guī)則能更全面和更大程度地反映條件屬性值變化與決策變化趨勢之間的內(nèi)在聯(lián)系。 二、在面向沖突分析的研究中,在粒計算思想理論背景下,首次提出了“關(guān)聯(lián)沖突”的概念。利用覆蓋沖突分析策略,通過“服務(wù)—資源”實例建立了關(guān)聯(lián)沖突分析的合理泛化模型,討論了關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,并對不同階段引發(fā)的異常進(jìn)行了詳細(xì)的分析,給出了具體的解決方案,從而完善了各個領(lǐng)域沖突的解決。 三、在面向分類法準(zhǔn)確性(單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集)的研究中,利用拓?fù)涓采w鄰域理論,給出了尋找覆蓋系統(tǒng)上重疊元

5、素的相關(guān)公理化方法。在粒計算的思維體系背景下,以實例輔證,給出了獨立于數(shù)據(jù)標(biāo)簽和不同理想分類結(jié)果假設(shè)(一種假設(shè)為劃分,另一種假設(shè)為覆蓋)的評價分類法準(zhǔn)確性的統(tǒng)一范式,為提高和評估分類法準(zhǔn)確性的計算提供了重要的參考意義。 最后,文章是在同一個思想理論背景下,討論了基于覆蓋的相關(guān)理論和應(yīng)用。以上研究工作是覆蓋廣義粗糙集的理論及其應(yīng)用的補(bǔ)充和發(fā)展,充分的體現(xiàn)出了粒計算背景下知識發(fā)現(xiàn)理論和方法的獨特性,具有重要的理論意義及潛在的應(yīng)用價值。 關(guān)鍵詞:粒計算;覆蓋;動態(tài)信息系統(tǒng);規(guī)則挖掘;關(guān)聯(lián)沖突;分類 61 ABSTRACT RESEARCH ON THE COVERING

6、 AND ITS APPLICATION BASED ON GRANULAR COMPUTING ABSTRACT Granular computing (GrC) is viewed as an interdisciplinary study of computation in nature, society and science, characterized by structured thinking, structured problem solving and structured information processing with an underlying

7、notion of multiple levels of granulation. It consists of all the theories, methodologies, techniques and tools related to the granularity, which is mainly used to deal with uncertainty, imprecise and incomplete information and seek resolutions from the large-scale massive dataset or complicated prob

8、lem. Rough set, as a very important branch of GrC, is being improving and perfecting on theory and application as well as is being extending widely and significantly. Generalized rough set on covering is the one that partition’s Pawlak rough set theory is extended into covering’s. It focuses on the

9、study of covering, so that many theories and applications in the Pawlak rough set are not tenable and suitable in the generalized rough set on covering. Therefore, this dissertation will mainly make research on covering theories and its applications under background of GrC, whose content is shown as

10、 follows: First of all, for the rules mining based on rough set theory in dynamic information system, a pre-process approach to eliminate the elements that cause inconsistence of rules mining in difference information system is proposed under the background of covering theory based on granular comp

11、uting. Experiment shows that relationship between the changes of condition attributes values and trend of decision-making can be fully reflected as much as possible by a modified rules mining algorithm under the same time complexity through this pre-process approach. Secondly, for the conflict anal

12、ysis, associated-conflict is firstly introduced in the perspective of GrC, and a reasonable and comprehensive approach to its analysis, using covering based on granular computing, is outlined. We argue that this model of associated-conflict analysis, given by the example of service-resource, will pr

13、ovide more profound insight for the conflict resolution in different fields. Thirdly, for the accuracy of classification method on single label dataset or multi label dataset, a unified paradigm for the accuracy used to evaluate different classification methods, using topological covering based on

14、GrC, is presented, independent on number of data labels and different assumptions of ideal classification result(one assumption is partition, the other is covering). And some corresponding examples are also discussed to illustrate the accuracy in different classification situations. This unified par

15、adigm will provide important reference value for the evaluation and improvement of accuracy of classification method. In brief, this paper discusses theories and applications related to the covering under the same theory background, and it can be treated as supplement and development of generalized

16、 rough set on covering. And it reflects the specificity on theories, methodologies, techniques and tools of knowledge discovery under the background of GrC, with significant referred and applied value in the future. KEY WORDS: GrC; Covering; Dynamic Information System; Rules Mining; Associate

17、d-conflict; Classification 目 錄 目 錄 摘 要 I ABSTRACT III 目 錄 V 第一章 緒 論 1 1.1粒計算 1 1.1.1粒計算提出背景 1 1.1.2粒計算任務(wù)和目標(biāo) 2 1.1.3粒計算基本要素和理論構(gòu)成 2 1.1.4粒計算研究方向與方法 5 1.1.5粒計算基本思想和實質(zhì) 6 1.2覆蓋廣義粗糙集理論 6 1.2.1覆蓋廣義粗糙集的研究背景 7 1.2.2覆蓋廣義粗糙集的國內(nèi)外研究現(xiàn)狀 8 1.3本文研究的意義、目標(biāo)、方法和主要內(nèi)容以及創(chuàng)新點 8 1.3.1本文研究的意義 8

18、1.3.2本文研究的目標(biāo) 8 1.3.3本文研究的方法 9 1.3.4本文研究的主要內(nèi)容以及創(chuàng)新點 9 第二章 粒計算的獨特魅力 11 ——以孤立點挖掘為例 11 2.1引言 11 2.2引起孤立點的原因 12 2.3孤立點挖掘方法的思想描述 12 2.4討論 13 2.5小結(jié) 15 第三章 覆蓋粒計算在基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用 17 3.1引言 17 3.2預(yù)備知識 17 3.3規(guī)則挖掘 19 3.3.1動態(tài)信息系統(tǒng)中不一致性的辨識和消除 19 3.2.2規(guī)則挖掘算法 20 3.4實例分析 22 3.5小結(jié) 24

19、 第四章 基于覆蓋粒計算的關(guān)聯(lián)沖突分析 26 4.1引言 26 4.2預(yù)備知識 27 4.3粒計算背景下的相關(guān)工作 27 4.4粒計算視角下的關(guān)聯(lián)沖突 29 4.4.1關(guān)聯(lián)沖突定義 30 4.4.2關(guān)聯(lián)沖突分析建模 30 4.5討論 37 4.6小結(jié) 39 第五章 基于覆蓋粒計算的分類準(zhǔn)確性研究 40 5.1引言 40 5.2預(yù)備知識 41 5.3討論 42 5.3.1理想分類結(jié)果假設(shè)為劃分 42 5.3.2理想分類結(jié)果假設(shè)為覆蓋 44 5.4粒計算視角下的分類準(zhǔn)確性統(tǒng)一范式 45 5.5多標(biāo)簽數(shù)據(jù)分類準(zhǔn)確性探究 47 5.6小結(jié) 50 第六章 總結(jié)

20、與展望 52 6.1總結(jié) 52 6.2展望 53 參考文獻(xiàn) 54 攻讀碩士學(xué)位期間取得的研究成果 61 致 謝 62 浙江師范大學(xué)學(xué)位論文獨創(chuàng)性聲明 63 學(xué)位論文使用授權(quán)聲明 63 第一章 緒 論 第一章 緒 論 1.1粒計算 粒計算(Granular Computing, GrC)是一門飛速發(fā)展的新學(xué)科,它是由美國學(xué)者T.Y.Lin于1997年提出的[1]。短短十幾年的發(fā)展已經(jīng)見證了它對科學(xué)特別是計算機(jī)科學(xué)的作用和影響。諸多國內(nèi)外學(xué)者就粒計算的基本理論和方法做了大量的工作[2-12]。但為粒計算下一個正式的、精確的、能夠廣為接受的定義

21、仍然是一件困難的事情。人們對粒計算的描述是建立在對它的直覺認(rèn)識上的:粒計算是研究基于多層次粒結(jié)構(gòu)的思維方法、問題求解方法、信息處理模式及其相關(guān)理論、技術(shù)和工具的學(xué)科。作為軟計算科學(xué)的一個重要分支,它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),主要用于對不確定、不準(zhǔn)確、不完整信息的處理,對大規(guī)模海量的數(shù)據(jù)和對復(fù)雜問題的求解,正逐漸成為人工智能研究領(lǐng)域的熱點之一。 1.1.1粒計算提出背景 研究粒計算有許多原因。其一是一致性:現(xiàn)實世界充滿了結(jié)構(gòu)和層次,它們體現(xiàn)在各種自然系統(tǒng)、社會系統(tǒng)和人工系統(tǒng)之中。因此,人們對現(xiàn)實世界的感知、理解、解釋和表示也是有結(jié)構(gòu)、分層次的。Zadeh將人類的認(rèn)知能力概括為:

22、粒化、組織和因果推理[13]。?;菍⒁粋€整體分割成部分,每個部分是擁有相同、相似性質(zhì)的個體的集合。組織是將松散的個體聯(lián)系在一起,形成有著內(nèi)在聯(lián)系的整體。因果推理是找出原因與結(jié)果之間的必然聯(lián)系。粒計算模型應(yīng)該能描述這三種能力。因而粒計算的結(jié)構(gòu)和現(xiàn)實世界的結(jié)構(gòu)、人們的思維模式及行為方式是一致的。其二是系統(tǒng)性:粒計算的結(jié)構(gòu)提供了對所解決的問題多視角、多層次的理解、概括和操作。作為一個整體,粒計算提供的思維模式和行為方式是系統(tǒng)的、完整的。其三是簡化性:粒計算是提倡對問題進(jìn)行不同層次的抽象和處理。在抽象過程中,可以只重視主要特性而忽略不相關(guān)的細(xì)節(jié),從而達(dá)到對問題的簡化。其四是靈活性:粒計算的結(jié)構(gòu)允許人

23、們在不同的時間、不同的情況下,將注意力集中在不同的層次及層與層之間的自然過渡上,縮放和轉(zhuǎn)承是靈活多變的。其五是有效性:用粒計算指導(dǎo)的思維模式和行為方式將復(fù)雜問題分解成若干小問題。這種分而治之的方法是非常實用的,可以運用到不同的領(lǐng)域。其六是經(jīng)濟(jì)性:粒計算尋求在不同粒度上的近似解。這樣的方法可以提高效率、降低成本。其七是容忍性:通過使用不同信息粒度,粒計算可以容忍不確定、不完全或有噪音的信息,從而獲得具有魯棒性的解決方案。 1.1.2粒計算任務(wù)和目標(biāo) 粒計算的形成綜合了許多學(xué)科的科研成果[14],它的理論建立在對各個領(lǐng)域的共性進(jìn)行概括、總結(jié)和整理之上,形成了對問題求解的普遍適用的原理、方法和策

24、略。在過去的若干年中,許多學(xué)者對粒計算的具體模式和方法進(jìn)行了研究。同時和粒計算原理相似的研究還在不斷地出現(xiàn),只是在不同的領(lǐng)域中運用了略微不同的名詞和術(shù)語。將粒計算作為一個獨立的學(xué)科研究可以防止這種不必要的重復(fù)勞動。 (1) 粒計算的任務(wù) 作為一個新興的研究領(lǐng)域,粒計算是一門關(guān)于問題求解的藝術(shù)。它有著兩項特殊的任務(wù):其一是從各個不同的領(lǐng)域中概括出它們的共性,不考慮它們低層次上的差異,從而提煉出抽象的、高層次的、綜合的認(rèn)識;其二是將特定領(lǐng)域中隱含的結(jié)構(gòu)明確化,以期總結(jié)出獨立于具體領(lǐng)域的普遍原理。 (2) 粒計算的目標(biāo) 粒計算之所以新且獨特,并不完全在于一組具體的方法和策略,而在于提

25、出一個統(tǒng)一的框架,對這些方法和策略進(jìn)行全面的理解及綜合。通過對粒計算的研究試圖達(dá)到以下目標(biāo):將隱式的結(jié)構(gòu)顯式化;將不明顯的原理明顯化;將特定領(lǐng)域的特殊原理普遍化;將下意識的行為變成有意識的行為。 1.1.3粒計算基本要素和理論構(gòu)成 (1) 粒計算的基本要素[14, 15] (a) 粒 粒是粒計算的初始概念,是粒計算研究對象的單位,是求解問題的基本單位,等同于數(shù)據(jù)庫中的記錄,集合中的元素或子集。我們稱最小的、不可分或不需要再分解的粒為基本粒,即最低層次的粒稱為基本粒,它可以是模糊的,也可以是精確的。 粒具有雙重身份,它可以是某個整體中相對獨立的一個部分,也可以是一些粒共同組

26、成的一個粒。所有的粒都具有內(nèi)在屬性、外在屬性和環(huán)境屬性。當(dāng)粒作為整體時,所要考慮的是粒的內(nèi)在屬性,內(nèi)在屬性由粒所擁有的元素決定。當(dāng)粒作為部分時,所要考慮的是粒的外在屬性,由于具有外在屬性,粒就能夠被人們直接認(rèn)識。粒的環(huán)境屬性是指粒對外部環(huán)境變化的應(yīng)對情況,對其內(nèi)在屬性和外在屬性的保持與調(diào)整以及對外部環(huán)境的影響和回應(yīng)。粒的雙重身份決定了它的內(nèi)在屬性通常需要強(qiáng)調(diào)其它所包含的細(xì)小個體的不同特性,是對它內(nèi)部各個基本組成成分性質(zhì)的描述,而其外在屬性則是強(qiáng)調(diào)把它作為一個整體時所體現(xiàn)出的綜合特性。 (b) 層次 粒存在于特定的層次中,人們在粒計算的不同層次中研究不同類型的粒,這些粒之間是有聯(lián)系的

27、,同一層次的粒與粒之間可以是相交的關(guān)系也可以是層疊的關(guān)系,它們是該層次上研究的主體。層次中每一個粒表述了一個特定的?;^點。所有的粒化觀點相互補(bǔ)充、相互呼應(yīng),完整表達(dá)了在這個層次上對同一個問題的描述。每個層次都具有內(nèi)在屬性、外在屬性、環(huán)境屬性,同一層次的粒屬性共同體現(xiàn)本層次特性。 在問題求解中,選擇在最合適的粒度層次上產(chǎn)生對一個問題的描述,能幫助更好更快地解決問題。較高層次包含較低層次,或者由較低層次組成。較高層次為較低層次提供背景和約束。較高層次一般由較高集成度和較高結(jié)合力的粒組成。每一層次都存在一定程度的獨立性。任意兩層次之間的連接和交互是通過偏序關(guān)系的傳遞性和橋接原理來表示和體

28、現(xiàn)的。粒計算模型的主要作用是能夠在不同粒度層次上進(jìn)行問題求解,使不同粒度層次上的解能夠進(jìn)行相互轉(zhuǎn)化。 (c) 分層結(jié)構(gòu) 分層結(jié)構(gòu)由若干個層次組成,層次間的遞進(jìn)反映了由表及里、由抽象到具體、由粗糙到細(xì)致、由籠統(tǒng)到具體的變化。這種遞進(jìn)是有序的,高層次會對低層次進(jìn)行約束,并為低層次的描述提供背景。一個高層次的粒可以分解為若干個低層次的粒。相反,若干個低層次的??梢越M合成一個高層次的粒。低層次的粒為高層次的粒提供更詳細(xì)的描述或者更多的信息。另一個方面,高層次的粒將與本層次的不相關(guān)的細(xì)節(jié)忽略掉,為低層次的粒提供更粗粒度的描述。 (d) 粒結(jié)構(gòu) 在粒計算研究中強(qiáng)調(diào)的是全面、

29、整體的觀點,而不是局部、離散的觀點。若要達(dá)到該目標(biāo),不僅要考慮一個分層結(jié)構(gòu)中的多個層次,還需要將多個分層結(jié)構(gòu)綜合考慮。粒結(jié)構(gòu)包括三個要素,即粒的內(nèi)在結(jié)構(gòu)、粒的結(jié)構(gòu)、粒的總體結(jié)構(gòu),它是多層次和多個分層結(jié)構(gòu)的結(jié)合。 粒計算借助于其他學(xué)科的哲學(xué)思想和方法論,并將它們抽象成為與具體領(lǐng)域無關(guān)的方法和策略。它的獨特性體現(xiàn)在用系統(tǒng)的、結(jié)構(gòu)化的理解和方法來解決復(fù)雜問題。對復(fù)雜問題的全面理解通常是多視角的,從每一個視角著眼的理解又是多層次的。由此可以得出,粒計算的過程就是對復(fù)雜問題的求解過程。它的結(jié)果表現(xiàn)為一個多視角、多層次的粒結(jié)構(gòu)。這個粒結(jié)構(gòu)是對復(fù)雜問題的系統(tǒng)且近似的描述和解答。 (2) 粒計算的理論

30、構(gòu)成[7, 8] 目前,粒計算有3個主要理論以及其它一些非主流理論:其一是詞計算理論:人類思考、判斷、推理主要是用語言,而語言是一個很粗的粒,如何用語言進(jìn)行推理判斷,這就是詞計算。其二是商空間理論:商空間理論把概念用子集表示,不同粒的概念體現(xiàn)為不同粒的子集,一簇概念構(gòu)成空間的一個劃分——商空間,不同的概念簇就構(gòu)成了不同的商空間。故粒計算,就是研究在給定知識基上的各種子集合之間的關(guān)系和轉(zhuǎn)換,以及對同一問題取不同的適當(dāng)?shù)牧?,從對不同的粒的研究中,綜合獲取對原問題的了解。其三是粗糙集理論:粗糙集理論于1982年由Pawlak提出,它是一種刻劃不完整性、不確定性的數(shù)學(xué)工具,主要解決信息粒的近

31、似方面的問題。另外許多學(xué)者也在研究粒計算,并將各種相關(guān)理論用于粒計算,有鄰域系統(tǒng)粒計算、信息熵粒計算、概念格粒計算、覆蓋粒計算、進(jìn)化粒模型、基于相容粒度空間的粒計算模型以及各模型相互交叉整合的模型方法等,在許多領(lǐng)域中得以實現(xiàn)或應(yīng)用。 1.1.4粒計算研究方向與方法 粒計算的形成和發(fā)展積累了多種思想、模型、范式、方法論、技術(shù)及工具。對粒計算的研究應(yīng)該著眼于三個觀點[2]:粒計算的哲學(xué)思想觀點、方法論觀點及計算模式觀點。從哲學(xué)思想觀點考慮,粒計算試圖將人類的認(rèn)知方式抽象化、形式化,從而提煉出結(jié)構(gòu)化的思維模式,而結(jié)構(gòu)化的思維模式是人類智能的重要體現(xiàn),它對設(shè)計基于知識的信息系統(tǒng)有著非常重要的影響,

32、它有兩個基本假設(shè):一個是所有問題都可以視作是其內(nèi)在要素之間的網(wǎng)絡(luò)狀或分層結(jié)構(gòu)的關(guān)聯(lián),另一個是所有的問題都有著類似的模式和特征;從方法論觀點考慮,粒計算著重研究系統(tǒng)化的方法和技術(shù),將問題求解的過程規(guī)范為結(jié)構(gòu)化的、自上而下的逐步求精過程;從計算模式觀點考慮,粒計算關(guān)注于結(jié)構(gòu)化的信息處理。信息處理是有層次的,其研究領(lǐng)域涉及抽象的信息處理、人腦中的信息處理及計算機(jī)中的信息處理。計算模式是方法論的具體表現(xiàn)形式。在計算機(jī)學(xué)科中,人們通常將興趣集中在基于計算機(jī)的信息處理模型上,并將其獨立出來進(jìn)行分析。 粒計算的哲學(xué)研究基于粒結(jié)構(gòu)的思維方式。基本問題[7, 10, 15]包括:如何定義粒、層次及分層結(jié)構(gòu)的內(nèi)

33、在屬性、外在屬性和環(huán)境屬性;如何定義它們的關(guān)系;如何準(zhǔn)確表達(dá)它們的關(guān)系;如何實現(xiàn)它們的關(guān)聯(lián)和切花;如何使它們的綜合功能最大化。哲學(xué)層面的研究是抽象的,同時又是方法論和計算模式的前提和保障。 粒計算的方法論致力于將粒計算哲學(xué)思想具體到問題求解的方法、技術(shù)和工具的研究和開發(fā)中去。需要考慮到粒計算方法的有效性、可靠性、準(zhǔn)確性、簡便性、計算成本和價值。對于不同的應(yīng)用還需考慮其問題的特定及限制。 粒計算的信息處理強(qiáng)調(diào)以計算機(jī)為主體的信息處理與以人為主體的信息處理的差別。一方面,以計算機(jī)為主體的信息處理依靠人來制定、設(shè)計、實施和優(yōu)化;另一方面,計算機(jī)的信息處理也促進(jìn)方法論的研究。粒計算的哲學(xué)思想和方法

34、論的完善為計算機(jī)的信息處理實踐提供了可以依據(jù)的準(zhǔn)繩和保障,計算機(jī)的信息處理實踐反過來也會促進(jìn)對粒計算哲學(xué)思想和方法論的研究,成為支持粒計算哲學(xué)思想的有力證據(jù)和改善粒計算方法論的原動力。 總之,如何定義粒(粒化)以及如何選擇合適的粒度是粒計算解決問題的首要任務(wù)[6, 9]。 1.1.5粒計算基本思想和實質(zhì) 粒計算從不同粒層次上研究問題,從人類求解問題的經(jīng)驗方法中提取基本原理如粒、層次、等級。從人類思考和求解問題上看,“人類以粒的觀點看世界”,“人們觀察、衡量、概括和推理的實體都是粒”[16]。當(dāng)人們面對復(fù)雜的、難于準(zhǔn)確把握的問題時由于能力有限,通常不是采用系統(tǒng)、精確的方法去追求問題的最優(yōu)解

35、,而是通過逐步嘗試的辦法達(dá)到有限的、合理的目標(biāo),也就是采用由粗到細(xì)、不斷求精的多粒度分析法,避免復(fù)雜的計算,從而獲得足夠滿足的解,使得原來看似非多項式的難解問題迎刃而解。人類智能的一個公認(rèn)特點,就是人們能從極不相同的粒上觀察和分析同一問題。人們能在不同粒的世界上進(jìn)行問題求解,且能夠很快地從一個粒世界跳轉(zhuǎn)到另一個粒世界,往返自如,毫無困難。這種處理不同粒世界的能力,正是人類問題求解的強(qiáng)有力的表現(xiàn),這也正是粒計算的基本思想[4]。粒計算方法是人工智能領(lǐng)域中的一種新理念和新方法,它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù),在可以容忍的程度內(nèi),主要用于對不確定、不準(zhǔn)確、不完整信息的處理,對大規(guī)模海量的數(shù)

36、據(jù)和對復(fù)雜問題的求解,使其達(dá)到可處理性、魯棒性、小代價和諧調(diào)性。粒計算的實質(zhì)[4]就是通過選擇合適的粒度,來尋找一種較好的、近似的解決方案,從而降低問題求解的難度。 而事實上,從真實世界上看,許多自然系統(tǒng)、社會系統(tǒng)、人工系統(tǒng)都是基于層次的,粒計算可以真實自然地表示這類系統(tǒng)。從簡化問題上看,多層系統(tǒng)的不同層次關(guān)注不同的粒特征,粒計算忽略了不必要和不相關(guān)的細(xì)節(jié),只關(guān)注適當(dāng)層次,從而簡化了問題。從實用角度上看,許多問題是不完整的、不確定的,或者含有模糊信息,很難區(qū)分元素,只能認(rèn)為是粒。且在許多實際問題中也不要求精確解,或者獲取精確信息的代價不菲,粒計算可以提高效率和降低代價。 1.2覆蓋廣義粗糙

37、集理論 定義1.1[17] 設(shè)是非空有限論域,是上的一簇子集且,對于任意,如果,那么為的一個劃分。 定義1.2[33] 設(shè)是非空有限論域,是上的一簇子集,如果中任一子集非空且,則為的一個覆蓋。 1.2.1覆蓋廣義粗糙集的研究背景 隨著計算機(jī)及網(wǎng)絡(luò)的日益普及,豐富的數(shù)據(jù)與貧乏的知識之間的矛盾日漸突出。不同領(lǐng)域的人都希望能從復(fù)雜的數(shù)據(jù)中得到自己所需要的知識,因此數(shù)據(jù)挖掘這門學(xué)科就應(yīng)運而生了。該學(xué)科涉及分類、概念形成和數(shù)據(jù)分析。這些都需要對不完全和不充分的信息進(jìn)行處理,圍繞這個問題產(chǎn)生了許多理論,如模糊理論、神經(jīng)網(wǎng)絡(luò)、商空間理論、詞計算、粗糙集理論等。而其中的粗糙集理論[17]于

38、20世紀(jì)80年代提出以來,無論從理論上還是從應(yīng)用上都取得了豐碩的成果,尤其在數(shù)據(jù)挖掘領(lǐng)域里[18]。它是通過不可區(qū)分關(guān)系為不完全和不充分信息的處理提供了一套系統(tǒng)的方法。通常,人們用一組屬性來描述事物,不可區(qū)分關(guān)系就是由這些事物相應(yīng)的屬性值來定義的。如果兩個事物對于這組屬性的屬性值相等,也就是說具有相同的描述,就認(rèn)為它們是不可區(qū)分的。從集合中關(guān)系這個角度來看,這種不可區(qū)分關(guān)系實際上就是等價關(guān)系。這樣,所有具有相同描述的事物構(gòu)成一個等價類,而所有的等價類構(gòu)成所考慮事物的一個劃分。在粗糙集理論中,這些等價類又稱為初等集,若干個初等集的并稱為確定。利用這個劃分,任意的事物的集合可以用兩個確定集來上下逼

39、近,這兩個確定集分別是該事物集合的上近似和下近似。它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗信息,對問題的不確定性的描述或處理是比較客觀的。由于這個理論未包含處理不精確或不確定原始數(shù)據(jù)的機(jī)制,所以與概率論、模糊數(shù)學(xué)和證據(jù)理論等其他處理不確定或不精確問題的理論有很強(qiáng)的互補(bǔ)性。 而隨著粗糙集理論得到廣泛的應(yīng)用以來,為使該理論能有更大的應(yīng)用空間,人們對Pawlak粗糙集理論進(jìn)行了許多有意義的推廣,如將等價關(guān)系放寬為相容關(guān)系[19]、相似關(guān)系[20]、一般二元關(guān)系[21];與模糊理論結(jié)合,將粗糙集理論推廣到模糊粗糙集理論[22]和廣義模糊粗糙集理論[23];將經(jīng)典粗糙集模型推廣到變精度粗

40、糙集模型[24];從等價關(guān)系等同于劃分這個角度出發(fā),Zakowski把劃分放寬為覆蓋[25],將Pawlak粗糙集理論推廣到覆蓋廣義粗糙集理論。 1.2.2覆蓋廣義粗糙集的國內(nèi)外研究現(xiàn)狀 然而,自從Pawlak粗糙集理論被推廣到覆蓋廣義粗糙集理論之后,國內(nèi)外學(xué)者對其做了大量的研究。文獻(xiàn)[26-53, 54-58]對覆蓋廣義粗糙集理論進(jìn)行了深入研究,其中文獻(xiàn)[30]討論了覆蓋廣義粗糙集的近似算子,文獻(xiàn)[29]主要研究覆蓋上下近似運算分別成為Kuratowski閉包和內(nèi)部運算的充分必要條件,文獻(xiàn)[27-28]主要研究了覆蓋廣義粗糙集中一階集合運算,文獻(xiàn)[26]主要結(jié)合形式概念分析來研究

41、覆蓋廣義粗糙集,文獻(xiàn)[31, 53]討論了廣義粗糙集理論的代數(shù)結(jié)構(gòu),文獻(xiàn)[49, 57]對基于關(guān)系的廣義粗糙集進(jìn)行了研究,文獻(xiàn)[33, 43, 44, 54, 56]對在覆蓋廣義粗糙集理論下的約簡和不確定性度量進(jìn)行了研究,文獻(xiàn)[34-36, 39, 41-42, 45-48, 51, 58]對覆蓋廣義粗糙集理論中的上下近似運算進(jìn)行了公理化的研究,文獻(xiàn)[38, 40, 52]分別對覆蓋廣義粗糙模糊集和拓?fù)湎嚓P(guān)性質(zhì)進(jìn)行了研究,而文獻(xiàn)[60-63]對變精度的覆蓋廣義粗糙集理論及其模型進(jìn)行了研究,以及其他的一些有關(guān)覆蓋廣義粗糙集理論的研究和總結(jié)[32, 50, 55, 59]。就應(yīng)用方面而言,覆蓋廣義

42、粗糙集理論已應(yīng)用于沖突分析[37]、信息檢索[64]等領(lǐng)域。 1.3本文研究的意義、目標(biāo)、方法和主要內(nèi)容以及創(chuàng)新點 1.3.1本文研究的意義 由于覆蓋廣義粗糙集理論是將Pawlak粗糙集理論在劃分基礎(chǔ)上推廣到覆蓋而建立起來的,而覆蓋廣義粗糙集理論主要研究與覆蓋相關(guān)的理論體系及應(yīng)用,所以 有關(guān)粗糙集一些理論和應(yīng)用并不一定在覆蓋廣義粗糙集下適用,那么在粒計算思想理論背景下研究覆蓋廣義粗糙集的相關(guān)理論和應(yīng)用就顯的十分有意義。 1.3.2本文研究的目標(biāo) 雖然覆蓋廣義粗糙集有了一定的理論基礎(chǔ)和應(yīng)用領(lǐng)域,但與粗糙集相比,需要不斷豐富其理論基礎(chǔ)和應(yīng)用領(lǐng)域,而繼續(xù)建立覆蓋近似運算

43、公理化理論體系、覆蓋約簡及近似性度量和不斷尋求覆蓋廣義粗糙集的適用方向是進(jìn)一步研究的具體目標(biāo),本文旨在對覆蓋廣義粗糙集的應(yīng)用基礎(chǔ)進(jìn)行研究。 1.3.3本文研究的方法、技術(shù)路線及可行性分析 本文將采用由淺入深、并行開展的研究方法。首先,介紹了粒計算思想理論體系的新穎性以及獨特性——以孤立點挖掘為例。其次,在粒計算思想理論體系下,利用覆蓋相關(guān)理論分別對基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘、關(guān)聯(lián)沖突分析、分類準(zhǔn)確率三個方面進(jìn)行獨立研究。 (1) 在基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用研究中,主要利用條件屬性和決策屬性的交叉一致性來尋找引起差異信息系統(tǒng)中的不一致因素,然后利用改進(jìn)的規(guī)則挖掘算

44、法通過實驗對比來實現(xiàn)。 (2) 在面向沖突分析的研究中,將沖突看作是在不同結(jié)構(gòu)層上的?;^程,提出關(guān)聯(lián)沖突的概念,給出其形式化的定義,然后并對其進(jìn)行分析和建模,最后給出關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,將對不同階段引發(fā)的異常進(jìn)行詳細(xì)的分析 (3) 在面向分類準(zhǔn)確性研究中,利用拓?fù)涓采w鄰域理論來尋找覆蓋系統(tǒng)上重疊元素,然后在粒計算的思維體系背景下,以實例輔證,采用折中方式給出獨立于數(shù)據(jù)標(biāo)簽和理想分類結(jié)果假設(shè)的評價分類法準(zhǔn)確性的統(tǒng)一范式。 以上提出的研究方法和技術(shù)路線是在前人對覆蓋廣義粗糙集理論和應(yīng)用以及相應(yīng)領(lǐng)域研究基礎(chǔ)上的再探索。雖然涉及領(lǐng)域比較寬泛,但都是在粒計算背景下研究的與

45、覆蓋相關(guān)的理論和應(yīng)用,所以本文實施和所采用的技術(shù)路線是可行的。 1.3.4本文研究的主要內(nèi)容以及創(chuàng)新點 本文主要是在粒計算的思想理論背景下研究與覆蓋相關(guān)的理論及其應(yīng)用。具體包括以下六章內(nèi)容: 第一章為緒論。首先介紹了粒計算的相關(guān)理論知識;然后介紹了覆蓋廣義粗糙集的研究背景,分析了國內(nèi)外研究現(xiàn)狀;最后介紹了本文的研究意義、目標(biāo)、方法和主要內(nèi)容以及創(chuàng)新點。 第二章為粒計算的獨特魅力。本章主要討論了粒計算的新穎性和獨特性——以孤立點挖掘為例,創(chuàng)新性地給出了孤立點挖掘總的指導(dǎo)原則和具體實施的流程圖,為孤立點挖掘算法的選擇、改進(jìn)和創(chuàng)新提供了實際的參考價值,以此來揭示粒計算的獨特思

46、維模式和研究方法,進(jìn)而體現(xiàn)本文的寫作意圖即受粒計算思想與理論的影響,獲取與覆蓋相關(guān)的創(chuàng)新思想來源。 第三章為覆蓋粒計算在基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用研究。本章針對差異信息系統(tǒng)構(gòu)造過程中會引起新的不一致這個問題,利用覆蓋粒計算相關(guān)理論提出了一種新的能消除這種不一致因素的公理化方法。實驗結(jié)果表明,在保持時間復(fù)雜度不變的情況下,利用改進(jìn)的規(guī)則挖掘算法,通過消除不一致因素而獲得的規(guī)則更全面和更大程度地反映了條件屬性值變化與決策變化趨勢之間的內(nèi)在聯(lián)系。 第四章為基于覆蓋粒計算的關(guān)聯(lián)沖突分析。本章在粒計算思想理論背景下,首次提出了“關(guān)聯(lián)沖突”的概念,利用覆蓋沖突分析策略,通

47、過“服務(wù)——資源”實例建立了關(guān)聯(lián)沖突分析的合理泛化模型,討論了關(guān)聯(lián)沖突過程中所可能引發(fā)異常的階段,并對不同階段引發(fā)的異常進(jìn)行了詳細(xì)的分析,給出了具體的解決方案。 第五章為基于覆蓋粒計算的分類準(zhǔn)確性研究。在面向分類法準(zhǔn)確性(單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集)的研究中,本章利用拓?fù)涓采w鄰域理論,給出了一種新的尋找覆蓋系統(tǒng)上重疊元素的相關(guān)的公理化方法。在粒計算的思維體系背景下,以實例輔證,創(chuàng)新性地給出了獨立于數(shù)據(jù)標(biāo)簽和理想分類結(jié)果假設(shè)(一種假設(shè)為劃分,另一種假設(shè)為覆蓋)的評價分類法準(zhǔn)確性的統(tǒng)一范式。需要說明的是,本章對于分類法準(zhǔn)確性統(tǒng)一范式的給出采取的折中處理方式值得借鑒。 第六章為總結(jié)與展

48、望。文章在同一個思想理論背景下,討論了基于覆蓋的相關(guān)理論和應(yīng)用,它是覆蓋廣義粗糙集的理論及其應(yīng)用的補(bǔ)充和發(fā)展,并且更體現(xiàn)出了粒計算背景下知識發(fā)現(xiàn)理論和方法的獨特性,具有重要的理論意義及潛在的應(yīng)用價值,同時對該領(lǐng)域理論和應(yīng)用研究的發(fā)展方向提出了新的展望。 此外,本文收錄了一些該領(lǐng)域內(nèi)最新的研究成果,以期能為科研工作者認(rèn)識和深入研究提供便利。 第二章 粒計算的獨特魅力 第二章 粒計算的獨特魅力 ——以孤立點挖掘為例 本章主要討論粒計算的新穎性和獨特性,以此來揭示粒計算的獨特思維模式和研究方法,

49、從中體現(xiàn)出本文的寫作意圖,在粒計算思想理論背景下的覆蓋理論及其研究的問題即受粒計算思想與理論的影響,獲取與覆蓋相關(guān)的創(chuàng)新思想來源。以孤立點挖掘為例,在粒計算的思想理論背景下,給出了孤立點挖掘總的指導(dǎo)原則和具體實施的流程圖,為孤立點挖掘算法的選擇、改進(jìn)和創(chuàng)新提供了實際的參考價值,將會對孤立點的挖掘產(chǎn)生一定深遠(yuǎn)的影響。 2.1引言 孤立點也即異常點[65],是指數(shù)據(jù)集中不符合一般模型的那些對象,即和其他數(shù)據(jù)有著不同的性質(zhì)。對于某些度量而言,這些對象與數(shù)據(jù)集中的其他數(shù)據(jù)有著顯著的不同。目前,針對不同的數(shù)據(jù)挖掘任務(wù)和挖掘背景,一些數(shù)據(jù)挖掘算法盡量去減少孤立點帶來的影響或者甚至是從數(shù)據(jù)集中消除他

50、們,然而,這可能會導(dǎo)致一些重要的隱秘信息的缺失。換句話說,孤立點本身在諸如入侵檢測等事件中有著特殊的意義,它可以表示入侵的異常行為。因此,孤立點的檢測和分析(即孤立點挖掘)在數(shù)據(jù)挖掘中就顯得非常重要。一般,孤立點挖掘問題可以看作兩個子問題:一個是在給定的數(shù)據(jù)集中定義一個什么樣的數(shù)據(jù)可以被認(rèn)為是孤立點或不一致的;另一個是找到一個有效的方法去挖掘這些定義的孤立點。 在過去的一個多世紀(jì)里,人們對孤立點的研究經(jīng)歷了幾個興衰交替?,F(xiàn)在,它再一次成為信息科學(xué)里的一個活躍分支,并在數(shù)據(jù)挖掘領(lǐng)域里受到越來越廣泛的關(guān)注。孤立點挖掘之所以有著廣泛的應(yīng)用,是與其所在的實際領(lǐng)域里的特殊性決定,諸如入侵檢測、市場營銷

51、和醫(yī)療等領(lǐng)域。孤立點的引起是有一些原因的[66],同時相應(yīng)的也有一些檢測或挖掘孤立點的方法[67-76]。然而,每種方法總是存在著不可避免的缺點或者略勢,沒有一個普遍有效的方法來檢查數(shù)據(jù)集中的孤立點[77]。特別在檢測孤立點的過程中,如何選擇一個合適的檢測方法沒有一個普遍的準(zhǔn)則,而且就孤立點目前研究的熱點和未來的發(fā)展來說[77],挖掘任務(wù)會變得非常困難。因此,尋求一個適用于孤立點挖掘的總的指導(dǎo)原則就成為了最急需要解決的問題。 2.2引起孤立點的原因 (1) 數(shù)據(jù)來自不同的類 一個數(shù)據(jù)不同于其他數(shù)據(jù),可能因為它來自不同的類或?qū)儆诓煌念愋?。例如,一個在進(jìn)行信用卡欺詐的人可能

52、被歸為不合法的信用卡用戶而不是非法的用戶。相同地,諸如欺詐、入侵、疾病暴發(fā)和異常的實驗結(jié)果等都可以被認(rèn)為是造成孤立點的例子。 (2) 自然變異 在統(tǒng)計知識的背景下,一些諸如正太分布等模型可以用來模擬許多數(shù)據(jù)集的分布。隨著數(shù)據(jù)點離正太分布的中心距離的增加,該點出現(xiàn)的可能性就會急劇地減少。換句話說,對于大多數(shù)點來說,離中心(平均對象)越近,不同于這個平均對象的可能性就越小。例如,假定一個男性特別的高,當(dāng)他獨自一人時,沒有人與之形成對比,他沒有什么特別之處。但是一旦于其他人在高度上做比較時,他就是一個孤立點,在這群人里他是一個高度上的極值。通常這些極值點或沒有任何變異的點作為孤立點是非常有意

53、思的。 (3) 數(shù)據(jù)度量和收集導(dǎo)致的誤差 在數(shù)據(jù)收集和度量的過程中,所導(dǎo)致的誤差是引起孤立點的另一個根源。例如,由于人為失誤、設(shè)備誤差或者數(shù)據(jù)本身具有噪音導(dǎo)致所記錄的度量值不正確。一般情況下都會刪除這些孤立點,因為他們不能提供有用的信息,相反他們會降低數(shù)據(jù)分析的質(zhì)量。但這些數(shù)據(jù)能反映出一些有用的信息,例如誤差的根源是人為、設(shè)備還是其他的原因造成的等。 2.3孤立點挖掘方法的思想描述 (1) 基于統(tǒng)計模型的孤立點檢測方法[67, 68] 許多檢測技術(shù)首先都會構(gòu)造一個數(shù)據(jù)模型。孤立點就是這些不能夠很好擬合這個模型的數(shù)據(jù)對象。例如,數(shù)據(jù)的分布模型可以通過估計概率分布的參

54、數(shù)來構(gòu)造。如果一個數(shù)據(jù)對象不能夠很好的擬合這個模型,它可能不服從這個分布,那它就是孤立點。如果模型是簇的集合,那么孤立點會明顯的不屬于任何簇?;蛘弋?dāng)使用回歸模型時,孤立點會相對的遠(yuǎn)離模型的預(yù)測值。 (2) 基于距離的孤立點檢測方法[69, 70] 目前,許多孤立點檢測的方法都是基于距離的。孤立點就是遠(yuǎn)離大多數(shù)點的點。當(dāng)數(shù)據(jù)分散在二維或三維的圖中時,我們可以通過基于距離的方法,用肉眼或簡單方法分辨出哪些點是孤立點。 (3) 基于偏差的孤立點檢測方法[71, 72] 我們也可以通過比較一組數(shù)據(jù)的主要特征來檢測孤立點。根據(jù)問題的要求,可以事先給定數(shù)據(jù)所對應(yīng)的一些特征,那么孤立點就是這

55、些不能像特征所描述的那樣的點。 (4) 基于密度的孤立點檢測方法[73, 74] 數(shù)據(jù)分布的密度估計是相對可以通過計算得到的,尤其是對數(shù)據(jù)之間存在距離的點來說。那些處于低密度的數(shù)據(jù)點相對地遠(yuǎn)離他們的鄰居可以被認(rèn)為是孤立點。但是考慮到數(shù)據(jù)集可能有不同的密度區(qū)域,因此當(dāng)一個點所在的區(qū)域的密度明顯低于它的大多數(shù)鄰居的時候,它可以被歸為孤立點。 (5) 基于聚類的孤立點檢測方法[75, 76] 聚類分析和孤立點檢測有不同的目標(biāo)。聚類分析通常被用于發(fā)現(xiàn)強(qiáng)相關(guān)的對象,而孤立點檢測則被用來發(fā)現(xiàn)那些和強(qiáng)相關(guān)的對象沒有關(guān)系的對象。顯然,聚類可以用于孤立點檢測。 2.4討論 在數(shù)據(jù)

56、挖掘中,粒計算有著廣泛的應(yīng)用[78-80]。數(shù)據(jù)的?;绕涫菑?fù)雜數(shù)據(jù)的?;腔诹S嬎愕臄?shù)據(jù)挖掘的必要前提。?;某潭戎苯佑绊憯?shù)據(jù)挖掘的效率和計算復(fù)雜度。既要避免粒度過粗而造成求解失敗,又要避免粒度過細(xì)造成信息的冗余而導(dǎo)致求解效率低下。因此,選擇最優(yōu)?;潭仁橇S嬎銛?shù)據(jù)挖掘的關(guān)鍵。另外,當(dāng)?;某潭纫阎獣r,粒化的方法直接決定了?;男?。 孤立點挖掘是一個將孤立點從數(shù)據(jù)集中分離出來的過程。通過對引起孤立點的原因進(jìn)行分析,我們發(fā)現(xiàn)孤立點大都是各種情況里的不尋常的對象。他們由突發(fā)事件、人為因素或環(huán)境原因等所引起的,所以我們需要不同的實施過程將它們分離出來。事實上,從粒計算的觀點來看,分離的過

57、程就是粒化的過程,并且上面所列出的孤立點的檢測方法都是基于?;枷氲摹U鏩adeh所認(rèn)為[13]的:人類的認(rèn)知能力概括為?;?、組織和因果推理,人們對孤立點挖據(jù)方法的設(shè)計正是人類認(rèn)知能力尤其?;芰Φ姆磻?yīng),例如,基于距離、密度和聚類的孤立點檢測方法可以看作為基于空間?;姆椒?,而基于統(tǒng)計模型和偏離的孤立點檢測方法可以被看作為基于模糊匹配信息的粒化方法。而且分離的思想與粒度有著非常近的關(guān)聯(lián),在不同的?;缴希ㄟ^使用一些特殊的方法或策略,我們可以選擇合適的粒度來縮小孤立點的檢測范圍,這樣就可以提高孤立點挖掘的效率并降低挖掘的時間復(fù)雜度,尤其對大數(shù)據(jù)集中的孤立點挖掘來說效果和意義更明顯。

58、 我們換個角度來考慮孤立點檢測的方法。粒計算新穎和獨特的原因不完全在于提供具體的方法和策略,而在于提出了一個統(tǒng)一的框架,對這些方法和策略進(jìn)行全面理解及綜合。如果我們通過粒結(jié)構(gòu)將知識和系統(tǒng)合為一體。由此產(chǎn)生的結(jié)果是,人們能將普遍適用的粒計算哲學(xué)有意識地運用到各自面對的問題中去,從而對問題進(jìn)行更有效的求解。同時,對高層次的粒結(jié)構(gòu)的認(rèn)識可以防止人們對相同、相似理論和方法的重復(fù)發(fā)現(xiàn)和發(fā)明,避免浪費精力。因此,將粒計算的新穎和獨特之處運用到孤立點挖掘中,有如下指導(dǎo)原則: 通過對引起孤立點原因和孤立點檢測方法的分析,結(jié)合粒計算的觀點,從方法本身的高層粒結(jié)構(gòu)出發(fā),獨立于檢測方法的孤立點挖掘總的指導(dǎo)原則是

59、?;^點,同時表明了在選擇合理的粒度之前,它在孤立點挖掘中扮演著非常重要的角色,根據(jù)不同的檢測目標(biāo),有著不同的?;瓌t。而且?;^點是一種新的求解系統(tǒng),它是孤立點檢測過程中首先并且唯一開始著手的思想。換句話說,對孤立點檢測方法的選擇、改進(jìn)和創(chuàng)新,它提供了統(tǒng)一的、正面的和有效的說明。在信息科學(xué)快速發(fā)展的背景下,它將對孤立點的挖掘產(chǎn)生深遠(yuǎn)的影響。 圖2.1是基于粒計算的孤立點挖掘的統(tǒng)一過程框架圖,它是粒計算思想應(yīng)用到孤立點挖掘中的很好體現(xiàn),其中有陰影部分是背景知識: 圖2.1 孤立點挖據(jù)的統(tǒng)一實施過程 2.5小結(jié) 對于粒計算而言,其思想和理論在孤立點挖掘上得到了充分的體

60、現(xiàn)。在對孤立點挖掘方法的分析和概括的基礎(chǔ)上,總結(jié)出了獨立于方法之上的方法論原則(?;笇?dǎo)原則),使得孤立點挖掘的著手點集中在?;乃枷肷?,避免了許多重復(fù)性的工作和不必要的麻煩,這是粒計算任務(wù)和目標(biāo)的體現(xiàn)。而孤立點挖掘的統(tǒng)一實施過程流程圖體現(xiàn)了粒計算的其他方面:挖掘過程本身是有先后順序之分,因此是具有一定層次性;而挖掘過程中,粒度大小的選擇即合適層次上的?;垣@取?;瓌t用以選擇、創(chuàng)新和改進(jìn)挖掘方法;由于粒度大小選擇上原因?qū)е峦诰蚪Y(jié)果不是很滿意,需要調(diào)節(jié)粒度,因此,這是一個循環(huán)反復(fù)的過程(體現(xiàn)出了分層結(jié)構(gòu)以及粒結(jié)構(gòu)),其間需要粒計算理論注入其中以求對所要解決的問題選擇合理的層次和粒度。 對于

61、孤立點挖掘而言,?;^點是孤立點挖掘方法的選擇、改進(jìn)和創(chuàng)新的切入點,它的引入使得人們對孤立點挖掘的研究更廣泛和更集中即不斷的將新的?;椒ㄒ氲焦铝Ⅻc挖掘中和只將挖掘任務(wù)放在?;乃枷肷线M(jìn)行考慮,這樣一方面使得挖掘算法得到不斷改進(jìn)和創(chuàng)新,另一方面又可以避免許多不必要的重復(fù)勞動。而孤立點挖掘統(tǒng)一實施過程圖的引入,使得孤立點挖掘任務(wù)的實施更一致化、明了化和細(xì)致化,尤其面對復(fù)雜數(shù)據(jù)諸如數(shù)據(jù)流、高維數(shù)據(jù)集和Web數(shù)據(jù)等中的孤立點挖掘時,該過程圖更能體現(xiàn)其優(yōu)勢所在,而且粒計算本身就具有其獨特的處理復(fù)雜數(shù)據(jù)的能力。 最后對于二者而言,基于粒計算的孤立點挖掘?qū)o孤立點挖掘的研究和分析提供一種新的策略和模

62、式,它將對孤立點的挖掘產(chǎn)生深遠(yuǎn)的影響。而將粒計算思想理論應(yīng)用于孤立點挖掘,全面體現(xiàn)了粒計算獨特的思維模式和研究方法,顯示出了它的獨特性和新穎性,更體現(xiàn)出了本文的寫作意圖,將在粒計算的思想理論背景下研究與覆蓋相關(guān)的理論及其應(yīng)用即受粒計算思想與理論的影響,獲取與覆蓋相關(guān)的創(chuàng)新思想來源。 第三章 覆蓋粒計算在基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用 第三章 覆蓋粒計算在基于粗糙集的動態(tài)信息系統(tǒng)規(guī)則挖掘中的應(yīng)用 在動態(tài)信息系統(tǒng)中,采用粗糙集方法來挖掘系統(tǒng)中潛在的規(guī)則。對于這類問題,由于信息系統(tǒng)的不一致性以及差異信息系統(tǒng)構(gòu)造過程中的不確定性和差異性,規(guī)則挖掘的結(jié)果不甚理

63、想:在粒計算的思想理論背景下,本章將覆蓋相關(guān)理論運用到規(guī)則挖掘中,提出了一種消除引起差異信息系統(tǒng)規(guī)則挖掘中不一致因素的方法。實驗結(jié)果表明,在保持時間復(fù)雜度不變的情況下,利用改進(jìn)的規(guī)則挖掘算法,通過消除不一致因素而獲得的規(guī)則將能更全面和更大程度地反映條件屬性值變化與決策變化趨勢之間的內(nèi)在聯(lián)系。 3.1引言 粗糙集方法是一種用于處理不確定性和模糊性數(shù)據(jù)的數(shù)學(xué)工具[17, 81]。但由于客觀世界的不確定性問題通常表現(xiàn)為易變性和過程性,傳統(tǒng)的粗糙集很難體現(xiàn)出不確定性的變化過程和變化趨勢,即在信息系統(tǒng)中體現(xiàn)為屬性隨著時間的推移而不斷地變化[82, 83]。在決策信息系統(tǒng)中,利用粗糙集理論建立屬性

64、值隨時間和場景變化的動態(tài)信息系統(tǒng)模型[84],可以挖掘出條件屬性值變化與決策屬性值變化之間存在的內(nèi)在聯(lián)系??墒怯捎趧討B(tài)信息系統(tǒng)構(gòu)造過程中會產(chǎn)生新的不一致性[85],使得從差異信息系統(tǒng)上獲得的決策規(guī)則不甚理想。為了能獲得理想的決策規(guī)則,本文給出了一種能消除引起差異信息系統(tǒng)不一致因素的方法,并給出了改進(jìn)的基于粗糙集的啟發(fā)式規(guī)則挖掘算法,最終使決策規(guī)則能更好更全面的反應(yīng)條件屬性值的變化與決策變化趨勢之間的關(guān)系。 3.2預(yù)備知識 一個信息系統(tǒng)表示為一個四元組:,其中是對象的集合,即論域;是屬性集(,為條件屬性集,為決策屬性集);,表示的值域;是一個信息函數(shù)。由于單個信息系統(tǒng)無法描述信息

65、和信息量隨時間和場景的變化的狀態(tài),文獻(xiàn)[84]中給出了信息變換函數(shù)的概念,函數(shù)的定義域是時間和場景的區(qū)域,其中時間序列集合為,場景集合為,狀態(tài)序列集,每個都是一個決策表且論域、條件屬性、決策屬性均相同,屬性值隨著時間和場景的變化而變化。有: 定義3.1 動態(tài)信息系統(tǒng)為狀態(tài)序列。 抽取信息系統(tǒng)和(),稱為條件屬性值差異,其中表示對象個體()關(guān)于屬性()在時刻場景下的屬性值,條件屬性值差異描述了條件屬性值的變化量。記,其中是對條件屬性值的差異描述,的屬性值為的屬性值差異。 而稱為決策變化趨勢,其中,描述了相同的對象個體的決策值從變化到。若兩個不同個體具有相同的變化趨勢=,當(dāng)

66、且僅當(dāng)和同時成立。記,是對決策屬性變化趨勢的描述,的屬性值為的決策變化趨勢。 定義3.2 差異信息系統(tǒng)為,其中,,,,、為差異信息系統(tǒng)的條件屬性和決策屬性。 由粗糙集理論可以得出,若信息系統(tǒng)和關(guān)于決策屬性的等價類記為:和,差異信息系統(tǒng)中關(guān)于決策屬性的等價類記為:,則有=。特殊的,當(dāng)時,此時的差異信息系統(tǒng)被稱為相鄰差異信息系統(tǒng)。則有下面定義: 定義3.3 在差異信息系統(tǒng)中,對任意的屬性,的重要度定義為,式中:,表示的正域[81]。重要度表明了屬性對于決策分類能力的貢獻(xiàn)程度。 定義3.4 設(shè),,(差異決策表有行列,決策屬性列),構(gòu)造上第行的辨識矩陣,其中如果,則;否則。 定義3.5 設(shè)從差異信息系統(tǒng)上獲取的決策規(guī)則集為[86],規(guī)則表示形式為,定義決策規(guī)則的覆蓋廣度為,其中為上滿足該決策規(guī)則的記錄數(shù);決策規(guī)則的準(zhǔn)確率為,其中、分別為上滿足該決策規(guī)則前件和后件的記錄數(shù)。 從中可以看出,通過某個挖掘算法得到的決策規(guī)則,其覆蓋廣度與準(zhǔn)確率并不成正比,即在同樣的時間復(fù)雜度下,一個改進(jìn)的挖掘算法得到的挖掘規(guī)則,其覆蓋廣度和準(zhǔn)確率都必須同時增大,因此決策規(guī)則更準(zhǔn)確并且覆蓋記錄也就更

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!