【Ontology】本體(Ontology)綜述 - 程式前沿

文章推薦指數: 80 %
投票人數:10人

大連海事大學智慧信息處理學科梯隊的黃映輝教授從人工智慧引入Ontology時候Ontology的定義開始,分析了Ontology的哲學意義和Ontology被引入到計算機 ... 程式語言前端開發IOS開發Android開發雲端運算人工智慧伺服器搜尋資料庫軟體開發工具【Ontology】本體(Ontology)綜述2018.07.21程式語言語義網HOME程式語言【Ontology】本體(Ontology)綜述Advertisement本體作為一種能在語義和知識層次上描述領域概念的建模工具,其目標是捕獲相關領域的知識,確定該領域內共同認可的詞彙,通過概念之間的關係來描述概念的語義,提供對該領域知識的共同理解。

語義Web(theSemanticWeb)是在本體理論基礎之上對現有Web所進行的擴充套件[15],其目標是使Web上的資訊具有計算機可以理解的語義,在本體的支援下實現資訊系統間語義上的互操作性,以及對Web資源所進行的智慧訪問和檢索[16]。

充分實現語義Web的潛力,需要大規模採用基於本體的方法來共享資訊和資源,本體是語義Web得以實現的基礎和關鍵。

本章主要介紹論文工作涉及的本體、語義Web、語義Web服務等基本概念。

1.1 OntologyOntology的概念最早源於亞里士多德(公元前384-322年)對事物存在本質的研究,在哲學上的定義為“對世界上客觀存在物的系統地描述,即存在論”,是客觀存在的一個系統的解釋或說明,關心客觀現實的抽象本質[17]。

近幾年,Ontology作為資訊抽象和知識描述的工具,被計算機領域所採用。

計算機領域的Ontology是否應該叫做“本體”,存在一定的爭議。

目前,Ontology主要有“本體”和“本體論”兩種中文譯法。

大連海事大學智慧信息處理學科梯隊的黃映輝教授從人工智慧引入Ontology時候Ontology的定義開始,分析了Ontology的哲學意義和Ontology被引入到計算機領域後的實質內容,認為計算機領域的Ontology不應該譯作“本體”或者“本體論”。

Ontology作為從哲學領域借用的術語,其實質是“概念模型”,應該被翻譯為“本體論模型”[19]。

將Ontology翻譯成“本體”已經是計算機領域一個約定俗成的做法。

本文在討論Ontology的時候,為了行文方便並符合業界習慣,仍然使用“本體”的說法。

這裡討論的本體的相關知識,均限於計算機領域的本體。

1.1.1本體的定義本體在計算機領域的定義經歷了一個演化過程。

在人工智慧界,最早給出本體定義的是Neches等人,他們將本體定義為“給出構成相關領域詞彙的基本術語和關系,以及利用這些術語和關係構成的規定這些詞彙外延的規則的定義[19]”。

1993年,Gruber給出了本體的一個最為流行的定義,即“本體是概念模型的明確的規範說明[20]”。

後來,Borst在此基礎上,給出了本體的另外一種定義:“本體是共享概念模型的形式化規範說明[21]”。

Studer等人在對本體做了深入研究後,擴充套件了Gruber的定義,認為“本體是共享概念模型的明確的形式化規範說明(Anontologyisaformal,explicitspecificationofasharedconceptualisation.)[22]”。

該定義包含四層含義:1)概念模型(Conceptualization),即本體是通過抽象客觀世界的概念而得到的模型,它表示的含義獨立於具體的環境狀態;2)明確性(Explicit),即本體所使用的概念及在這些概念之上的約束都有明確的定義,沒有二義性;3)形式化(Formal),即本體是計算機可處理的,而不是自然語言;4)共享(Shared),即本體體現的是共同認可的知識,反映的是相關領域中公認的概念集合,它所針對的是團體而不是個體。

本體的目標是捕獲相關的領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞彙,並從不同層次的形式化模式上給出這些詞彙和詞彙之間相互關係的明確定義[23]。

1.1.2本體建模元語本體中的知識是通過類、關係、函式、公理和例項來形式化地表示的[20]。

Perez等人用分類法組織了本體,歸納出5個基本的建模元語[24]:1)         類(Classes)或概念(Concepts)指任何事務,如工作描述、功能、行為、策略和推理過程。

從語義上講,它表示的是物件的集合,其定義包括概念的名稱,與其他概念之間的關係的集合,以及用自然語言對概念的描述。

2)         關係(Relations)在領域中概念之間的互動作用,形式上定義為n維笛卡兒積的子集。

如子類關係(subClassOf)。

在語義上關係對應於物件元組的集合。

3)         函式(Functions)一類特殊的關係。

該關係的前n-1個元素可以唯一決定第n個元素。

形式化的定義為F:C1×C2×…×Cn-1→Cn。

如motherOf就是一個函式,motherOf(x,y)表示y是x的母親。

4)         公理(Axioms)代表永真斷言,如概念乙屬於概念甲的範圍。

5)         例項(Instances)代表元素。

從語義上講例項表示的就是物件。

本體與物件導向的理論非常類似,但這兩者本質是不同的。

本體是對某個領域靜態概念模型的描述。

物件導向是一種軟體開發方法,主要思想是使用物件、類、繼承、封裝、訊息和多型等基本概念來構造系統。

在物件導向的理論中,物件或類不僅包括描述物件靜態特徵的屬性,也包括描述物件動態特徵(行為)的方法。

物件的屬性和方法結合在一起形成一個獨立的系統單位,儘可能對外隱蔽物件的內部細節,對外提供統一的介面。

1.1.3本體描述語言本體描述語言起源於人工智慧(ArtificialIntelligence,AI)領域對知識表示的研究,這方面的本體描述語言主要有:KIF(KnowledgeInterchangeFormat)[25]、Ontolingua[4]、OKBC(OpenKnowledgeBaseConnectivity)[26]、OCML(OperationalConceptualModelingLanguage)[27]、Framelogic[28]、Loom[29]等。

近年來,隨著Web技術的發展,Web與本體理論的結合成為必然趨勢,誕生了一些Web本體描述語言,主要有RDF(ResourceDescriptionFramework)[30]、RDFSchema[31]和SHOE(SimpleHTMLOntologyExtension)[32]等。

描述邏輯(DescriptionLogics,DLs)[33]是人工智慧領域研究的一種重要的知識表示語言,目前正被積極應用於本體的描述。

以描述邏輯為基礎的本體描述語言主要有OIL[34]、DAMLOIL[35]和OWL[1]。

Web本體語言OWL(WebOntologyLanguage,OWL)[1]是W3C2004年推薦的本體描述語言的標準,是在WWW上釋出和共享本體的語義標記語言。

OWL作為RDF/RDF(S)的擴充套件,是在DAMLOIL的基礎上發展起來的,目的是提供更多的原語以支援更加豐富的語義表達並支援推理。

OWL有三個子語言:OWLLite、OWLDL和OWLFull。

其中,OWLLite用於提供給那些只需要一個分類層次和簡單屬性約束的使用者。

推理系統能夠保證計算完備性(即所有的結論都能被計算出來)和可判定性(即所有計算都在有限時間完成)。

OWLFull支援那些需要在語法自由的RDF上進行最大程度表達的使用者,它允許一個本體在預定義的(RDF或OWL)詞彙表上增加詞彙。

1.1.4本體構建的準則目前已有的本體很多,出於對各自問題域和具體工程的考慮,構造本體的過程也是各不相同的。

由於沒有一個標準的本體構造方法,不少研究人員出於指導開發本體的目的,從實踐出發,提出了不少有益於構造本體的標準。

下面列舉一些在實踐中被證明比較有用的本體構建準則。

1)         清晰性和客觀性(ClarityandObjectivity)[20]:本體應該通過客觀定義和自然語言文件對所定義的術語給出明確的、客觀的語義定義。

2)         完全性(Completeness)[20]:本體所給出的術語定義是完整的,完全能表達所描述術語的含義。

3)         一致性(Coherence)[20]:由術語得出的推論與術語本身的含義是相容的,即支援與其定義相一致的推理,不會產生矛盾;所定義的公理以及用自然語言進行說明的文件也應該具有一致性。

4)         最大單調可擴充套件性(MaximumMonotonicExtendibility)[20]:向本體中新增通用或專用的術語時,不需要修改其已有的概念定義和內容,支援在已有的概念基礎上定義新術語。

5)         最小本體承諾(MinimalOntologicalCommitments)[20]:本體約定應該最小,對待建模物件應給出儘可能少的約束。

而所謂的承諾,在本體中指的是對怎樣以一致的、相容的方式使用共享詞彙所達成的共識。

一般地,本體約定只要能夠滿足特定的知識共享需求即可,這可以通過定義約束最弱的公理以及只定義交流所需的詞彙來保證。

6)         本體描述原則(OntologicalDistinctionPrinciple)[36]:本體中的類應該是互不相交的。

7)         概念層次多樣化(Diversificationofhierarchies)增強多繼承機制的能力[37]。

8)         模組化設計(Modularity)以最小化模組化之間的耦合度[38]。

9)         語義距離最小化(Minimizationofthesemanticdistance)[37]:兄弟概念之間的語義距離最小化,儘可能把含義相似的概念抽象出來,用相同的元語來表示。

10)     命名標準化(Standardizationofnames)[37]:儘可能使用標準的名字。

在這十條準則中,Gruber在1995年所給出的五條原則(上述十條原則的前五條)最具有影響力。

這十條構建準則給出了構造本體的基本思路和框架,然而,明顯的不足之處就是它們所反映的內容非常模糊且難於把握。

目前人們普遍認為,在構造特定領域的本體的過程中,需要領域專家的參與。

1.1.5本體的應用本體的應用主要涉及兩個方面:第一,本體作為一種能在知識層提供知識共享和重用的工具在語義Web中的應用;第二,在資訊系統中的應用,主要包括處理資訊組織、資訊檢索和異構資訊系統互操作問題[23]。

常規的基於關鍵詞的資訊檢索技術已不能滿足使用者在語義上和知識上的需求,尋找新的檢索方法也就成為目前研究的熱點。

本體具有良好的概念層次結構和對邏輯推理的支援,因而在資訊檢索,特別是在基於知識的檢索中得到了廣泛的應用。

由於本體具有能通過概念之間的關係來表達概念語義的能力,所以能夠提高檢索的查全率(Recall)和查準率(Precision)。

傳統的資訊整合技術很難解決資訊源之間的結構和語義的異構,要解決這些問題,根本的方法就是要減少、甚至消除在概念和用詞上的混亂,達成對事物相互一致的共同認識,並將其作為一種統一的框架和基礎。

因此,將本體技術引入到資訊整合中來,對異構資訊進行形式化和規範化表示,以期解決傳統資訊整合中存在的語法和語義異構問題。

在資訊整合中使用本體具有以下優勢:首先,本體提供了一個共享詞彙庫,可作為與資料來源的穩定的概念介面,並且獨立於資料來源模式;其次,本的描述能力可以解決同名異義及異名同義,描述概念間的相互關係,顯示的描述資料的語義,支援相關資訊源之間的資訊交換,提高應用的互操作性,促進領域知識共享和重用;第三,由於本體的描述能力,配合推理機可以進行一些推理查詢,發掘一些蘊涵的資料關係。

【轉自】http://imarine.blog.163.com/blog/static/51380183200861373316920/Advertisement写评论取消回覆很抱歉,必須登入網站才能發佈留言。

近期文章Spark入門(一)用SparkShell初嘗Spark滋味2019.12.08Spark入門(二)如何用Idea運行我們的Spark項目2019.12.08Spark入門(三)Spark經典的單詞統計2019.12.08Spark入門(四)Spark的map、flatMap、mapToPair2019.12.08Spark入門(五)Spark的reduce和reduceByKey2019.12.08Spark入門(六)Spark的combineByKey、sortBykey2019.12.08Spark入門(七)Spark的intersection、subtract、union和distinct2019.12.08Spark實戰尋找5億次訪問中,訪問次數最多的人2019.12.08Spark實戰搭建我們的Spark分佈式架構2019.12.08【機器學習】深度學習開發環境搭建2019.12.08AdvertisementAdvertisement



請為這篇文章評分?