首 頁(yè)
手機(jī)版

數(shù)據(jù)集成原理pdf 多恩 高清掃描版

一本計(jì)算機(jī)科學(xué)叢書

數(shù)據(jù)集成原理電子書是一本數(shù)據(jù)集成的綜合指南,由多恩、哈勒維、艾夫斯三人共同編著,孟小峰,馬如霞,馬友忠三人翻譯。本書全面介紹了作為當(dāng)今數(shù)據(jù)集成技術(shù)基礎(chǔ)的理論和概念,并用具體的實(shí)例詳細(xì)解釋這些概念的系統(tǒng)實(shí)現(xiàn),以及面臨的各種挑戰(zhàn)。作者詳細(xì)的介紹了現(xiàn)代數(shù)據(jù)集成技術(shù)的很多方面,包括不同的集成方式、數(shù)據(jù)和模式匹配、查詢處理和包裝器,還包括Web以及多種數(shù)據(jù)類型,非常適合作為研究生數(shù)據(jù)集成課程教材。

數(shù)據(jù)集成原理pdf

內(nèi)容介紹

近20年里,數(shù)據(jù)產(chǎn)生的方式不斷得到擴(kuò)展,帶來數(shù)據(jù)管理需求和任務(wù)的不斷變化,促使數(shù)據(jù)管理技術(shù)不斷推陳出新。數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘、數(shù)據(jù)集成被視為三足鼎立的現(xiàn)代數(shù)據(jù)管理技術(shù),它們?cè)跇?gòu)建信息系統(tǒng)中的作用相當(dāng)、互為依存、缺一不可。但數(shù)據(jù)集成技術(shù)缺乏像數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)挖掘廣為人知的專業(yè)教材,使得該技術(shù)雖“叫好(廣為應(yīng)用)”,但“不叫座(缺乏教學(xué)傳播)”。大學(xué)鮮有開設(shè)此類課程,其知識(shí)的積累多散見論文、系統(tǒng)?!稊?shù)據(jù)集成原理》可以說一舉改變了數(shù)據(jù)集成沒有專業(yè)教材的困局,尤其在當(dāng)今大數(shù)據(jù)背景下,其作用尤為突出。

數(shù)據(jù)集成主要用來解決跨多個(gè)數(shù)據(jù)源的查詢處理問題?!稊?shù)據(jù)集成原理》是有關(guān)數(shù)據(jù)集成技術(shù)的集大成之作。全書是以教科書的邏輯整理有關(guān)內(nèi)容,強(qiáng)調(diào)知識(shí)的基礎(chǔ)性和理論性。主要討論以下問題:如何對(duì)數(shù)據(jù)庫(kù)思想進(jìn)行擴(kuò)充和深化,從而使其能夠容納外部信息源,處理Web的分布式特性和信息共享帶來的問題,特別是異構(gòu)性和不確定性。

《數(shù)據(jù)集成原理》內(nèi)容主要包括三部分。第一部分以數(shù)據(jù)庫(kù)課程涵蓋的研究主題為基礎(chǔ),主要關(guān)注數(shù)據(jù)集成領(lǐng)域的基本技術(shù),如查詢的表示、數(shù)據(jù)源的描述、模式匹配、查詢處理、集成方法等:穿插補(bǔ)充了Web數(shù)據(jù)集成的內(nèi)容,如包裝器、數(shù)據(jù)匹配(實(shí)體識(shí)別)等。第二部分主要介紹擴(kuò)展數(shù)據(jù)集成的知識(shí),包括xml、語(yǔ)義Web、不確定性、數(shù)據(jù)溯源等。第三部分介紹了解決特定集成問題的創(chuàng)新框架,包括Web數(shù)據(jù)集成、基于關(guān)鍵字的按需集成、對(duì)等集成、協(xié)同集成等。最后介紹了數(shù)據(jù)集成技術(shù)的主要研究方向。

使用說明

1、下載并解壓,得出pdf文件

2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器

3、安裝后,在打開解壓得出的pdf文件

4、雙擊進(jìn)行閱讀試讀

數(shù)據(jù)集成原理pdf章節(jié)目錄

出版者的話

中文版序

譯者序

前言

第1章 緒論

1.1 什么是數(shù)據(jù)集成

1.2 數(shù)據(jù)集成面臨的挑戰(zhàn)

1.2.1 系統(tǒng)原因

1.2.2 邏輯原因

1.2.3 社會(huì)和管理原因

1.2.4 設(shè)定預(yù)期

1.3 數(shù)據(jù)集成架構(gòu)

1.3.1 數(shù)據(jù)集成系統(tǒng)的組成部分

1.3.2 數(shù)據(jù)集成實(shí)例

1.4 全書概覽

參考文獻(xiàn)注釋

第一部分 數(shù)據(jù)集成技術(shù)基礎(chǔ)

第2章 查詢表達(dá)式及運(yùn)算

2.1 數(shù)據(jù)庫(kù)概念回顧

2.1.1 數(shù)據(jù)模型

2.1.2 完整性約束

2.1.3 查詢和應(yīng)答

2.1.4 合取查詢

2.1.5 datalog查詢

2.2 查詢展開

2.3 查詢包含與等價(jià)

2.3.1 形式化定義

2.3.2 合取查詢的包含

2.3.3 合取查詢的并集

2.3.4 帶有比較謂詞的合取查詢

2.3.5 帶有否定的合取查詢

2.3.6 包語(yǔ)義、分組和聚集

2.4 基于視圖計(jì)算查詢

2.4.1 問題定義

2.4.2 視圖與查詢計(jì)算的相關(guān)性

2.4.3 查詢重寫的可能長(zhǎng)度

2.4.4 桶算法和MiniCon算法

2.4.5 邏輯方法:逆規(guī)則算法

2.4.6 算法比較

2.4.7 基于視圖的查詢應(yīng)答

參考文獻(xiàn)注釋

第3章 數(shù)據(jù)源描述

3.1 概述和必要條件

3.2 模式映射語(yǔ)言

3.2.1 模式映射語(yǔ)言規(guī)則

3.2.2 全局視圖

3.2.3 局部視圖

3.2.4 全局-局部視圖

3.2.5 元組生成依賴

3.3 訪問模式限制

3.3.1 構(gòu)建訪問模式限制

3.3.2 生成可執(zhí)行計(jì)劃

3.4 中介模式上的完整性約束

3.4.1 帶有完整性約束的LAV

3.4.2 帶有完整性約束的GAV

3.5 結(jié)果完備性

3.5.1 局部完備性

3.5.2 結(jié)果完備性檢測(cè)

3.6 數(shù)據(jù)級(jí)的異構(gòu)性

3.6.1 標(biāo)度差異性

3.6.2 相同實(shí)體的多重表示

參考文獻(xiàn)注釋

第4章 字符串匹配

4.1 問題描述

4.2 相似度度量

4.2.1 基于序列的相似度度量

4.2.2 基于集合的相似度度量

4.2.3 混合相似度度量

4.2.4 語(yǔ)音相似度度量

4.3 可擴(kuò)展的字符串匹配

4.3.1 字符串上的倒排索引

4.3.2 大小過濾

4.3.3 前綴過濾

4.3.4 位置過濾

4.3.5 邊界過濾

4.3.6 其他相似度度量方法的可擴(kuò)展技術(shù)

參考文獻(xiàn)注釋

第5章 模式匹配與模式映射

5.1 問題定義

5.1.1 語(yǔ)義映射

5.1.2 語(yǔ)義匹配

5.1.3 模式匹配與模式映射

5.2 模式匹配和模式映射的挑戰(zhàn)

5.3 匹配和映射系統(tǒng)概述

5.3.1 模式匹配系統(tǒng)

5.3.2 模式映射系統(tǒng)

5.4 匹配器

5.4.1 名字匹配器

5.4.2 實(shí)例匹配器

5.5 組合匹配預(yù)測(cè)

5.6 施加域完整性約束

5.6.1 域完整性約束

5.6.2 搜索匹配組合空間

5.7 匹配選擇器

5.8 匹配重用

5.8.1 學(xué)習(xí)匹配

5.8.2 學(xué)習(xí)器

5.8.3 訓(xùn)練元學(xué)習(xí)器

5.9 多對(duì)多匹配

5.10 由匹配到映射

參考文獻(xiàn)注釋

第6章 通用模式操作

6.1 模型管理操作

6.2 合并操作

6.3 模型生成操作

6.4 逆映射操作

6.5 模型管理系統(tǒng)

參考文獻(xiàn)注釋

第7章 數(shù)據(jù)匹配

7.1 問題定義

7.2 規(guī)則匹配

7.3 學(xué)習(xí)匹配

7.4 聚類匹配

7.5 概率匹配

7.5.1 貝葉斯網(wǎng)絡(luò)

7.5.2 基于樸素貝葉斯的數(shù)據(jù)匹配

7.5.3 特征相關(guān)性

7.5.4 文本中的實(shí)體指代匹配

7.6 協(xié)同匹配

7.6.1 基于聚類的協(xié)同匹配

7.6.2 協(xié)同匹配文檔中的實(shí)體指代

7.7 數(shù)據(jù)匹配的可擴(kuò)展性

7.7.1 規(guī)則匹配擴(kuò)展

7.7.2 其他匹配方法的擴(kuò)展

參考文獻(xiàn)注釋

第8章 查詢處理

8.1 背景:DBMS查詢處理

8.1.1 選擇查詢執(zhí)行計(jì)劃

8.1.2 執(zhí)行查詢計(jì)劃

8.2 背景:分布式查詢處理

8.2.1 數(shù)據(jù)放置和轉(zhuǎn)移

8.2.2 兩階段連接

8.3 數(shù)據(jù)集成查詢處理

8.4 生成初始查詢計(jì)劃

8.5 互聯(lián)網(wǎng)數(shù)據(jù)的查詢執(zhí)行

8.5.1 多線程、流水線、數(shù)據(jù)流架構(gòu)

8.5.2 有自治數(shù)據(jù)源的接口

8.5.3 故障處理

8.6 自適應(yīng)查詢處理

8.7 事件驅(qū)動(dòng)自適應(yīng)策略

8.7.1 數(shù)據(jù)源故障和延遲處理

8.7.2 處理流水線操作結(jié)束時(shí)突發(fā)的基數(shù)問題

8.8 性能驅(qū)動(dòng)的自適應(yīng)策略

8.8.1 Eddy:基于隊(duì)列的計(jì)劃選擇

8.8.2 校正查詢處理:基于代價(jià)的重新優(yōu)化

參考文獻(xiàn)注釋

第9章 包裝器

9.1 引言

9.1.1 包裝器的構(gòu)建

9.1.2 包裝器構(gòu)建面臨的挑戰(zhàn)

9.1.3 構(gòu)建方法的分類

9.2 手動(dòng)的包裝器構(gòu)建

9.3 基于學(xué)習(xí)的包裝器構(gòu)建

9.3.1 HLRT包裝器

9.3.2 Stalker包裝器

9.4 無模式的包裝器學(xué)習(xí)

9.4.1 建模數(shù)據(jù)源模式TS和抽取程序EW

9.4.2 推導(dǎo)數(shù)據(jù)模式TS和抽取程序EW

9.5 交互的包裝器構(gòu)建

9.5.1 使用Stalker交互標(biāo)記頁(yè)面

9.5.2 使用Poly識(shí)別正確的抽取規(guī)則

9.5.3 用Lixto創(chuàng)建抽取規(guī)則

參考文獻(xiàn)注釋

第10章 數(shù)據(jù)倉(cāng)庫(kù)與緩存

10.1 數(shù)據(jù)倉(cāng)庫(kù)

10.1.1 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

10.1.2 ETL:抽取/轉(zhuǎn)換/加載

10.2 數(shù)據(jù)交換:描述性倉(cāng)庫(kù)

10.2.1 數(shù)據(jù)交換設(shè)置

10.2.2 數(shù)據(jù)交換解

10.2.3 通用解

10.2.4 核心通用解

10.2.5 查詢物化信息庫(kù)

10.3 緩存及部分物化

10.4 本地、外部數(shù)據(jù)的直接分析

參考文獻(xiàn)注釋

第二部分 擴(kuò)展數(shù)據(jù)表示集成

第11章 XML

11.1 數(shù)據(jù)模型

11.2 XML結(jié)構(gòu)和模式定義

11.2.1 文檔類型定義

11.2.2 XML模式

11.3 查詢語(yǔ)言

11.3.1 先驅(qū):DOM和SAX

11.3.2 XPath:XML查詢?cè)Z(yǔ)

11.3.3 XQuery:XML查詢能力

11.4 XML查詢處理

11.4.1 XML路徑匹配

11.4.2 XML輸出

11.4.3 XML查詢優(yōu)化

11.5 XML模式映射

11.5.1 嵌套映射

11.5.2 帶嵌套映射的查詢重寫

參考文獻(xiàn)注釋

第12章 本體和知識(shí)表示

12.1 數(shù)據(jù)集成中的知識(shí)表示舉例

12.2 描述邏輯

12.2.1 描述邏輯的語(yǔ)法

12.2.2 描述邏輯的語(yǔ)義

12.2.3 描述邏輯的推理

12.2.4 描述邏輯和數(shù)據(jù)庫(kù)推理的比較

12.3 語(yǔ)義Web

12.3.1 資源描述框架

12.3.2 RDF模式

12.3.3 Web本體語(yǔ)言

12.3.4 RDF查詢:SPARQL語(yǔ)言

參考文獻(xiàn)注釋

第13章 不確定性數(shù)據(jù)集成

13.1 不確定性表示

13.1.1 概率數(shù)據(jù)表示

13.1.2 從不確定性到概率

13.2 不確定模式映射建模

13.2.1 概率映射

13.2.2 概率映射的語(yǔ)義

13.2.3 表語(yǔ)義

13.2.4 元組語(yǔ)義

13.3 不確定性和數(shù)據(jù)溯源

參考文獻(xiàn)注釋

第14章 數(shù)據(jù)溯源

14.1 溯源的兩種表示方法

14.1.1 使用數(shù)據(jù)標(biāo)注表示溯源

14.1.2 使用數(shù)據(jù)關(guān)系圖表示溯源

14.1.3 兩種表示方法的可交換性

14.2 數(shù)據(jù)溯源的應(yīng)用

14.3 溯源半環(huán)

14.3.1 半環(huán)形式化模型

14.3.2 半環(huán)模型的應(yīng)用

14.4 溯源的存儲(chǔ)

參考文獻(xiàn)注釋

第三部分 新型集成系統(tǒng)

第15章 Web數(shù)據(jù)集成

15.1 Web數(shù)據(jù)的用途

15.2 深層網(wǎng)絡(luò)

15.2.1 垂直搜索

15.2.2 深層網(wǎng)絡(luò)淺層化

15.3 主題門戶網(wǎng)站

15.4 Web數(shù)據(jù)的輕量級(jí)集成

15.4.1 發(fā)現(xiàn)Web中的結(jié)構(gòu)化數(shù)據(jù)

15.4.2 導(dǎo)入數(shù)據(jù)

15.4.3 合并多個(gè)數(shù)據(jù)集

15.4.4 重用他人工作成果

15.5 “即付即用”數(shù)據(jù)管理

參考文獻(xiàn)注釋

第16章 關(guān)鍵字搜索:按需集成

16.1 結(jié)構(gòu)化數(shù)據(jù)中的關(guān)鍵字搜索

16.1.1 數(shù)據(jù)圖

16.1.2 關(guān)鍵字匹配和評(píng)分模型

16.2 結(jié)果排名計(jì)算

16.2.1 圖擴(kuò)展算法

16.2.2 基于閾值的合并

16.3 數(shù)據(jù)集成中的關(guān)鍵字搜索

16.3.1 以可擴(kuò)展的方式自動(dòng)地構(gòu)建邊

16.3.2 可擴(kuò)展的查詢應(yīng)答

16.3.3 通過學(xué)習(xí)算法調(diào)整邊和節(jié)點(diǎn)的權(quán)重

參考文獻(xiàn)注釋

第17章 對(duì)等數(shù)據(jù)集成

17.1 對(duì)等節(jié)點(diǎn)和映射

17.2 映射的語(yǔ)義

17.3 PDMS查詢應(yīng)答的復(fù)雜性

17.3.1 有環(huán)PDMS

17.3.2 對(duì)等映射中的比較謂詞

17.4 查詢重寫算法

17.5 組合映射

17.6 采用松散映射進(jìn)行對(duì)等數(shù)據(jù)管理

17.6.1 基于相似度的映射

17.6.2 映射表

參考文獻(xiàn)注釋

第18章 支持協(xié)同的集成

18.1 協(xié)同因何而不同

18.2 處理校正和反饋

18.2.1 直接向下傳播的用戶更新

18.2.2 回溯傳播的反饋或更新

18.3 協(xié)同標(biāo)注與表達(dá)

18.3.1 映射作為標(biāo)注:軌跡

18.3.2 評(píng)論和討論作為標(biāo)注

18.4 動(dòng)態(tài)數(shù)據(jù):協(xié)同數(shù)據(jù)共享

18.4.1 基本架構(gòu)

18.4.2 映射更新與物化實(shí)例

18.4.3 沖突協(xié)調(diào)

參考文獻(xiàn)注釋

第19章 數(shù)據(jù)集成的未來

19.1 不確定性、溯源和清理

19.2 眾包和“人計(jì)算”

19.3 構(gòu)建大規(guī)模結(jié)構(gòu)化Web數(shù)據(jù)庫(kù)

19.4 輕量級(jí)集成

19.5 集成數(shù)據(jù)可視化

19.6 社交媒體集成

19.7 基于集群和云的并行處理與緩存

參考文獻(xiàn)

索引

收起介紹展開介紹
  • 下載地址
數(shù)據(jù)集成原理pdf 多恩 高清掃描版

有問題? 點(diǎn)此報(bào)錯(cuò)

發(fā)表評(píng)論

0條評(píng)論

熱門推薦