Tiểu luận Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định

Rất nhiều người nghĩ một thư viện giống như một tòa nhà nhỏ xây bằng gạch nằm trong trung tâm của cộng đồng dân cư hay như một tòa nhà lớn trong trung tâm của một trường đại học. Tuy nhiên, những khái niệm này quá đơn giản hóa về thế giới thư viện. đa số các tổ chức kinh doanh lớn đều có một thư viện chuyên dụng giống như trường học; các tổ chức phi chính phủ, và địa phương, bang, và các chính quyền liên bang. Với sự tăng trưởng của việc sử dụng mạng World Wide Web, các thư viện số cũng đã được phát triển, phục vụ cho một lượng độc giả khổng lồ và đa dạng. Với việc mở rộng tầm nhìn của thư viện, xuất hiện hai vấn đề cần được hiểu rõ: Đầu tiên, các thư viện điển hình được nhúng trong các cơ quan lớn hơn. Các thư viện của tập đoàn phục vụ cho các công ty của họ, các thư viện thuộc các trường đại học thì phục vụ cho các trường của họ, các thư viện chung phục vụ cho cộng đồng. Thứ hai, các thư viện đóng vai trò nòng cốt trong các cơ quan như những kho chứa cung cấp tài nguyên thông tin. Trong vai trò nhà cung cấp, các thư viện thể hiện như tri thức thu nhỏ của con người và các hoạt động học tập của những người trong cơ quan. Thực tế này cung cấp cơ sở quan trọng trong chiến lược khai phá dữ liệu thư viện: Bằng việc xác nhận người sử dụng đang tìm kiếm cái gì, khai phá dữ liệu thư viện có thể tìm ra những hiểu biết có nghĩa trong ngữ cảnh thư viện. Sử dụng khai phá dữ liệu để khảo sát dữ liệu thư viện có thể áp dụng thuật ngữ khai phá dữ liệu thư viện (bibliomining). Với sự thông qua của những danh mục đã được đưa vào máy tính và tìm kiếm dễ dàng trên các phần thông tin liên tục, các nhà khoa học về thư viện và thông tin thường sử dụng phương pháp bibliometric (chẳng hạn như, khám phá các mẫu trong nghề viết văn và trích dẫn bên trong một lĩnh vực) để khám phá những mẫu thông tin thư mục. Trong thời kỳ này, nhiều nhà nhiên cứu đã phát triển và kiểm thử kỹ thuật khai phá dữ liệu, là các phương pháp trực quan hóa và thống kê nâng cao để định vị các mẫu không bình thường trong tập dữ liệu lớn. Bibliomining tham chiếu đến việc sử dụng kỹ thuật bibliometric và khai phá dữ liệu để khám phá khối dữ liệu khổng lồ được tạo ra tự động bởi thư viện.

12 trang | Chia sẻ: tuandn | Lượt xem: 2666 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Tiểu luận Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC & TIỂU LUẬN CAO HỌC CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN Môn học: Khai phá dữ liệu ĐỀ TÀI : KHAI PHÁ DỮ LIỆU THƯ VIỆN HỖ TRỢ VIỆC RA QUYẾT ĐỊNH Học viên thực hiện : TRẦN HIẾU ĐẶNG THỊ THÁI HÒA Giáo viên phụ trách: TS NGUYỄN THANH BÌNH Lớp: Cao học 2005 Huế 01-2007 MỤC LỤC GIỚI THIỆU Rất nhiều người nghĩ một thư viện giống như một tòa nhà nhỏ xây bằng gạch nằm trong trung tâm của cộng đồng dân cư hay như một tòa nhà lớn trong trung tâm của một trường đại học. Tuy nhiên, những khái niệm này quá đơn giản hóa về thế giới thư viện. đa số các tổ chức kinh doanh lớn đều có một thư viện chuyên dụng giống như trường học; các tổ chức phi chính phủ, và địa phương, bang, và các chính quyền liên bang. Với sự tăng trưởng của việc sử dụng mạng World Wide Web, các thư viện số cũng đã được phát triển, phục vụ cho một lượng độc giả khổng lồ và đa dạng. Với việc mở rộng tầm nhìn của thư viện, xuất hiện hai vấn đề cần được hiểu rõ: Đầu tiên, các thư viện điển hình được nhúng trong các cơ quan lớn hơn. Các thư viện của tập đoàn phục vụ cho các công ty của họ, các thư viện thuộc các trường đại học thì phục vụ cho các trường của họ, các thư viện chung phục vụ cho cộng đồng. Thứ hai, các thư viện đóng vai trò nòng cốt trong các cơ quan như những kho chứa cung cấp tài nguyên thông tin. Trong vai trò nhà cung cấp, các thư viện thể hiện như tri thức thu nhỏ của con người và các hoạt động học tập của những người trong cơ quan. Thực tế này cung cấp cơ sở quan trọng trong chiến lược khai phá dữ liệu thư viện: Bằng việc xác nhận người sử dụng đang tìm kiếm cái gì, khai phá dữ liệu thư viện có thể tìm ra những hiểu biết có nghĩa trong ngữ cảnh thư viện. Sử dụng khai phá dữ liệu để khảo sát dữ liệu thư viện có thể áp dụng thuật ngữ khai phá dữ liệu thư viện (bibliomining). Với sự thông qua của những danh mục đã được đưa vào máy tính và tìm kiếm dễ dàng trên các phần thông tin liên tục, các nhà khoa học về thư viện và thông tin thường sử dụng phương pháp bibliometric (chẳng hạn như, khám phá các mẫu trong nghề viết văn và trích dẫn bên trong một lĩnh vực) để khám phá những mẫu thông tin thư mục. Trong thời kỳ này, nhiều nhà nhiên cứu đã phát triển và kiểm thử kỹ thuật khai phá dữ liệu, là các phương pháp trực quan hóa và thống kê nâng cao để định vị các mẫu không bình thường trong tập dữ liệu lớn. Bibliomining tham chiếu đến việc sử dụng kỹ thuật bibliometric và khai phá dữ liệu để khám phá khối dữ liệu khổng lồ được tạo ra tự động bởi thư viện. NỀN TẢNG Suy nghĩ trước đây của các tác giả trong lĩnh vực khoa học thư viện bắt đầu để khám phá dữ liệu phức tạp của thư viện cách đây vài năm trước khi khái niệm khai phá dữ liệu được phổ biến rộng rãi. Nutter (1987) đã khám phá các nguồn dữ liệu thư viện để hỗ trợ việc ra quyết định nhưng đã than rằng “khả năng tập hợp, tổ chức, và thao tác dữ liệu còn cách quá xa để có thể chuyển đổi và áp dụng chúng”(p. 143). Johnston và Weckert (1990) đã phát triển một hệ chuyên gia điều khiển dữ liệu để giúp đỡ lựa chọn tài nguyên thư viện và Vizine-Goetz, Weibel, và Oskins (1990) đã phát triển một hệ thống cho việc tự động lập danh mục dựa trên tiêu đề sách (xem thêm Morris, 1992, và Aluri & Riggs, 1990). Một mục đặc biệt của Quản trị và quản lý thư viện, “Khái phá hệ thống tự động của bạn” bao gồm các bài báo về việc trích dữ liệu để hỗ trợ các quyết định quản lý hệ thống (Mancini, 1996), trích theo tần số để đưa vào tập tuyển chọn ra quyết định (Atkins, 1996), và khảo sát nhật ký giao dihcj để hỗ trợ quản lý tập tuyển chọn (Peters, 1996). Gần đây, Banerjeree (1998) tập trung vào việc mô tả khai phá dữ liệu làm việc như thế nào và làm thế nào để sử dụng nó để cung cấp sự truy cập tốt hơn vào tập tuyển chọn. Guenther (2000) bàn luận về các nguồn dữ liệu và các ứng dụng nhưng tập trung vào các vấn đề về khuôn dạng dữ liệu hỗn tạp. Doszkocs (2000) bàn luận về tiềm năng để áp dụng mạng Neural vào dữ liệu thư viện để khám phá những mỗi liên hệ giữa các tài liệu, thiết lập chỉ mục thuật ngữ, mã phân loại, và các câu truy vấn. Liddy (2000) kết hợp xử lý ngôn ngữ tự nhiên với khai phá văn bản để khám phá thông tin trong các tập tuyển chọn thư viện số. Lawrence, Giles, và Bollacker (1999) tạo ra một hệ thống để khôi phục và chỉ mục hóa những đoạn trích dẫn từ các công việc trong thư viện số. Gutwin, Paynter, Witten, Nevill-Manning, và Frank (1999) sử dụng khai phá văn bản để hỗ trợ khám phá tài nguyên. Các dự án này chi sẻ một điểm chung trên việc tiến bộ và việc tự động hóa hai trong số các chức năng lõi của một thư viện: quản lý thu nhận và các bộ tuyển chọn. Vài tác giả mới đây đã bắt đầu gởi các báo cáo về khai phá dữ liệu cần thiết để hỗ trợ quản lý bằng việc tập trung vào việc hiểu về người sử dụng thư viện: Schulman (1998) thảo luận về sử dụng khai phá dữ liệu để khảo sát những khuynh hướng thay đổi trong hành vi của người sử dụng thư viện; Sallis, Hill, Jancee, Lovette, và Masi (1999) tạo một mạng neural tạo bó người sử dụng thư viện số; và Chau (2000) bàn luận về ứng dụng của khai phá Web để các nhân hóa dịch vụ trong tham khảo điện tử. Tháng 12 năm 2003 vấn đề Công nghệ thông tin và thư viện là một vấn đề đặc biệt được dảnh cho xử lý khai phá dữ liệu thư viện. Nicholson giới thiệu một quá trình tổng quan, bao gồm vấn đề quan trọng trong việc tạo một kho dữ liệu mà bảo vệ được tính riêng tư của người dùng. Zucca thảo luận về sữ thi hành của một kho dữ liệu trong một thư viện trường học. Wormell; Suárez-Balseiro, Iribarren- Maestro, & Casado; và Geyer-Schultz, Neumann, & Thede sử dụng khai phá dữ liệu thư viện trong những cách khác nhau để hiểu về việc sử dụng nguồn thư viện trường học và tạo các dịch vụ thư viện thishc hợp. Chúng tôi mở rộng các nghiên cứu này bằng việc đưa ra một tầm nhìn toàn cầu của việc dữ liệu được tạo ra trong thư viện và sự đa dạng của các quyết định mà dữ liệu đó có thể chứa thông tin. Như vậy, tiêu điểm của công việc này là trên việc mô tả cách thức trong mỗi thư viện và những người quản lý thông tin có thể dùng khai phá dữ liệu để hiểu các mẫu về hành vi của người sử dụng thư viện và nhân viên và các mẫu về nguồn tài nguyên sử dụng khắp cơ quan. NỘI DUNG CHÍNH Các hệ thống thư viện tích hợp và kho dữ liệu Đa số những người quản lý ước muốn khám phá khai pha sách sẽ cần để làm việc với nhân viên kỹ thuật của những nhà cung cấp hệ thống thư viện tích hợp(ILS) để có thể truy cập vào cơ sở dữ liệu nằm bên dưới hệ thống và tạo ra một kho dữ liệu. Việc làm sạch, tiền xử lý và đồng bộ dữ liệu có thể chiếm một chi phí lớn về thời gian và công sức. Chỉ bởi vì kết hợp và liên kết các nguồn dữ liệu khác nhau, tuyh nhiên, Các nhà quản lý có thể khám phá các mẫu ẩn để giúp họ hiểu về điều hành thư viện và người sử dụng. Khám phá các nguồn dữ liệu Các nguồn dữ liệu thư viện có sẵn được chia thành các nhóm cho thảo luận này. Dữ liệu từ sự tạo thành thư viện, dữ liệu từ sử dụng tập tuyển chọn, dữ liệu từ các nguồn ngoài không bình thường được bao gồm trong ILS. Các nguồn dữ liệu ILS từ sự tạo thành của hệ thống thư viện Thông tin thư mục Một nguồn dữ liệu là tập tuyển chọn của các bản ghi thư mục và giao diện tìm kiếm tài liệu trong thư viện, thông thường được biết đến như là Danh mục truy cập chung trực tuyến(OPAC). Trong một môi trường thư viện số, kiểu thông tin được tập hợp trong một bản ghi thư viện thư mục có thể được tập hợp như siêu dữ liệu. Những khái niệm song song đó trong một thư viện truyền thống: nắm giữ một sự phê chuẩn về mô tả một đối tượng, áp dụng nó cho mọi đối tượng, và tạo ra dữ liệu kết quả tìm kiếm được. Bởi vậy, các thư viện số sử dụng các nguồn dữ liệu thư mục tương tự thư viện truyền thống. Sự thu nhận thông tin Nguồn dữ liệu khác của khai phá dữ liệu thư viện đến từ sự thu nhận, nơi mà các mục được đặt từ người cung cấp và theo dõi cho đến khi nhận được và xử lý chúng. Vì những thư viện số không có phần đặt sách vật lý tốt, tồn tại các phương thức thu nhận và các mối quan hệ nhà cung cấp có phần khác nhau. Tuy nhiên, trong môi trường thư viện số và cả thư viện truyền thống, đều cần đến thu nhận dữ liệu có tiềm năng chưa khai thác để hiểu, kiểm soát và thông tin dự báo chi phí tài nguyên. Nguồn dữ liệu ILS đến từ cách dùng hệ thống thư viện Thông tin người sử dụng Trong việc đặt sách để xác nhận định danh của người sử dụng các dịch vụ của thư viện, Thư viện sẽ duy trì cơ sở dữ liệu người dùng. Trong các thư viện liên quan đến các cơ quan, cơ sở dữ liệu người dùng gần với cơ sở dữ liệu của tổ chức. Sự phức tạp của thư viện chung liên kết các bản ghi của người sử dụng thông qua mã vùng với thông tin hộ khẩu trong việc đạt sách để học nhiều hơn về người sử dụng phổ thông. Thư viện số có thể có hoặc không thông tin về người sử dụng, dựa trên thủ tục yêu cầu đăng nhập. không có dữ liệu quan trọng nào được lưu trữ bởi nhà bảo trợ, điều đó rất quan trọng để đảm bảo thông tin xác nhận về nhà bảo trợ được tách ra từ thông tin về hộ khẩu trước khi thông tin này được lưu trữ trong kho dữ liệu; điều đó bảo vệ tính riêng tư cá nhân. Thông tin lưu hành và cách sử dụng Nguồn thông tin dồi dào về hành vi của người sử dụng thư viện là các bản ghi lưu hành và cách sử dụng. Tính hợp pháp và vấn đề đạo đức giới hạn việc sử dụng dữ liệu lưu hành, tuy nhiên một kho dữ liệu có thể hữu ích trong hoàn cảnh này, bởi vì thông tin hộ khẩu cơ bản và chi tiết về sự lưu hành có thể được ghi lại mà không vi phạm đến sự riêng tư của cá nhân. Các dịch vụ thư viện số có sự khó khăn lớn trong việc xác định lưu hành, như xem một trang không mang ý nghĩa như kiểm tra một cuốn sách ra khỏi thư viện, mặc dù đòi hỏi in ấn hoặc lưu trữ toàn văn thông tin tài nguyên có thể mang ý nghĩa tương tự. Một số dịch vụ toàn văn điện tử đã thực thi phía máy chủ nhận được yêu cầu từ giao diện người sử dụng. Tìm kiếm và điều hướng thông tin OPAC phục vụ như là ý nghĩa chính của việc tìm kiếm cho công việc của thư viện. Đồng thời, bởi vì đa số các OPAC sử dụng một giao diện duyệt Web, những người sử dụng có thể truy cập vào cơ sở dữ liệu thư mục, mạng toàn cầu (WWW) và các nguồn tài nguyên trực tuyến trong cùng phiên làm việc; tất cả thông tin này cá thể hữu ích trong việc ra quyết định của thư viện. Thư viện số điển hình nắm bắt nhật ký của người dùng khi họ tìm kiếm cơ sở dữ liệu và có thể tìm đường, thông qua phân tích chuỗi click chuột, các phần tử của dịch vụ trên nền Web được viếng thăm bởi người sử dụng. Ngoài ra, sự kết hợp của một thủ tục đăng nhập và cookies cho phép các kết nối của người sử dụng hộ khẩu đối với các dịch vụ và tìm kiếm chúng sử dụng trong một phiên làm việc. Các nguồn dữ liệu ngoài Các tương tác bàn tham chiếu Trong sự tương tác tiêu biểu như mặt đối mặt hay qua điện thoại với một người sử dụng thư viện, người thủ thư tham chiếu lưu rất ít thông tin về sự tương tác. Những giao dịch tham chiếu số, tuy nhiên, xuất hiện thông qua định dạng điện tử, và văn bản giao dihcj có thể nắm bắt cho sự phân tích sau này, điều này cung cấp một bản ghi nhiều thông tin hơn so với công việc tham khảo truyền thống hiện có. Tiện ích các dữ liệu này có thể gia tăng nếu thông tin xác định người sử dụng có thể được nắm bắt tốt, nhưng xin nhắc lại, người ẩn danh của các phiên giao dịch này là một thách thức quan trọng. Mục sử dụng thông tin Fussler và Simon (trích dẫn trong Nutter, 1987) đánh giá rằng từ 75 đến 80% trong số sử dụng tài liệu trong thư viện trường học là trong một nhóm. Một số kiểu tài liệu chưa bao giờ được lưu hành, và do đó, theo dõi các nhóm sử dụng cũng cần thiết trong việc khám phá các mẫu của việc sử dụng. Nhiệm vụ này trở nên dễ dàng hơn trong một thư viện số, như là nhật ký Web có thể được phân tích để khám phá những gì người sử dụng đã khảo sát. Các dịch vụ vay mượn giữa các thư viện và các nguồn cung cấp khác Nhiều thư viện dùng hình thức vay mượn giữa các thư viện và/hoặc các nguồn cung cấp khác để có các mục phù hợp với nhu cầu của người sử dụng. Dữ liệu tạo ra bởi lớp này sẽ thay đổi bởi dịch vụ nhưng có thể cung cấp một cửa sổ cho các khu vực cần thiết trong một tập tuyển chọn thư viện. Ứng dụng của khai phá dữ liệu thư viện thông qua kho dữ liệu Khai phá dữ liệu thư viện có thể cung cấp một sự hiểu biết về các nguồn thông tin các nhân được liệt kê trong phần trước, tuy nhiên, có nhiều thông tin hơn nữa có thể được khám phá khi các nguồn được kết hợp thông qua các trường chung trong một kho dữ liệu. Khai phá dữ liệu thư viện để cải tiến dịch vụ thư viện Đa số các thư viện tồn tại để phục vụ cho nhu cầu thông tin của người dùng, và do đó, việc hiểu về nhu cầu của các cá nhân hoặc các nhóm là rất quan trọng đối với sự thành công của một thư viện. Trong nhiều thập niên, các thủ thư có công việc gợi ý, phân tích giỏ thị trường để có thể cung cấp chức năng tương tự thông qua dữ liệu sử dụng để giúp đỡ người dùng trong việc xác định các tài liệu cần thiết. Khai phá dữ liệu thư viện cũng có thể được sử dụng để xác định các vùng không đầy đủ và để dự đoán tương lai người sử dụng sẽ cần gì. Các vùng chung của các mục yêu cầu và việc tìm kiếm thất bại có thể trỏ vào các vùng của tập tuyển chọn yếu. Bởi việc tìm kiếm các mẫu trong các mục có tần số sử dụng cao, người sử dụng có thể dự đoán tốt hơn những yêu cầu cho mục mới. Dịch vụ bàn tham chiếu ảo có thể xây dựng một cơ sở dữ liệu những câu hỏi và tạo các câu trả lời chuyên gia, mà có thể được dùng trong một số cách. Khai phá dữ liệu có thể được sử dụng để khám phá các mẫu cho các công cụ mà sẽ tự động gán các câu hỏi tới các chuyên gia dựa trên các xác định vừa qua. Ngoài ra, bởi khai phá cặp các mẫu câu hỏi/trả lời, một hệ chuyên gia có thể được tạo ra để cung cấp cho người sử dụng một câu trả lời tức thời và trỏ lới một chuyên gia để có thông tin chi tiết hơn. Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định của các tổ chức trong thư viện Chỉ khi hành vi của người dùng được nắm bắt bên trong ILS, hành vi của nhân viên thư viện cũng có thể được khám phá bằng việc kết nối nhiều cơ sở dữ liệu để bổ sung phương thức thực thi lại hiện hữu. Mặc dù việc theo dõi nhân viên thông qua sự thực hiện của họ có thể là một khái niệm không thoải mái, Khó khăn về ngân sách và các yêu cầu cân đối bắt buộc phải suy nghĩ và thực hiện cẩn thận. Ngoài ra, nghiên cứu chỉ ra hợp nhất rõ ràng, mục tiêu để đánh giásự thực thi có thể cải thiện tính trung thực và tính hiệu lực của các đánh giá đó (Stanton, 2000). Thống kê về việc ít sử dụng của một công việc có thể chỉ ra một cấn đề trong sự lựa chọn hoặc quá trình lập danh mục. Quan sát các mối quan hệ giwac các tiêu đề được gán chủ đề, số điện thoại và các từ khóa, cùng với các tổ chức chịu trách nhiệm về bản ghi danh mục, có thể dẫn đến một khám phá về sự thiếu năng lực của hệ thống. Chọn nhà cung cấp và giá có thể được khảo sát trong một cách tương tự để khám phả phải chăng một nhân viên vẫn dùng một nhà cung cấp đắt hơn trong khi vẫn có nhà cung cấp rẻ hơn. Đa số các thư viện nhận các công việc bởi các đơn đặt hàng cá nhân và thông qua kế hoạch đặt hàng tự động mà được định hình để phù hợp với kích thước lần kiểu của thư viện đó. Mặc dù những kế hoạch được tự động hóa đơn giản quá trình chọn lọn, nếu một hay nhều công việc họ khuyến cáo là không sử dụng, và rồi kế hoạch có thể có chi phí không chấp nhận được. Bởi vậy, trộn các thu nhận và cơ sở dữ liệu lưu hành và tìm kiếm các mẫu mà dữ đoán là ít sử dụng để giúp đỡ trong quá trình chọn nhà cung cấp và đưa ra các kế hoạch thích hợp. Khai phá dữ liệu thư viện cho báo cáo và cân đối bên ngoài Thư viện thường thì có thể cung cấp sử hiểu biết cho công ty mẹ hoặc cộng đồng về người sử dụng cơ sở thông qua các mẫu được phát hiện bởi khai phá dữ liệu thư viện. Hơn nữa, những người quản lý thư viện thường được gọi là ở trên để cân đối vốn đầu tư cho thư viện trong khi ngân sách hạn chế. Tương tự như vậy, các nhà quản lý đôi khi phải bảo vệ chính sách của họ, đặc biệt khi phải đối mặt với sự than phiên của người dùng. Khai phá dữ liệu thư viện có thể cung cấp sự cân đối dựa trên nền dữ liệu đề sao lưu những đoạn chứng cứ thường được sử dụng cho các tranh luận tương tự như vậy. Khai phá dữ liệu thư viện của dữ liệu lưu hành có thể cung cấp một số trong các sự hiểu biết về các nhóm người sử dụng thư viện. Bằng cách bó cụm người sử dụng bằng tài liệu lưu hành và đưa thông tin hộ khẩu vào các bó, thư viện có thể phát triển khái niệm nhóm người sử dụng để cung cấp một mô hình ứng cử của tổ chức người sử dụng cơ sở quan trọng; lập nhóm, trong cuộn, có thể đáp ứng cho một số tổ chức chung cần để hiểu những quan tâm chung và những vùng thành thạo trong cộng đồng người sử dụng. Khả năng này có thể đặc biệt có giá trị trong các tổ chức lớn nơi mà các thành quả ngiên cứu và phát triển được phân tán qua nhiều nơi. HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI Đối với kho dữ liệu Một hướng phát triển tương lai của khai phá dữ liệu thư viện là kết hợp dữ liệu từ nhiều thư viện thông qua kho dữ liệu dùng chung. Sự kết hợp này sẽ yêu cầu các chuẩn nếu các thư viện sử dụng các hệ thống khác nhau. Một trong các chuẩn như vậy là dự án COUNTER (2004), là một chuẩn cho việc lập báo cáo sử dụng tài nguyên thư viện số. Các thư viện đang làm việc cùng nhau để cho dữ liệu của họ có thể có lợi thế cạnh tranh qua các nhà xuất bản và dữ liệu cần thiết để đưa ra các quyết định tốt hơn. Việc kết hợp các nguồn dữ liệu này sẽ cho phép các nhà khoa học về thư viện nghiên cứu để di chuyển từ việc đưa ra các phát biểu về một thư viện cụ thể sang các thư viện tổng quan. Sự khái quát này có thể được kiểm tra trên các kho dữ liệu khác và trong các thiết lập khác và có thể là nền tảng cho lý thuyết. Khai phá dữ liệu thư viện và các dạng khác của thư viện có thể mở rộng khung lý thuyết và nhận thức hỗ trợ cho các nhà khoa học thư viện. Khai phá dữ liệu thư viện, khai phá Web, và khai phá văn bản Khai phá văn bản là khám phá các mẫu sử dụng trong trang Web. Khai phá dữ liệu thư viện sử dụng khai phá Web như là nền tảng nhưng bổ sung thêm tri thức về người dùng. Sự hỗ trợ một trong các nhược điểm là không nhận biết về thông tin người sử dụng của khai phá Web. Sự thiếu hụt này còn còn tồn tại trong một số ứng dụng thư viện số; tuy nhiên, khi người sử dụng truy cập các khu vực được bảo vệ bởi mật khẩu, thư viện có khả năng ánh xạ thông tin về người bảo trợ trên thông tin sử dụng. Bởi vậy, khai phá dữ liệu thư viện sử dụng các công cụ từ khai phá Web nhưng có nhiều dữ liệu cho việc khám phá các mẫu. Khai phá văn bản là khám phá nội dung của đoạn văn bản trong các đơn hàng để tích xuất thông tin và nhận ra các mẫu. Nó giúp đỡ để thêm thông tin vào các mẫu về cách sử dụng khám phá thông tin khai phá dữ liệu thư viện. Để sử dụng những thuật ngữ từ khoa học thông tin, khai phá dữ liệu thư viện tập trung vào các mẫu trong dữ liệu mà các nhãn và trỏ vào nơi chứa thông tin, trong khi khai phá văn bản tập trung vào các thông tin trong nơi chứa. Trong tương lai, các tổ chức cấp vốn phát triển cho các thư viện số có thể trông chờ vào khai phá văn bản để cải thiện những giải pháp truy cập tới các tài liệu bên ngoài danh mục/siêu dữ liệu. Chất lượng và tốc độ khai phá văn bản tiếp tục được cải thiện. Liddy (2000) đã nguyên cứu việc trích thông tin từ văn bản số; thưc hiện các công nghệ này có thể cho phép một thư viện số di chuyển từ các gợi ý sẵn có đến các văn bản có thể chứa câu trả lời để có thể cung cấp câu trả lời bằng cách trích xuất nó từ văn bản hay các văn bản thích hợp . Việc sử dụng các công cụ như vậy đang nắm giữ nguyên văn tài liệu và cung cung cấp một ít gợi ý về chất lượng của tài liệu, nhưng phải chăng những sự trishc xuất này thực chất là các liên kết trực tiếp vào trong các văn bản, khi nội dung có thể đưa ra theo một câu trả lời. Hoàn cảnh này có thể cung cấp một tài sản lớn cho các tổ chức duy trì những khối lượng lớn của kỹ thuật văn bản, bởi vì nó đẩy nhanh truy cập đến các tài liệu không có trước trong danh mục tài liệu. Ví dụ của cách tiếp cận lai Hwang và Chuang mới đây đã kết hợp khai phá dữ liệu thư viện, khai phá Web, và khai phá văn bản trong một hệ thống được giới thiệu cho thư viện trường