<span id="djtl1"><nobr id="djtl1"></nobr></span>

    <address id="djtl1"></address>
    <em id="djtl1"><address id="djtl1"></address></em>
    <address id="djtl1"><nobr id="djtl1"><progress id="djtl1"></progress></nobr></address>

    <address id="djtl1"></address>

      <address id="djtl1"><address id="djtl1"></address></address>
      學術服務內容

      在線編輯 學術顧問

      咨詢率高的期刊

      經濟論文

      基于復雜網絡的圖情檔學科文獻熱點挖掘

      時間:2022年03月31日 所屬分類:經濟論文 點擊次數:

      摘 要: [目的/ 意義] 跨學科、 跨領域研究已經成為學術研究的趨勢, 針對圖情檔學科的文獻熱點分析,有助于研究者快速掌握該領域的熱點問題和未來趨勢, 也為跨領域融合提供理論參考。 [方法/ 過程] 以 20162021 年圖情檔學科文獻為研究對象, 利用復雜網絡技術構建文

        摘 要: [目的/ 意義] 跨學科、 跨領域研究已經成為學術研究的趨勢, 針對圖情檔學科的文獻熱點分析,有助于研究者快速掌握該領域的熱點問題和未來趨勢, 也為跨領域融合提供理論參考。 [方法/ 過程] 以 2016—2021 年圖情檔學科文獻為研究對象, 利用復雜網絡技術構建文獻關鍵詞共現網絡, 使用 Gephi 網絡分析及可視化工具對圖情檔學科文獻熱點進行挖掘。 [結果/ 結論] 挖掘出圖書館學、 情報學和檔案學的熱點研究主題后, 從圖情檔一級學科的視角綜合分析現有文獻熱點的特征, 試圖提出該學科下一步的學科熱點主題和研究方向, 為后續研究者提供指引和參考。

        關鍵詞: 圖情檔學科; 復雜網絡; 文獻熱點

      圖情檔學科

        當今互聯網背景下的信息技術革命顛覆了各行各業, 教育領域尤為突出。 由美國西姆學院提出的“新文科” 概念, 于 2018 年 8 月正式出現在我國中共中央發布的文件中。 2019 年, 為了全面推進“四新” (即新工科、 新醫科、 新文科、 新農科)建設, 教育部、 科技部等 13 個部門聯合啟動了 “六卓越一拔尖” 計劃 2. 0[1], 至此 “新文科” 建設開始落地實施。 2020 年, 在山東大學召開的新文科建設會議中發布了 《新文科建設宣言》, 全面部署新文科建設的相關工作[2]。

        “新文科” 建設已成為我國今后高等教育所要著力推進的核心工作, 在此背景下, 圖書情報與檔案管理(以下簡稱圖情檔)學界的不少學者對圖書情報學科的發展趨勢進行積極的探索。 初景利[3] 認為, 應積極響應新文科建設的戰略, 強化圖情檔學科與其他學科的交叉融合, 致力于實現圖情檔從 “軟學科” 到 “硬學科” 的再造。 馬費成等[4] 提出要從關注社會需求、重視交叉融合、 加強理論創新、 堅守人文傳統等方面來思考圖情檔學科未來發展。

        柯平[5] 認為, 圖情檔學科要迎合新文科建設的相關政策, 努力打造出跨界融合的新文科建設模式。 可見, 圖情檔學科將在新文科建設征程中大有可為, 提高圖情檔學科的科研水平, 大力培育與其他學科交叉融合的新興學科, 是當前圖情檔學科建設所面臨的重要問題。圖情檔學科要想適應和契合新文科戰略部署,必須重新審視本學科現有的定位。

        圖情檔學科作為一級學科, 在學科門類上隸屬于管理學, 管理學既不是純粹的理科, 也不是純粹的文科, 本身具有很強的交叉學科性質[3]。 近年來, 圖情檔學科在人工智能、 數據科學、 公共文化管理、 信息學、 數字人文等新興領域實現了跨學科的融合發展, 并積累了大量的學術成果。 要想更好地迎接新文科建設下的挑戰, 就需要對圖情檔學科既往的研究成果進行綜合分析, 挖掘出圖情檔學科研究熱點, 既可為該領域及跨領域的研究者作出指引, 也可提升圖情檔學科的學術科研水平。

        筆者分析現有的圖情檔學科的研究熱點文獻, 發現研究成果不超過 5 篇, 其中孫艷紅[6]、 吳維芳[7]、 柴歡等[8] 都是對該學科領域內科研立項的情況進行統計分析, 且多是通過簡單的圖表和描述性文字來分析數據, 對關鍵詞的統計和劃分也帶有很大的主觀能動性, 缺乏系統的文本處理方法和科學的關鍵詞提取技術。 因考慮到科研立項情況并非能涵蓋所有的圖情檔學科研究熱點, 為更好地幫助研究者快速掌握該領域內全部的研究熱點, 故以 2016—2021 年圖情檔學科文獻為研究對象, 利用復雜網絡技術構建文獻關鍵詞共現網絡, 使用 Gephi 網絡分析及可視化工具挖掘圖情檔學科的熱點研究主題, 從而揭示圖情檔學科熱點研究領域及各領域熱點研究主題。

        1 相關研究

        復雜網絡是對存在的網絡現象及其復雜性進行解釋的學科[9], 因其以圖像化的方式再現系統中各大主體及其之間的關系而受到不少學者的關注。該理論已被應用于文獻挖掘領域, 其理論模型是由大量的節點和連接兩端節點的邊組成。 熱點挖掘和識別是文獻分析研究的重要方法之一, 其是指探析一個學科領域的研究熱點及其連接關系[10]。

        分析文獻本身就是一個復雜、 多階段和耗時的過程, 因此 Feng L 等[11]認為, 在系統分析文獻時要使用一定的文本挖掘技術和工具。 關鍵詞是文獻文本挖掘中不可忽視的重要信息, 是一篇文獻表達其主題的重要手段。 通過對某一學科領域內現有文獻的關鍵詞進行集合性分析, 可揭示所在學科領域的總體特征、研究熱點、 研究主題及發展趨勢等特性。國內外學者基于復雜網絡挖掘文獻熱點展開了積極的探索。

        如 Su X 等[12]對數字圖書館文獻進行關鍵詞的統計和聚類分析, 基于復雜網絡原理將提取到的關鍵詞進行兩兩不重復的、 無序的組合后,統計出每一對關鍵詞出現的頻次, 形成共現矩陣,最終結合復雜網絡中社區發現原理來挖掘不同的研究主題及主題之間的關系; Schossboeck J 等[13] 結合期刊內容, 使用文本挖掘、 主題建模、 k-means聚類、 社會網絡分析和社區檢測等數據挖掘方法,分析某一期刊上發表過的所有論文.

        最后從期刊管理的角度對研究結果進行深入地定性解釋; 辛娟娟等[10]也運用復雜網絡中社區識別技術對林業領域的文獻進行挖掘, 最終總結出八大主題研究領域;蔡婷婷等[14]基于復雜網絡理論對關鍵詞進行分析,總結出危險品運輸領域公路運輸、 道路運輸和層次分析法三大研究熱點; 徐小瑩等[15] 基于網絡嵌入進行大規模關鍵詞共詞分析, 最終分析出近四年來圖情學科熱度的持續、 增加和減退的研究主題。 復雜網絡的理論和文獻熱點挖掘技術在圖情檔學科領域暫處于起步階段, 研究成果較少, 這也為本文的研究提供了理論和實踐上的價值。

        2 研究思路與框架

        本研究首先利用 TF-IDF 方法提取文獻語義表征, 然后利用 DBSCAN 聚類算法發現研究主題較為集中的文獻簇, 最后利用復雜網絡技術構建文獻關鍵詞共現網絡, 使用 Gephi 網絡分析及可視化工具挖掘圖情檔學科的熱點研究主題。

        2.1 文獻采集

        筆者以 “圖情檔” “圖書情報檔案” “檔案”“檔案學” “圖書情報” “圖書館” “數字人文” “輿情” “用戶信息行為” 等關鍵詞, 在知網數據庫中以 “主題” 檢索方式進行文獻檢索, 文獻檢索范圍主要覆蓋 2016—2021 年上述關鍵詞的相關中文文獻。 文獻采集的原則力求采集到的數據盡可能全面、 無遺漏, 具體操作時, 這個問題就轉換為用于檢索的關鍵詞的設定盡可能全面。

        對于關鍵詞的評估主要根據: 一是檢索結果中包含圖情檔學科相關學術期刊的中圖分類號 G25、 G35、 G26、 G27、 N99等, 或者包含 《中國圖書館學報》 《信息資源管理學報》 《圖書情報知識》 《圖書館論壇》 等 CSSCI、北大核心、 中國科技核心類期刊; 二是因為關鍵詞之間存在共詞關系, 收集一定數量關鍵詞之后新增關鍵詞檢索, 結果去重之后幾乎不再增加, 就認為新增的關鍵詞和已收集關鍵詞存在共詞關系, 這一點在最終的分析中也能夠印證。 PageRank 排序最高的 “文獻計量學” 和 “閱讀推廣” 并沒有被用做關鍵詞去檢索文獻, 因這兩個詞和本文所用到的多個關鍵詞都存在共詞關系, 所在文獻一樣被收集到分析數據中。

        此外, 本文的分析方法和結果也可以證明文獻采集階段所使用的關鍵詞是 “完備” 和“收斂” 的, 文獻的主題聚類和關鍵詞網絡關系分析分別使用的是 TF-IDF 和 PageRank 方法, 這兩種主流的文本關鍵詞提取方法, 底層原理不同, 對于本文卻可通過共詞關系完美地解釋分析結果的統一性和合理性。 經過多次檢索, 確定關鍵詞后, 采用 Python+Selenium 自動化測試框架編寫爬蟲代碼,從文獻檢索結果中獲取標題、 作者、 關鍵詞、 摘要、 年份等數據, 最終采集到文獻42 865篇。

        2.2 數據預處理

        由于采用上述不同關鍵詞分別檢索到的文獻存在重復, 因此首先對文獻集進行去重。 并刪除會議通告、 期刊介紹、 選題指南等非研究型文獻, 共剩余35 297篇。 最后, 根據中圖分類號規則[16], 圖情檔學科相關學術期刊的中圖分類號主要為 G25、G35、 G26、 G27、 N99 等。 此外, 考慮到跨學科研究, 保留 D92、 G40、 G42、 N94 等相關文獻進行分析, 最終獲得文獻25 374篇。

        文獻的題目、 摘要和關鍵詞這 3 項內容基本能夠代表文獻的內容, 將這 3 個部分的文本內容作為一個整體處理。 這樣的處理方式主要是考慮到后面用 TF-IDF 方法對文本向量化時, 同一個詞如果同時在這 3 個部分中多處出現, 則比單獨的關鍵詞更能突顯文章主題。 關鍵詞是表達文獻語義的重要手段, 但常常也會存在表達偏差和表達不全, 同時用文獻的題目、 摘要和關鍵詞這 3 項內容來表示文章語義是更為合適的選擇, Google Scholar、 Aminer 等學術搜索引擎同樣也是用這種處理方式來代表文章語義。

        2. 3 PCA

        降維雖然通過 TF-IDF 方法得到了在25 374篇文獻的空間內以文獻為單位的一個表征, 但是這樣的表征是高度稀疏的, 直接作為下游機器學習模型的輸入效果很差, 因此引入 PCA 方法來解決這個問題。PCA 是常用的提取數據的手段, 其功能為提取主成分(主要信息), 摒棄冗余信息(次要信息),從而得到壓縮后的數據, 實現維度的下降。 其設想通過投影矩陣將高維信息轉換到另一個坐標系下,并通過平移將數據均值變為零。

        PCA 認為, 在變換過后的數據中, 在某一維度上, 數據分布得更分散, 則認為對數據點分布情況的解釋力就更強。 故在 PCA 中, 通過方差來衡量數據樣本在各個方向上投影的分布情況, 進而對有效的低維方向進行選擇。 KernelPCA 是 PCA 的一個改進版, 它將非線性可分的數據轉換到一個適合對齊進行線性分類的新的低維子空間上, 該 PCA 可以通過非線性映射將數據轉換到高維空間里, 在高維空間中使用PCA 將其映射到另一個低維空間中, 并通過線性分類器對樣本進行劃分。

        筆者同時嘗試了 PCA 和 KernelPCA 方法將文獻表征向量的長度從55 973維壓縮到 50 維, 使表征矩陣不再稀疏。

        2. 4 文本聚類

        DBSCAN 是一種基于密度的聚類算法[18]。 使用 DBSCAN 算法對25 374篇文獻聚類, 同時使用Cosine 余弦距離作為距離度量, 挖掘熱點并過濾掉研究主題不是很集中的文獻和噪聲數據, 將聚類的最小數量適量放大。 嘗試了多組搜索半徑和最小樣本數的組合, 實驗效果較好的是: 使用 PCA 方法降維時, 搜索半徑設為 0.05, 最小樣本數設為 50。

        通過實驗, 共聚得 11 個類簇: 0 類簇包含文獻 126 篇, 主題為圖書館學; 1 類簇包含文獻 127篇, 主題為目錄學, 文獻編目; 2 類簇包含文獻318 篇, 主題為圖書館服務, 閱讀推廣; 3 類簇包含文獻 114 篇, 主題為數字人文和信息技術與圖情檔學科的交叉研究; 4 類簇包含文獻 407 篇, 主題為文獻計量; 5 類簇包含文獻 198 篇, 主題為檔案管理模式和制度; 6 類簇包含文獻 160 篇, 主題為檔案服務; 7 類簇包含文獻 54 篇, 主題為檔案學理論研究; 8 類簇包含文獻 52 篇, 主題為圖書館服務體系研究; 9 類簇包含文獻 62 篇, 主題為圖書館發展研究; 10 類簇包含文獻 95 篇, 主題為新媒體平臺和高校輿情; 未聚類23 671篇, 通過深入分析發現, 未聚類的文獻存在 3 類情況:

        第一類是研究主題較為籠統寬泛, 方向比較大, 沒有立足于一個非常具體的研究點, 比較典型的是綜述類文獻; 第二類是研究主題雖然明確, 但不具備數量上的集中性, 屬于小眾研究方向, 比如 “音樂院校圖書館口述歷史資源建設路徑探索” (《四川戲劇》2021)這樣冷門的跨學科的研究方向; 第三類是噪聲數據, 經過數據預處理之后, 仍然還會存在一部分噪聲數據, 比如 “扎實求進, 推動發展———北京市檔案館傳達全國檔案局長館長會議精神” (《北京檔案》 2021), 這種新聞簡報類數據存在于知網的檢索結果中, 但在數據預處理時無法用單一的規則過濾, 這一步借助無法聚類達到過濾的效果, 消除了噪音數據對后續分析的影響。

        需要說明的是,聚類的平衡和效果, 是經過多次實驗比較之后得到的, 將聚類的最小樣本數設為 50, 從實驗效果和數量占比上來講也是很合理的, 最小樣本數設為100時, 聚類結果是 7 類, 而最小樣本數設為 40 時, 聚類結果就增加到 23 類.

        另外 50 篇大概占文獻數量(25 376篇)的 2%, 一個研究主題雖然具有一定的數量, 但卻不超過總數的 2%, 應該也只能算很小眾的研究主題, 上述兩點證明當前聚類結果是平衡合理的。 此外, 從全景圖和局部圖可以看出, 紫色的點是未聚類的文獻, 散布在各處, 藍色、綠色、 黃色的點都是聚成類的文獻, 而且相當集中,各類之間邊界清晰, 說明聚類效果較好。

        3 研究結果與分析

        復雜網絡分析中, 節點度、 聚類系數和平均路徑長度這 3 個基本概念可以很好地反映一個網絡的基本特征。 另外, 衡量網絡小世界結構的程度可以用小世界商值, 即將當前網絡的聚類系數 C、 平均路徑長度 L 與同規模隨機網絡的聚類系數 C 和平均路徑長度 L 進行比較運算。

        4 研究結果

        4.1 圖情檔學科的熱點研究主題

        本文基于復雜網絡技術, 通過構建關鍵詞共現網絡, 以 2016—2021 年圖情檔學科文獻為研究對象, 使用 Gephi 網絡分析及可視化工具挖掘圖情檔學科的熱點研究主題。

        1) 圖書館領域的研究熱點最為聚集, 文獻核心主題以大數據、 高校和公共圖書館、 知識服務、人工智能、 閱讀推廣、 數字人文為主。 總體來說,圖書館領域文獻熱點可分為圖書館實證研究和圖書館學科研究。 圖書館實證研究是指對高校、 公共等特定類型圖書館的實證問題研究; 圖書館學科研究主要是指對圖書館學科的研究熱點、 專業建設或人才培養等方面的研究。

        2) 情報學領域主題可分為以文獻計量、 學術評價為主的情報學應用和大數據環境下情報學及情報學科建設兩類。 前者主要是使用 Citespace、 社會網絡分析、 共詞分析等方法對各學科進行分析, 數據顯示主要應用于醫學、 計算機科學、 教育等學科的熱點分析及其他相關研究。 后者主要是基于大數據、 數據科學等數據技術對情報學的學科建設、 人才培養、 學科理論等學科發展問題進行研究。

        3) 檔案領域文獻熱點集中在檔案數字化、 檔案館業務、 檔案學科研究及檔案局業務等相關主題上。 檔案數字化包括檔案信息化、 電子文件、 電子檔案、 大數據、 區塊鏈、 單套制、 云計算、 雙套制、 數據庫、 人工智能等; 檔案館業務包括檔案資源、 檔案利用、 檔案服務、 檔案文化、 檔案編研、檔案展覽、 檔案庫房、 社交媒體、 檔案開放、 城市記憶、 公眾參與等; 檔案學科研究包括知識圖譜、文獻計量、 數字人文、 檔案教育、 檔案學研究、 可視化、 Citespace、 人才培養、 高等教育、 研究熱點等; 檔案局業務包括檔案法、 民生檔案、 檔案安全、 公共服務、 檔案工作人員、 十三五、 疫情防控、 檔案業務指導、 檔案宣傳、 縣級檔案、 鄉村振興、 檔案管理隊伍等。

        4. 2 熱點研究主題的特征

        1) 文獻計量學研究成果較多。 文獻計量學作為圖情檔學科的一個重要議題, 經過多年發展已經成為該學科開展自身研究的一個重要方法, 交叉程度不斷加深。 圖情檔文獻熱點關鍵詞包括文獻計量學、 文獻計量、 引文分析、 聚類分析、 共詞分析等, 現主研人工智能的學者也把人工智能中流行數據可視化研究方法引入到文獻計量學研究中。 文獻計量學不僅能解決傳統的學科問題, 還能為人工智能的研究提供理論知識和參考經驗。

        2) 圖情檔學科與信息技術緊密結合。 人工智能時代的來臨, 可視化、 知識圖譜、 聚類分析和社會網絡分析等許多具有代表性的技術和方法也影響著圖情檔學科的發展和研究。 可視化分析和 Citespace 等關鍵詞在各種指標排序中都占有重要地位, 圖情檔學科各領域研究均對可視化技術和工具有巨大的需求, 國內被使用最多的是Citespace。 以 Citespace、 Hist Cite 為代表的可視化工具, 對用戶來說存在一定的使用門檻, 未來, 誰可以更好地掌握可視化技術和工具誰就將在圖情檔學科研究中占得先機。

        開展公共文化服務, 傳承傳統文化。 公共文化服務一貫是我國圖情檔研究領域的熱點, 公共圖書館、 高校圖書館和檔案館都以向用戶開展均等、 高質量的文化活動為己任。 當前受疫情的影響, 圖書館及檔案領域的應急管理和突發公共事件相關研究熱度較高。 大數據時代, 承擔傳承社會記憶職能的圖書館和檔案館的載體形式發生較大的改變, 除傳統的法治、 企業、 家族等檔案, 現檔案學的研究模式開始由紙質向電子化轉變。 信息技術的發展要求檔案學要進行跨學科、 跨領域融合, 檔案學與社會記憶的交叉融合的研究值得廣大學者關注。 同樣, 有關古籍保護學科建設問題也是圖情檔學科的重要議題。

        5 結 語

        本文基于復雜網絡技術, 通過構建關鍵詞共現網絡, 以 2016—2021 年圖情檔學科文獻為研究對象, 文本處理上使用 TF-IDF 加權技術來分類文獻,并嘗試 PCA 和 KernelPCA 方法壓縮文獻表征向量,最終運用 DBSCAN 算法將文獻聚類。 文本處理后使用 Gephi 網絡分析及可視化工具挖掘出圖書館學、 情報學和檔案學的熱點研究主題。 最終, 從圖情檔一級學科的視角綜合分析現有文獻熱點的特征, 試圖提出該學科下一步的文獻熱點主題和研究方向, 為后續研究者提供指引和參考。 期望本研究可以讓該領域研究者在了解研究熱點的基礎上確定好自己的研究方向, 也能為新研究者或跨領域研究者快速了解圖情檔學科、 為跨領域融合提供參考。

        參 考 文 獻

        [1] 中華人民共和國教育部. “六卓越一拔尖” 計劃 2􀆰 0 啟動大會召開, 掀起高教質量革命, 助力打造質量中國 [EB/ OL].

        [2] 澎湃新聞. 新文科建設工作會在山東大學召開: 《新文科建設宣言》 發布 [ EB/ OL].

        [3] 初景利. “新文科” 呼喚圖情檔成為 “硬” 學科 [ J]. 圖書與情報, 2020, (6): 1-3.

        [4] 馬費成, 李志元. 新文科背景下我國圖書情報學科的發展前景[J]. 中國圖書館學報, 2020, 46 (6): 4-15.

        [5] 柯平. 新圖情檔———新文科建設中的圖書情報與檔案管理一級學科發展 [J]. 情報資料工作, 2021, 42 (1): 15-20.

        [6] 孫艷紅. 國家基金項目視域下圖情檔學科研究現狀、 熱點及趨勢分析 [J]. 圖書館工作與研究, 2021, (3): 93-101.

        [7] 吳維芳. 基于文本可視化挖掘圖情檔前沿研究熱點———來自國家社科基金 2017—2019 年圖情檔立項數據 [ J]. 機電兵船檔案, 2020, (3): 26-28.

        [8] 柴歡, 阮建海. 基于 2013—2017 年國家基金項目的 “圖書館、情報與檔案管理” 學科研究現狀分析 [ J]. 情報科學, 2019,37 (8): 163-169.

        [9] 呂莉媛. 基于復雜網絡的圖書館數字資源整合 [ J]. 情報科學, 2009, 27 (12): 1811-1815.

        [10] 辛娟娟, 曹佳. 基于復雜網絡的文獻熱點挖掘及可視化 [ J].計算機工程與應用, 2016, 52 (12): 261-264, 270.

        作者:巫芯宇

      日本真人作爱试看120秒免费

        <span id="djtl1"><nobr id="djtl1"></nobr></span>

        <address id="djtl1"></address>
        <em id="djtl1"><address id="djtl1"></address></em>
        <address id="djtl1"><nobr id="djtl1"><progress id="djtl1"></progress></nobr></address>

        <address id="djtl1"></address>

          <address id="djtl1"><address id="djtl1"></address></address>