信息檢索
信息檢索(Information Retrieval,IR),從狹義上講,是指用戶使用檢索工具或系統(tǒng),采用特定的檢索策略和方法,從信息資源集合中找到并獲取所需信息的過(guò)程。從廣義上講,它首先是索引和存儲(chǔ)信息的過(guò)程,其次是分析和檢索信息的過(guò)程。信息檢索的本質(zhì)是用戶信息需求與信息資源集合匹配的過(guò)程。用戶在尋找所需信息時(shí)表達(dá)需求,系統(tǒng)將需求與信息資源系統(tǒng)中的檢索語(yǔ)言進(jìn)行匹配。
信息檢索起源于圖書(shū)館的參考咨詢服務(wù)和文摘索引。它最早發(fā)展于19世紀(jì)下半葉,到20世紀(jì)40年代,索引和檢索已成為圖書(shū)館的獨(dú)立工具和用戶服務(wù)項(xiàng)目。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)的問(wèn)世,計(jì)算機(jī)技術(shù)逐漸進(jìn)入信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合。20世紀(jì)70年代,隨著通信技術(shù)的發(fā)展,美國(guó)出現(xiàn)了Tymnet和Telnet等數(shù)據(jù)通信網(wǎng)絡(luò),通信成本降低,在線檢索逐漸在美國(guó)普及。20世紀(jì)80年代,隨著微型計(jì)算機(jī)的廣泛應(yīng)用和高密度存儲(chǔ)介質(zhì)光盤(pán)的出現(xiàn),計(jì)算機(jī)信息檢索進(jìn)入了光盤(pán)檢索階段。20世紀(jì)90年代,隨著衛(wèi)星通信技術(shù)、網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展,信息檢索進(jìn)入了網(wǎng)絡(luò)檢索階段。此外,隨著人工智能技術(shù)的發(fā)展,互聯(lián)網(wǎng)檢索逐漸向語(yǔ)義和知識(shí)檢索發(fā)展,并進(jìn)入智能信息檢索階段。
信息檢索的四個(gè)基本要素包括信息資源、信息需求、信息獲取和信息利用。實(shí)踐中常用的信息檢索技術(shù)主要包括布爾邏輯檢索、截止檢索、有限檢索和位置檢索。信息檢索有很多種,按檢索方法可分為手工信息檢索和數(shù)字信息檢索;按檢索對(duì)象可分為文獻(xiàn)信息檢索、數(shù)據(jù)信息檢索和事實(shí)信息檢索;按組織方式可分為全文檢索、超文本檢索和超媒體檢索,通過(guò)按內(nèi)容特征劃分的主題路徑和分類路徑以及按外觀特征劃分的作者路徑、書(shū)名路徑、序號(hào)路徑和引文路徑進(jìn)行信息檢索。
信息檢索廣泛應(yīng)用于文檔檢索、網(wǎng)頁(yè)檢索和社交媒體分析等領(lǐng)域,使人們能夠以最少的時(shí)間和精力在文獻(xiàn)中快速準(zhǔn)確地獲取所需的知識(shí),并能培養(yǎng)人們獲取最新信息和更新自身知識(shí)的能力,使其知識(shí)結(jié)構(gòu)和思維方式與社會(huì)發(fā)展保持同步,提高自主學(xué)習(xí)能力。然而,信息檢索也面臨著檢索結(jié)果不完整、標(biāo)引準(zhǔn)確率低、無(wú)法長(zhǎng)期提供信息服務(wù)等局限性。
歷史發(fā)展 編輯本段
信息檢索起源于圖書(shū)館的參考咨詢服務(wù)和文摘索引。它最早發(fā)展于19世紀(jì)下半葉,到20世紀(jì)40年代,索引和檢索已成為圖書(shū)館的獨(dú)立工具和用戶服務(wù)項(xiàng)目。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)的問(wèn)世,計(jì)算機(jī)技術(shù)逐漸進(jìn)入信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合。
手動(dòng)搜索
信息檢索起源于參考咨詢工作,讀者需要獨(dú)立使用圖書(shū)館提供的書(shū)目和索引工具來(lái)查詢所需的文獻(xiàn)和信息。在這一階段,信息檢索行為已經(jīng)出現(xiàn),但比較分散和不專業(yè),缺乏必要的關(guān)注和研究,因此沒(méi)有形成專業(yè)的信息檢索系統(tǒng)。19世紀(jì)下半葉,正式參考咨詢服務(wù)逐漸發(fā)展起來(lái),尤其是在美國(guó)公共圖書(shū)館和大學(xué)圖書(shū)館。20世紀(jì)初,大多數(shù)圖書(shū)館都設(shè)立了參考部,主要利用圖書(shū)館的書(shū)目工具幫助讀者找到書(shū)籍、期刊或現(xiàn)成的答案。索引成為一種獨(dú)立的檢索工具,書(shū)目和摘要開(kāi)始被編纂并用于專門(mén)的文獻(xiàn)檢索。“信息檢索”從此成為一項(xiàng)獨(dú)立的用戶服務(wù)工作,并逐漸從一項(xiàng)純粹的經(jīng)驗(yàn)工作向科學(xué)方向發(fā)展。然而,人工檢索簡(jiǎn)單、成本低、精度高,但效率很低,且無(wú)法保證查全率。隨著科學(xué)技術(shù)的發(fā)展,文獻(xiàn)信息日益增多。使用印刷文檔的傳統(tǒng)人工檢索方法已經(jīng)不能適應(yīng)信息的快速增長(zhǎng),更不用說(shuō)跟上時(shí)代的發(fā)展了。
機(jī)械信息檢索
20世紀(jì)50年代開(kāi)始使用機(jī)械信息檢索系統(tǒng)。它是一個(gè)使用各種機(jī)械設(shè)備來(lái)檢索信息的機(jī)械系統(tǒng)。這是從人工檢索到計(jì)算機(jī)信息檢索的過(guò)渡階段。1954年,V Nivard Bush博士在他的文章《正如我們所想》中首次提出了利用機(jī)械和電子技術(shù)實(shí)現(xiàn)信息檢索的想法。他描述了一種稱為“Memex”的非線性檢索機(jī)器。他和美國(guó)農(nóng)業(yè)部圖書(shū)管理員拉爾夫·肖共同建造了一臺(tái)名為“布什·肖檢索機(jī)”的快速檢索機(jī)。這臺(tái)機(jī)器利用光電原理來(lái)檢索拷貝在膠片上的文件。膠片邊緣有黑白點(diǎn)用于編碼,當(dāng)它遇到要搜索的內(nèi)容時(shí)就會(huì)停止。
機(jī)械信息檢索系統(tǒng)通過(guò)改進(jìn)信息存儲(chǔ)和檢索方法,使用先進(jìn)的機(jī)械裝置來(lái)控制機(jī)械動(dòng)作,并用機(jī)械信息處理器的數(shù)據(jù)識(shí)別功能代替部分人腦。這促進(jìn)了信息檢索的自動(dòng)化。然而,機(jī)械信息檢索系統(tǒng)沒(méi)有開(kāi)發(fā)信息檢索語(yǔ)言,而只是使用單一方法檢索固定的存儲(chǔ)形式。此外,它過(guò)于依賴設(shè)備,檢索復(fù)雜且成本高,檢索效率和質(zhì)量都不理想。因此,機(jī)械信息檢索系統(tǒng)很快被迅速發(fā)展的計(jì)算機(jī)信息檢索系統(tǒng)所取代。
離線批量信息檢索
20世紀(jì)60年代初,美國(guó)開(kāi)始使用計(jì)算機(jī)編輯和排版檢索工具,并使用計(jì)算機(jī)處理文獻(xiàn)記錄。他們將文獻(xiàn)記錄存儲(chǔ)在磁帶上并編制各種索引,實(shí)現(xiàn)了自動(dòng)照片排版和離線批量檢索服務(wù)。現(xiàn)階段,“化學(xué)學(xué)科記錄”和“醫(yī)學(xué)索引”數(shù)據(jù)庫(kù)相繼產(chǎn)生。但由于當(dāng)時(shí)計(jì)算機(jī)技術(shù)的限制,數(shù)據(jù)載體主要是磁帶和磁鼓,系統(tǒng)僅由一臺(tái)計(jì)算機(jī)和幾個(gè)相關(guān)文件組成。專職情報(bào)工作者根據(jù)用戶的需求和指令編制檢索問(wèn)題,積累一定數(shù)量的問(wèn)題后輸入計(jì)算機(jī)進(jìn)行批量處理。然后將檢索結(jié)果返回給用戶。這一階段的特點(diǎn)是用戶不直接參與檢索,而且由于數(shù)據(jù)載體是磁帶和磁鼓,只能進(jìn)行簡(jiǎn)單的順序檢索。
在線檢索
20世紀(jì)60年代中期,以半導(dǎo)體為主要器件的計(jì)算機(jī)出現(xiàn),大大提高了計(jì)算機(jī)的分時(shí)處理能力。同時(shí),強(qiáng)大檢索軟件的成功開(kāi)發(fā)使離線檢索迅速發(fā)展為在線檢索。DIALOG、ORBIT等國(guó)際知名在線檢索系統(tǒng)開(kāi)始對(duì)外提供服務(wù)。但是,因?yàn)楫?dāng)時(shí)的網(wǎng)上搜索是租用公共電話線,所以搜索費(fèi)用非常昂貴。20世紀(jì)70年代,隨著通信技術(shù)的發(fā)展,美國(guó)出現(xiàn)了Tymnet和Telnet等數(shù)據(jù)通信網(wǎng)絡(luò),通信成本降低,在線檢索逐漸在美國(guó)普及。隨后,衛(wèi)星通信被用于計(jì)算機(jī)網(wǎng)絡(luò),世界主要計(jì)算機(jī)檢索系統(tǒng)進(jìn)入通信網(wǎng)絡(luò)為世界各地區(qū)提供服務(wù),從而發(fā)展成為國(guó)際在線檢索。
光盤(pán)檢索
20世紀(jì)80年代,隨著微型計(jì)算機(jī)的廣泛應(yīng)用和高密度存儲(chǔ)介質(zhì)光盤(pán)的出現(xiàn),計(jì)算機(jī)信息檢索進(jìn)入了光盤(pán)檢索階段。憑借其超媒體和大存儲(chǔ)容量,光盤(pán)一直受到情報(bào)界的青睞。與在線檢索不同,光盤(pán)檢索不需要投入巨大的基礎(chǔ)設(shè)施和復(fù)雜的技術(shù),搜索者也不需要擁有專門(mén)的檢索技術(shù),更不用擔(dān)心通信和在線打印成本。用戶可以不斷修正檢索策略,獲得滿意的檢索結(jié)果。除了原來(lái)的書(shū)目和摘要數(shù)據(jù)庫(kù)外,全文數(shù)據(jù)庫(kù)已被添加到光盤(pán)數(shù)據(jù)庫(kù)中。但這種檢索方式受到光盤(pán)數(shù)據(jù)庫(kù)更新的限制,提供的信息具有一定的時(shí)間差。
光盤(pán)檢索系統(tǒng)可分為單機(jī)和在線兩種。單機(jī)光盤(pán)檢索系統(tǒng)由微型計(jì)算機(jī)、光盤(pán)驅(qū)動(dòng)器、光盤(pán)數(shù)據(jù)庫(kù)、檢索程序和驅(qū)動(dòng)器組成,它可以是一個(gè)獨(dú)立的系統(tǒng),供單個(gè)用戶檢索。聯(lián)機(jī)光盤(pán)檢索系統(tǒng)是單機(jī)系統(tǒng)的發(fā)展。20世紀(jì)80年代末,出現(xiàn)了支持光盤(pán)網(wǎng)絡(luò)的光盤(pán)塔和局域網(wǎng)。服務(wù)器在局域網(wǎng)(如圖書(shū)館內(nèi)部網(wǎng)或校園網(wǎng))中連接多個(gè)用戶終端,管理和運(yùn)行一套光盤(pán)數(shù)據(jù)庫(kù),使多個(gè)終端用戶可以同時(shí)檢索這些數(shù)據(jù)庫(kù)并共享信息資源。
互聯(lián)網(wǎng)檢索
20世紀(jì)90年代,隨著衛(wèi)星通信技術(shù)、網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展,信息檢索進(jìn)入了網(wǎng)絡(luò)檢索階段。在此期間,越來(lái)越多的官方出版物被放到互聯(lián)網(wǎng)上,各種電子期刊、電子書(shū)和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)不斷涌現(xiàn)。互聯(lián)網(wǎng)上有書(shū)目數(shù)據(jù)庫(kù)、摘要數(shù)據(jù)庫(kù)甚至全文數(shù)據(jù)庫(kù),這使得信息檢索非常方便,圖像生動(dòng)而形象。互聯(lián)網(wǎng)使信息資源共享成為現(xiàn)實(shí)。其規(guī)模、復(fù)雜性和快速發(fā)展的趨勢(shì)使其成為世界上強(qiáng)大的通信工具,世界主要檢索系統(tǒng)已進(jìn)入互聯(lián)網(wǎng)。
智能信息檢索
此外,隨著人工智能技術(shù)的發(fā)展,互聯(lián)網(wǎng)檢索逐漸向語(yǔ)義和知識(shí)檢索發(fā)展,并進(jìn)入智能信息檢索階段。智能檢索是將現(xiàn)代人工智能技術(shù)和方法引入信息檢索系統(tǒng),使后者具有一定程度的智能特征,并在更高層次上實(shí)現(xiàn)其功能。智能信息檢索基于對(duì)內(nèi)容的分析和理解、內(nèi)容表達(dá)、知識(shí)學(xué)習(xí)和推理機(jī)制、決策等。以語(yǔ)義和知識(shí)檢索為例,與傳統(tǒng)檢索相比,語(yǔ)義檢索不僅可以檢索到與用戶關(guān)鍵詞完全匹配的結(jié)果,而且可以擴(kuò)展關(guān)鍵詞,這可能會(huì)導(dǎo)致更理想的檢索結(jié)果。語(yǔ)義檢索將試圖理解搜索者想要檢索的整體思想,并推斷搜索者的檢索意圖,從而檢索到所需的結(jié)果。知識(shí)檢索與信息檢索的區(qū)別在于知識(shí)檢索強(qiáng)調(diào)語(yǔ)義,而不是像信息檢索那樣僅僅基于字面上的機(jī)械匹配。它可以從語(yǔ)義和概念的角度揭示文章的內(nèi)在含義。在語(yǔ)義和概念層面檢索標(biāo)引知識(shí)將提高查全率和查準(zhǔn)率,減輕用戶負(fù)擔(dān)。
操作原理 編輯本段
信息檢索的本質(zhì)是用戶信息需求與信息資源集合匹配的過(guò)程。因此,信息檢索的一般步驟是從提出問(wèn)題到解決問(wèn)題的過(guò)程。這個(gè)過(guò)程需要信息檢索人員從檢索到的信息中識(shí)別出能夠解決問(wèn)題的方法并最終解決問(wèn)題。信息檢索的基本步驟一般包括分析檢索主題、定義檢索需求、選擇檢索工具、確定檢索路徑、提取檢索詞、編寫(xiě)檢索表達(dá)式、實(shí)施檢索、調(diào)整檢索策略和輸出檢索結(jié)果。用戶在尋找所需信息時(shí)表達(dá)需求,系統(tǒng)將需求與信息資源系統(tǒng)中的檢索語(yǔ)言進(jìn)行匹配。如果匹配成功,所需信息將出現(xiàn)在檢索結(jié)果中;如果匹配不成功,則需要重新分析檢索需求并調(diào)整搜索詞進(jìn)行二次檢索。由于網(wǎng)絡(luò)信息資源量大、更新快,許多信息資源的內(nèi)容與元數(shù)據(jù)的描述不匹配,難以實(shí)現(xiàn)信息需求與信息集合的完全匹配。在信息檢索過(guò)程中,需要根據(jù)檢索結(jié)果適當(dāng)調(diào)整搜索詞,使檢索結(jié)果盡可能匹配信息需求。
基本要素 編輯本段
信息資源
信息資源是用戶滿足需求的基本保障。信息資源可以包括書(shū)籍、報(bào)紙、研究報(bào)告、會(huì)議信息、專利信息、學(xué)位論文等。根據(jù)出版形式,可以包括印刷、機(jī)器可讀和視聽(tīng)類型。用戶通常通過(guò)檢索工具來(lái)查找和獲取所需的信息資源,檢索工具是在對(duì)信息資源進(jìn)行加工和整理的基礎(chǔ)上產(chǎn)生的。正是由于用戶的信息需求和信息資源的存在,人們開(kāi)發(fā)了各種檢索工具。通過(guò)使用這些工具,用戶可以更有效地找到和獲取他們需要的信息,從而滿足他們的需求。
信息需求
用戶的信息需求是信息檢索的必要驅(qū)動(dòng)力,他們通常通過(guò)檢索條件來(lái)表達(dá)這些需求。由于個(gè)體差異,不同的用戶會(huì)有不同的信息需求,即使對(duì)于相同描述的信息,不同的用戶也會(huì)有不同的理解。具體體現(xiàn)在人對(duì)信息的敏感度、選擇取向和理解識(shí)別能力上。信息需求意識(shí)包括信息認(rèn)知、信息情感和信息行為三個(gè)層次,是人們學(xué)習(xí)信息知識(shí)和利用信息解決實(shí)際問(wèn)題的基礎(chǔ)。此外,用戶對(duì)檢索工具的認(rèn)知也會(huì)影響他們對(duì)檢索工具的正確選擇和不同檢索策略的制定。
信息采集
信息獲取是信息檢索的目標(biāo)。要實(shí)現(xiàn)這一目標(biāo),需要了解各種信息來(lái)源,掌握信息檢索方法,熟練使用檢索工具,正確評(píng)價(jià)信息檢索效果。它體現(xiàn)在人們應(yīng)用信息存儲(chǔ)機(jī)構(gòu)(如圖書(shū)館、互聯(lián)網(wǎng)和各種光盤(pán)數(shù)據(jù)庫(kù))的能力上。當(dāng)用戶確定合適的檢索工具時(shí),他們需要選擇符合其信息需求的搜索詞和字段來(lái)構(gòu)建檢索條件。設(shè)置適當(dāng)?shù)臋z索條件后,檢索工具將執(zhí)行查找目標(biāo)文獻(xiàn)的任務(wù)。不同的檢索策略會(huì)導(dǎo)致不同的結(jié)果,關(guān)鍵步驟是檢索條件的設(shè)置。
檢索工具的質(zhì)量直接關(guān)系到檢索任務(wù)的質(zhì)量,這包括用戶能否在短時(shí)間內(nèi)以較少的成本找到足夠的線索和目標(biāo)信息的原始信息。根據(jù)美國(guó)國(guó)家基金會(huì)在化工部的調(diào)查,科研人員的總工作時(shí)間分配為:信息收集占50.9%,實(shí)驗(yàn)論證占32.1%,數(shù)據(jù)處理占9.3%,計(jì)劃和思考占7.7%。因此,掌握信息獲取技術(shù)可以使研究人員以最快、最準(zhǔn)確的方式獲得所需信息。
信息利用
檢索信息資源的目的是為了利用信息資源,檢索效果直接關(guān)系到用戶的信息需求。事實(shí)上,信息資源是一種可再生資源,在工程和科技領(lǐng)域可以根據(jù)不同的目標(biāo)使用相關(guān)信息。一方面,利用信息會(huì)開(kāi)闊我們的視野,避免重復(fù)別人的研究工作;另一方面,它還可以將現(xiàn)有信息轉(zhuǎn)化為新知識(shí)。然而,由于在創(chuàng)建各種信息線索時(shí)缺乏統(tǒng)一的標(biāo)準(zhǔn),不同的信息提供者往往根據(jù)自己的習(xí)慣創(chuàng)建信息線索,導(dǎo)致許多符合用戶需求的信息線索無(wú)法找到。此外,一些信息線索雖然符合用戶的檢索條件,但并不完全符合用戶的信息需求。
主要類型 編輯本段
按檢索方式
人工信息檢索:人工信息檢索是一種傳統(tǒng)的檢索方法,主要利用各種工具書(shū),如文摘、索引、手冊(cè)、目錄卡片等來(lái)檢索信息。這種檢索方法來(lái)源于文摘索引和圖書(shū)館參考咨詢服務(wù)。雖然人工信息檢索不需要特殊設(shè)備,方法簡(jiǎn)單靈活,易于人們掌握,但它有一些明顯的缺點(diǎn)。沒(méi)有機(jī)械設(shè)備的幫助,檢索過(guò)程非常耗時(shí)費(fèi)力,容易造成漏檢和誤檢。同時(shí),由于純手工操作,對(duì)操作人員的知識(shí)儲(chǔ)備和專業(yè)技能要求較高。
數(shù)字信息檢索:數(shù)字信息檢索主要指計(jì)算機(jī)檢索。自1946年第一臺(tái)計(jì)算機(jī)誕生以來(lái),計(jì)算機(jī)在信息檢索領(lǐng)域的應(yīng)用不斷取得突破。隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的出現(xiàn),信息檢索技術(shù)也在不斷更新和變化。隨著新媒體時(shí)代的到來(lái),數(shù)字信息檢索方式也增加了微信檢索、微博檢索和各種應(yīng)用軟件內(nèi)置檢索的功能。這些新的檢索方法使人們能夠更加方便快捷地獲取所需信息,同時(shí)使信息檢索更加智能化和個(gè)性化。
根據(jù)檢索對(duì)象
文獻(xiàn)信息檢索主要關(guān)注文獻(xiàn)的特征,旨在通過(guò)各種檢索工具(如文摘數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)、書(shū)目數(shù)據(jù)庫(kù)等)發(fā)現(xiàn)文獻(xiàn)線索。),并根據(jù)這些線索找到原始文獻(xiàn)。這種類型的信息檢索涉及大量數(shù)據(jù),是信息檢索的主要組成部分。文獻(xiàn)檢索是一個(gè)探索相關(guān)性的深層過(guò)程,它不能直接給出用戶問(wèn)題的直接答案。然而,通過(guò)文獻(xiàn)信息檢索,科研用戶可以深入分析特定主題的主要內(nèi)容,并為項(xiàng)目研究提供重要參考。
數(shù)據(jù)信息檢索:數(shù)據(jù)信息檢索以數(shù)據(jù)為主要對(duì)象,其目的是通過(guò)特定的檢索工具(如數(shù)值數(shù)據(jù)庫(kù)和統(tǒng)計(jì)數(shù)據(jù)庫(kù))找到特定的數(shù)據(jù),如文獻(xiàn)中的特定數(shù)據(jù)、公式和圖表,或某種物質(zhì)的化學(xué)分子式。
事實(shí)信息檢索:事實(shí)信息檢索以事實(shí)為主要檢索對(duì)象,旨在通過(guò)特定的檢索工具(如指南數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù))找到特定的事實(shí)性和知識(shí)性答案。與文獻(xiàn)信息檢索不同,數(shù)據(jù)信息檢索和事實(shí)信息檢索都是確定性檢索,用戶可以直接使用檢索到的信息,從而大大節(jié)省了研究人員的時(shí)間,提高了研究效率。
按組織模式劃分
全文檢索:全文檢索是指檢索存儲(chǔ)在數(shù)據(jù)庫(kù)中的整本書(shū)和文章中的任何信息。用戶可以根據(jù)個(gè)人需求獲取相關(guān)章節(jié)、段落等信息,同時(shí)還可以進(jìn)行各種頻次統(tǒng)計(jì)和內(nèi)容分析。
超文本檢索:超文本是一種通過(guò)超鏈接將不同空間的文本信息組織起來(lái)的網(wǎng)絡(luò)文本。它由若干信息節(jié)點(diǎn)和一條表示節(jié)點(diǎn)間關(guān)聯(lián)的鏈組成,形成一個(gè)具有特定邏輯結(jié)構(gòu)和語(yǔ)義關(guān)系的非線性網(wǎng)絡(luò)。超文本檢索是對(duì)存儲(chǔ)在每個(gè)節(jié)點(diǎn)中的信息和由信息鏈組成的網(wǎng)絡(luò)信息的檢索。在超文本檢索中,理解中心節(jié)點(diǎn)之間的語(yǔ)義連接結(jié)構(gòu)非常重要,這依賴于系統(tǒng)提供的用于圖形顯示和節(jié)點(diǎn)瀏覽查詢的工具。
超媒體檢索:對(duì)文本、圖像、聲音等媒體信息的檢索是對(duì)超文本檢索的補(bǔ)充。
檢索語(yǔ)言 編輯本段
在搜索時(shí),用戶需要將搜索問(wèn)題轉(zhuǎn)換為系統(tǒng)可以接收的語(yǔ)言,這就是搜索語(yǔ)言。檢索語(yǔ)言是用來(lái)描述檢索系統(tǒng)中信息的內(nèi)部或外部特征以及表達(dá)用戶信息問(wèn)題的特殊語(yǔ)言。常見(jiàn)的檢索語(yǔ)言有分類語(yǔ)言和主題語(yǔ)言。
分類語(yǔ)言
分類語(yǔ)言是用分類號(hào)和相應(yīng)的分類條目名稱表示信息主題概念,并根據(jù)學(xué)科性質(zhì)對(duì)信息進(jìn)行系統(tǒng)分類和組織的檢索語(yǔ)言。其中,最常見(jiàn)的是系統(tǒng)分類語(yǔ)言,它是按照學(xué)科體系從綜合到一般、從復(fù)雜到簡(jiǎn)單、從高級(jí)到低級(jí)的順序逐步開(kāi)發(fā)的。常用的檢索語(yǔ)言包括《中國(guó)圖書(shū)館分類法》、《國(guó)際十進(jìn)分類法》、《美國(guó)國(guó)會(huì)圖書(shū)館分類法》、《國(guó)際專業(yè)分類法》等。分類語(yǔ)言可以更好地反映主題的系統(tǒng)性,通過(guò)集中同一主題的文檔有助于用戶從主題或?qū)I(yè)的角度進(jìn)行搜索,但用戶需要知道概念對(duì)應(yīng)的分類號(hào)。
中國(guó)圖書(shū)館分類法
《中國(guó)圖書(shū)館分類法》,簡(jiǎn)稱《中圖法》,是我國(guó)各類圖書(shū)館和情報(bào)單位廣泛使用的綜合分類法。《中國(guó)圖書(shū)館分類法》是建立在科學(xué)分類和圖書(shū)特征基礎(chǔ)上的系統(tǒng)分類。它分為五個(gè)基本類別,再細(xì)分為22個(gè)基本類別。每個(gè)類別根據(jù)學(xué)科的具體內(nèi)容逐層擴(kuò)展,逐級(jí)形成層次分明的科學(xué)體系。字母和數(shù)字的不同組合代表不同的類別,其中特別的一個(gè)是“工業(yè)技術(shù)”使用兩個(gè)字母代表二級(jí)類別。
國(guó)際十進(jìn)分類法
通用十進(jìn)分類法也被廣泛稱為通用十進(jìn)分類法。它是世界上用戶數(shù)量最多、影響最深遠(yuǎn)的最大文檔分類。其依據(jù)來(lái)自美國(guó)的杜威十進(jìn)分類法(DDC),在科技論文分類中應(yīng)用廣泛。UDC使用簡(jiǎn)單的阿拉伯?dāng)?shù)字作為符號(hào)。第一類用單個(gè)數(shù)字標(biāo)記(0-9),第二類用兩位數(shù)標(biāo)記(00-99),第三類用三位數(shù)標(biāo)記(000-999)。如果需要進(jìn)一步細(xì)分,將在每個(gè)數(shù)字后添加一個(gè)小數(shù)點(diǎn)。
國(guó)際專利分類
IPC分類表是根據(jù)1971年3月24日通過(guò)的《斯特拉斯堡國(guó)際專利分類協(xié)定》編制的,是世界上唯一的通用專利文獻(xiàn)分類和檢索工具。世界知識(shí)產(chǎn)權(quán)組織(知識(shí)產(chǎn)權(quán)組織)負(fù)責(zé)定期修訂分類表。世界上100多個(gè)國(guó)家和地區(qū)以及世界知識(shí)產(chǎn)權(quán)組織《專利合作條約》國(guó)際局都在使用IPC分類法,該分類法涵蓋了世界上95%以上的專利文獻(xiàn)。國(guó)際專利分類系統(tǒng)的架構(gòu)如下:該系統(tǒng)根據(jù)技術(shù)主題設(shè)置類別,并將整個(gè)技術(shù)領(lǐng)域分為五個(gè)不同的級(jí)別,即節(jié)、類、子類、組和子組。
主題語(yǔ)言 編輯本段
主題語(yǔ)言又稱關(guān)鍵詞語(yǔ)言,不同于以學(xué)科體系為中心的分類語(yǔ)言,而是用名詞術(shù)語(yǔ)來(lái)表達(dá)信息的特征。主題語(yǔ)言的檢索直接、直觀,對(duì)某一主題信息的檢索效率高。根據(jù)編寫(xiě)方法、規(guī)則和規(guī)范的不同,話題語(yǔ)言一般分為標(biāo)題語(yǔ)言、關(guān)鍵詞語(yǔ)言、單元語(yǔ)言和敘事語(yǔ)言。
標(biāo)題詞語(yǔ)言
標(biāo)題語(yǔ)言是早期的主題語(yǔ)言,用規(guī)范的詞匯來(lái)表達(dá)事物的概念。這些詞選自自然語(yǔ)言,包括單詞、短語(yǔ)或詞組。標(biāo)題敘詞表是根據(jù)標(biāo)題詞的語(yǔ)言編制的詞匯,包含各種標(biāo)題詞及其使用規(guī)律,揭示詞與詞之間的邏輯關(guān)系,是信息標(biāo)引和檢索的重要依據(jù)。然而,由于標(biāo)題詞匯表中主題詞和副標(biāo)題詞的固定組合,索引和檢索在一定程度上受到限制。因此,標(biāo)題語(yǔ)言已經(jīng)不能滿足現(xiàn)代信息檢索系統(tǒng)的發(fā)展需要。例如,標(biāo)題敘詞表EI (SHE)已經(jīng)不能完全滿足工程索引(EI)的檢索要求。所以工程敘詞表(縮寫(xiě)為EIThesaurus)取代了EI敘詞表的位置。
關(guān)鍵詞語(yǔ)言
關(guān)鍵詞語(yǔ)言是一種自然語(yǔ)言,直接來(lái)源于信息的標(biāo)題、摘要和全文,對(duì)表征文獻(xiàn)的主題內(nèi)容具有實(shí)質(zhì)性意義。除了禁用詞(比如一些冠詞、介詞、副詞、連詞),所有概念上有意義的詞都可以作為關(guān)鍵詞。以關(guān)鍵詞為詞條的檢索語(yǔ)言稱為關(guān)鍵詞語(yǔ)言。常用關(guān)鍵詞可以直接表達(dá)事物的概念,不受詞庫(kù)的控制,能及時(shí)反映新事物和新概念。關(guān)鍵詞語(yǔ)言在計(jì)算機(jī)檢索中得到了廣泛的應(yīng)用。撰寫(xiě)學(xué)術(shù)論文和畢業(yè)論文時(shí),會(huì)在期刊的格式要求中列出3~5個(gè)關(guān)鍵詞,方便信息檢索。
單位詞語(yǔ)言
單位詞也稱為元詞,是能夠表達(dá)主題的最小的、不可分割的詞匯單位。它是由標(biāo)題詞發(fā)展而來(lái)的檢索語(yǔ)言。單位詞相對(duì)獨(dú)立,但特異性低,對(duì)精度影響較大。
敘述/描述性語(yǔ)言
描述性語(yǔ)言是以自然語(yǔ)言為基礎(chǔ),經(jīng)過(guò)標(biāo)準(zhǔn)化后,通過(guò)詞語(yǔ)的組合來(lái)識(shí)別主題的檢索語(yǔ)言。它借鑒了其他檢索語(yǔ)言的優(yōu)點(diǎn),并進(jìn)行了改進(jìn)。在直觀性、特異性和兼容性方面,敘述語(yǔ)言優(yōu)于其他檢索語(yǔ)言。
檢索技術(shù) 編輯本段
布爾邏輯檢索
布爾邏輯檢索是檢索系統(tǒng)中應(yīng)用最廣泛的檢索技術(shù)之一,也是最早的檢索理論之一。其理論基礎(chǔ)是集合論和布爾邏輯。它使用布爾邏輯表達(dá)式來(lái)表達(dá)用戶的檢索需求。布爾邏輯運(yùn)算符有三種基本運(yùn)算符:AND、OR和NOT。這些操作符可以用來(lái)連接兩個(gè)以上的搜索詞,以表達(dá)搜索需求。
攔截檢索
在西方語(yǔ)言中,一個(gè)詞的不同形式往往只有語(yǔ)法意義,對(duì)使用者來(lái)說(shuō)都是一樣的。因此,為了減少漏檢,大多數(shù)檢索系統(tǒng)都采用截詞檢索的方法。截取檢索是指截取搜索詞,只檢索其中的一部分。這種截?cái)嗖僮骺梢酝ㄟ^(guò)使用特定的截字符號(hào)來(lái)執(zhí)行,例如“*”、#”和“$”。
受限檢索
在文檔記錄中,當(dāng)同一個(gè)詞出現(xiàn)在不同的位置時(shí),它在表達(dá)文檔主要內(nèi)容時(shí)所起的作用會(huì)有所不同。常見(jiàn)的字段限定符包括“in”,“”和“=”。其中“in”是一個(gè)字段限定符,表示檢索的內(nèi)容必須出現(xiàn)在特定的字段中。例如,“洛杉磯的英語(yǔ)”意味著搜索結(jié)果的語(yǔ)言僅限于英語(yǔ)。和“.”和“=”分別表示在特定字段中查找單詞或字段的內(nèi)容。
位置檢索
位置檢索是指使用位置運(yùn)算符來(lái)指定搜索詞在原始文檔中的相鄰位置關(guān)系。位置運(yùn)算符都隱含了邏輯運(yùn)算符AND的含義,即它們所連接的兩個(gè)搜索詞(或搜索表達(dá)式)必須出現(xiàn),但位置運(yùn)算符還進(jìn)一步定義了連接的兩個(gè)搜索詞(搜索表達(dá)式中單詞的位置關(guān)系)。
倒排索引
倒排索引是一種在特定應(yīng)用中根據(jù)屬性值查找記錄的索引方法。在索引表中,每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的每條記錄的地址。因?yàn)橛涗浀奈恢檬怯蓪傩灾禌Q定的,而不是由記錄本身決定的,所以它被稱為倒排索引。
散列索引
HashIndex是一種特殊的索引,它基于哈希表。哈希索引只對(duì)精確查找有用,適合使用索引中的每一列。對(duì)于每一行,存儲(chǔ)引擎都會(huì)計(jì)算被索引的哈希代碼。哈希碼是一個(gè)小值,可能和其他行的哈希碼不一樣。存儲(chǔ)引擎將哈希代碼保存在索引中,并將一個(gè)指針指向哈希表中的每一行。如果多個(gè)值具有相同的哈希代碼,索引會(huì)將行指針存儲(chǔ)在鏈表中哈希表的相同記錄中。
查詢擴(kuò)展
查詢擴(kuò)展的目的是用與用戶檢索意圖一致的詞對(duì)初始的、不成功的查詢進(jìn)行擴(kuò)展,或者生成一個(gè)最有可能檢索到更多相關(guān)文檔的相關(guān)查詢。當(dāng)用戶提交的原始查詢較短且有歧義,需要話題相關(guān)詞的幫助時(shí),查詢擴(kuò)展機(jī)制對(duì)檢索性能的提升作用顯著,這也符合微博檢索面臨的困難。查詢擴(kuò)展的基本思想是在信息檢索過(guò)程中通過(guò)與用戶的交互來(lái)提高最終的檢索效果。
Web查詢處理
Web查詢處理是搜索引擎信息檢索的關(guān)鍵步驟,也是用戶與搜索引擎交互的核心環(huán)節(jié),主要體現(xiàn)在以下兩個(gè)方面:
首先,為用戶提供準(zhǔn)確的查詢信息是搜索引擎的重要研究方向。由于查詢的特點(diǎn),目前基于關(guān)鍵詞匹配模式的搜索引擎不能完全滿足用戶的查詢需求。此外,隨著搜索引擎中結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的日益增多,對(duì)這些數(shù)據(jù)資源進(jìn)行檢索可以得到更直接、更準(zhǔn)確的結(jié)果。
其次,從提供信息到提供服務(wù)的轉(zhuǎn)變是當(dāng)前搜索引擎的一個(gè)發(fā)展趨勢(shì)。搜索引擎致力于成為提供信息、資源(如音頻、視頻、圖像等)的服務(wù)平臺(tái)。)和互動(dòng)應(yīng)用(如地圖、購(gòu)物、本地生活服務(wù)、新聞、社交等。)在網(wǎng)上。這種基于服務(wù)平臺(tái)的搜索引擎迫切需要準(zhǔn)確理解用戶的查詢需求,為用戶提供更加個(gè)性化、場(chǎng)景化的精準(zhǔn)信息搜索服務(wù)。
檢索模型 編輯本段
布爾型
布爾檢索模型是一種經(jīng)典的信息檢索模型,廣泛應(yīng)用于傳統(tǒng)的信息檢索系統(tǒng)中。它將文檔表示為布爾表達(dá)式,然后通過(guò)與用戶查詢的表達(dá)式進(jìn)行邏輯比較來(lái)檢索相關(guān)文檔。在布爾檢索模型中,用戶可以使用邏輯運(yùn)算符(AND)和(OR)和(NOT)將多個(gè)關(guān)鍵字連接成一個(gè)邏輯表達(dá)式來(lái)提交查詢。匹配函數(shù)由布爾邏輯的基本規(guī)律決定,通過(guò)文檔表達(dá)式與用戶查詢表達(dá)式的邏輯比較進(jìn)行檢索。檢索到的文檔或者與查詢相關(guān),或者與查詢無(wú)關(guān)。
向量空間模型
向量空間模型(Vector Space Model,VSM)是Salton于1975年提出的信息檢索理論框架,旨在解決布爾模型中二進(jìn)制權(quán)重的局限性。VSM使用特征詞的表達(dá)方式,使用TF-IDF($ TERM-frequency/inverse document frequency)為特征詞分配權(quán)重,使用倒排文件建立索引,使用余弦?jiàn)A角作為距離度量,使用查全率和查準(zhǔn)率來(lái)評(píng)價(jià)檢索系統(tǒng)的性能。這些成果已成功應(yīng)用于基于關(guān)鍵詞的中英文信息檢索。
向量空間模型最大的優(yōu)點(diǎn)是在知識(shí)表示上有很大的優(yōu)勢(shì)。在向量空間模型中,通過(guò)從文檔資源中提取它們的特征詞并以某種方式對(duì)特征詞進(jìn)行加權(quán),將文檔資源轉(zhuǎn)換成一組特征向量。與文檔資源的表示方法類似,用戶簡(jiǎn)檔也可以用向量空間模型來(lái)表示,即基于相同的特征詞將用戶簡(jiǎn)檔表示為n維空間中的向量,向量中的每個(gè)一維元素由對(duì)應(yīng)的特征詞及其權(quán)重組成,權(quán)重值表示用戶對(duì)特征詞的興趣。
概率模型
概率模型是基于概率排序原理的信息檢索方法。它根據(jù)與查詢相關(guān)的概率對(duì)文檔資源進(jìn)行排序,將最有可能的文檔資源放在最前面。概率模型旨在解決信息檢索中相關(guān)性判斷的不確定性和查詢信息表示的模糊性。在概率模型中,我們可以通過(guò)概率計(jì)算來(lái)分析特征詞之間的依賴關(guān)系以及特征詞與文檔資源之間的關(guān)聯(lián)關(guān)系。這有助于預(yù)測(cè)文檔與用戶查詢的相關(guān)概率,進(jìn)而根據(jù)相關(guān)概率對(duì)檢索結(jié)果進(jìn)行排序。
檢索方法 編輯本段
根據(jù)內(nèi)容特征
主題方法:主題法是一種根據(jù)文檔內(nèi)容的主題來(lái)查找文檔的方法。它以確定的主題詞作為搜索條目,按照主題詞順序進(jìn)行搜索。通常利用文獻(xiàn)檢索工具中的主題目錄和主題索引來(lái)實(shí)現(xiàn)。選擇主題詞的參考系統(tǒng)是詞庫(kù)。用主題法檢索文獻(xiàn)的優(yōu)點(diǎn)是直觀,適合于特征檢索,不需要考慮文獻(xiàn)的主題體系。
分類方法:分類方法是一種根據(jù)主題類別檢索文檔的方法。它以分類號(hào)(或類別)為檢索條目,按照分類號(hào)(或類別)的順序進(jìn)行檢索。通常,使用文獻(xiàn)檢索工具中的分類目錄和分類目錄,基于參考分類系統(tǒng),例如分類和分類目錄。使用分類方法檢索文獻(xiàn)的優(yōu)點(diǎn)是同一學(xué)科領(lǐng)域的文獻(xiàn)可以一起檢索,便于系統(tǒng)檢索特定學(xué)科領(lǐng)域的研究資料。通過(guò)主題分類系統(tǒng),可以快速定位相關(guān)文獻(xiàn)的類別,提高檢索效率。然而,分類方法存在一些缺點(diǎn)。新興學(xué)科、交叉學(xué)科、邊緣學(xué)科在分類時(shí)往往難以明確識(shí)別,給查找?guī)?lái)不便。另外,一定要了解學(xué)科分類體系的構(gòu)建,以及概念轉(zhuǎn)化為分類號(hào)的過(guò)程,否則容易出錯(cuò),導(dǎo)致漏檢。
根據(jù)外觀特征
作者方法:按作者姓名查找文獻(xiàn)是以已知作者(個(gè)人作者、團(tuán)體作者或公司、機(jī)構(gòu))的姓名為檢索入口,通過(guò)作者目錄、個(gè)人作者團(tuán)體作者索引等途徑查找所需文獻(xiàn)的方法。
所有權(quán)方法:根據(jù)文章或書(shū)刊的標(biāo)題進(jìn)行檢索,是根據(jù)標(biāo)題(包括標(biāo)題、期刊、文章)查找文獻(xiàn)的一種方式。這種方法將標(biāo)題作為檢索條目。只要知道文檔的標(biāo)題,就可以通過(guò)文檔的標(biāo)題索引(目錄)找到所需的文檔。
序列號(hào)方法:按文獻(xiàn)序號(hào)檢索是利用序號(hào)(如專利號(hào)、標(biāo)準(zhǔn)號(hào)、報(bào)告號(hào)、合同號(hào)、文獻(xiàn)登記號(hào)或人存號(hào)等)查找文獻(xiàn)的一種方式。)出版時(shí)編為檢索入口。在序號(hào)索引中,只是數(shù)字的序號(hào)按數(shù)字大小排列,字母和數(shù)字混合的序號(hào)先按字母順序排列,再按數(shù)字大小排列。如果文獻(xiàn)號(hào)已知,使用這種檢索方法不僅簡(jiǎn)單,而且不易造成誤檢或漏檢。通過(guò)文獻(xiàn)序號(hào)進(jìn)行檢索,可以準(zhǔn)確找到所需文獻(xiàn),提高檢索的準(zhǔn)確性和效率。根據(jù)文獻(xiàn)序號(hào)進(jìn)行檢索時(shí),要保證所使用的索引或數(shù)據(jù)庫(kù)完整可靠,避免因索引或數(shù)據(jù)庫(kù)不完整而造成漏檢或錯(cuò)檢。
引用方法 編輯本段
通過(guò)參考文獻(xiàn)或附在文獻(xiàn)末尾的引文檢索工具找到被引用的文獻(xiàn)。
搜索方法
追溯性法律:追蹤法可分為前向追蹤法和后向追蹤法。
向前追蹤法:前向追溯法是一種傳統(tǒng)的獲取文檔的方法,它利用相關(guān)文檔所附帶的參考文檔進(jìn)行回溯搜索。因?yàn)楦皆谧髡呶墨I(xiàn)上的參考文獻(xiàn)一般比作者文獻(xiàn)早5-10年,所以只能用回溯法檢索作者文獻(xiàn)之前5-10年內(nèi)的文獻(xiàn)。此外,由于作者文獻(xiàn)所附參考文獻(xiàn)數(shù)量有限,提取年份不連續(xù)、不系統(tǒng),參考文獻(xiàn)較多時(shí),可能會(huì)混雜一些參考價(jià)值不大的文獻(xiàn),影響文獻(xiàn)檢索的效果。因此,只有在文獻(xiàn)檢索工具不全或計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境不好的情況下,才會(huì)采用這種方法。
反向追蹤法:回溯法又稱引文法,是利用文獻(xiàn)檢索工具引文索引(如美國(guó)出版的《科學(xué)引文索引》)對(duì)文獻(xiàn)進(jìn)行追溯的方法。引文索引是按照期刊論文所附參考文獻(xiàn)的作者姓名的順序排列的。在該索引中,引用文獻(xiàn)的作者及其文獻(xiàn)來(lái)源按年份列在被引用作者的名字下。如果要查找被引用文獻(xiàn)的標(biāo)題,可以重用源索引。引用文獻(xiàn)的標(biāo)題和尋找原文的線索可以在源索引中找到。來(lái)源索引中所列的引用文獻(xiàn),就其內(nèi)容而言,必須比被引用文獻(xiàn)新,有些論點(diǎn)具有創(chuàng)新性。如果我們繼續(xù)從引用的文件中搜索,我們可以找到一些比原始文件內(nèi)容更新穎的相關(guān)文件。這種方法可以避免文獻(xiàn)分類和主題檢索的困難。有時(shí)候,只要知道一篇論文的作者,也可以檢索到所需的文獻(xiàn)。此外,檢索邊緣學(xué)科和交叉學(xué)科的文獻(xiàn)也是一種非常有效的方法。
工具方法
工具法是利用文摘、索引、標(biāo)題等各種文獻(xiàn)檢索工具(文獻(xiàn)數(shù)據(jù)庫(kù))查找文獻(xiàn)的方法。因?yàn)檫@種方法是文獻(xiàn)檢索中最常用的方法,所以也叫常用方法。工具法有三種方法:直接檢查、反向檢查和抽查。
后續(xù)方法:順序搜索法是一種按時(shí)間順序從前到后查找文檔的方法。它從課題研究開(kāi)始,利用文獻(xiàn)檢索工具逐年查找,直到最近。順序搜索法的優(yōu)點(diǎn)是漏檢少,找到的文檔可以及時(shí)篩選,所以查全率和查準(zhǔn)率都比較高。其缺點(diǎn)是檢索工作量比較大,需要一套完整的文獻(xiàn)檢索工具和充足的檢索時(shí)間。用這種方法檢索到的文獻(xiàn)比較系統(tǒng)有助于了解該學(xué)科的產(chǎn)生、演變和發(fā)展。
向后搜索方法:向后搜索法與向前搜索法相反,即從近期逐年向長(zhǎng)期搜索。反向搜索法的檢索效率比正向搜索法高,耗時(shí)少,但能檢索到內(nèi)容新穎的文檔。
測(cè)試方法
抽查法是根據(jù)學(xué)科發(fā)展特點(diǎn),選取學(xué)科發(fā)展較快、文獻(xiàn)發(fā)表較多的年份進(jìn)行集中檢索的方法。它的優(yōu)點(diǎn)是檢索時(shí)間相對(duì)較短,但可以獲得更多的相關(guān)文檔。但使用抽查法要求檢索者熟悉學(xué)科發(fā)展特點(diǎn),了解學(xué)科文獻(xiàn)集中發(fā)表的時(shí)間和范圍,才能達(dá)到最佳檢索效果。
交替法:交替法又稱循環(huán)法,實(shí)際上是回溯法和工具法的結(jié)合。根據(jù)組合的不同,可分為復(fù)合交替法和區(qū)間交替法兩種。
復(fù)合交替法:復(fù)合交替法是一種結(jié)合了工具法和回溯法的文獻(xiàn)檢索方法。首先利用文獻(xiàn)檢索工具找到若干有用的文獻(xiàn),然后利用這些文獻(xiàn)所附參考文獻(xiàn)提供的線索進(jìn)行回溯,擴(kuò)大搜索范圍(即第一種工具法和第二種追溯法)。或者,先掌握一批文獻(xiàn)所附參考文獻(xiàn)的線索,分析各種檢索途徑(如作者途徑、分類途徑、主題途徑等。)適合查找這些文獻(xiàn),然后使用相應(yīng)的文獻(xiàn)檢索工具擴(kuò)大檢索范圍,獲取新的文獻(xiàn)線索(即第一種回溯法和第二種工具法)。
區(qū)間交替法:區(qū)間交替法是一種結(jié)合工具法和回溯法的文獻(xiàn)檢索策略。首先通過(guò)文獻(xiàn)檢索工具找到若干有用的文獻(xiàn),然后利用這些文獻(xiàn)所附的參考文獻(xiàn)進(jìn)行回溯檢索,擴(kuò)大檢索范圍。之后跳過(guò)一定時(shí)間(一般是5年),再用工具法找出一批新的有用的文獻(xiàn),再回溯。這個(gè)循環(huán)用于檢索。之所以可以跳過(guò)五年,直接從工具書(shū)上找文獻(xiàn),是因?yàn)楦鶕?jù)文獻(xiàn)出版的特點(diǎn),重要文獻(xiàn)會(huì)在五年內(nèi)被引用,也就是說(shuō)會(huì)出現(xiàn)在參考文獻(xiàn)中。
應(yīng)用領(lǐng)域 編輯本段
文檔檢索:文獻(xiàn)檢索(Archie)為用戶提供了搜索和獲取電子目錄資源的功能。它實(shí)際上是一個(gè)大型數(shù)據(jù)庫(kù),以及與這個(gè)數(shù)據(jù)庫(kù)相關(guān)的檢索方法。文檔檢索最初是由麥吉爾大學(xué)的學(xué)生開(kāi)發(fā)的計(jì)算機(jī)科學(xué)項(xiàng)目。文檔檢索的核心是數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中包含了可以通過(guò)FTP獲取的資源信息,包括文件名、文件長(zhǎng)度、計(jì)算機(jī)名、文件存放的目錄名等詳細(xì)信息。文檔檢索數(shù)據(jù)庫(kù)大約每月與每個(gè)站點(diǎn)進(jìn)行一次FTP連接,并生成站點(diǎn)提供的內(nèi)容列表。然后,這個(gè)數(shù)據(jù)庫(kù)將被發(fā)布到各種文檔檢索服務(wù)器,以便每個(gè)人都可以使用它進(jìn)行查詢。
網(wǎng)絡(luò)搜索:在眾多的網(wǎng)絡(luò)主機(jī)和網(wǎng)頁(yè)中,如果你想鏈接到某個(gè)特定的網(wǎng)站,但又不知道網(wǎng)址,你必須先搜索網(wǎng)頁(yè)。一般來(lái)說(shuō),網(wǎng)絡(luò)搜索是利用門(mén)戶網(wǎng)站中的搜索引擎來(lái)完成的。只要在搜索引擎的查詢欄輸入關(guān)鍵詞,就可以查詢到相關(guān)的網(wǎng)站和網(wǎng)頁(yè)。Web索引技術(shù)是按照一定的邏輯規(guī)范或排列順序組織和管理文獻(xiàn)數(shù)據(jù)庫(kù)的方法。應(yīng)用網(wǎng)頁(yè)搜索的本質(zhì)特征是只揭示網(wǎng)頁(yè)內(nèi)容的大致主題和網(wǎng)頁(yè)來(lái)源的“來(lái)源或線索”信息。對(duì)于數(shù)據(jù)組織或用戶查詢,web搜索并不直接提供網(wǎng)頁(yè)本身的完整內(nèi)容信息。搜索引擎利用網(wǎng)頁(yè)搜索的主要作用是為廣大網(wǎng)絡(luò)搜索用戶快速獲取海量網(wǎng)頁(yè)全文內(nèi)容提供準(zhǔn)確高效的線索引導(dǎo)。
社交媒體分析:社交媒體數(shù)據(jù)挖掘源于人們對(duì)社交媒體數(shù)據(jù)分析的需求。社交媒體上的用戶,因?yàn)樽陨淼摹吧缃粚傩浴保纬闪艘粋€(gè)網(wǎng)絡(luò)社會(huì)。在這個(gè)社會(huì)中,用戶之間有許多不同類型的“交流”,包括一般的交談,給予評(píng)價(jià),分享自己的狀態(tài)更新,以及對(duì)他人的分享和信息表示贊賞。通過(guò)在社交網(wǎng)站上收集用戶信息,營(yíng)銷人員可以更好地了解客戶行為、目標(biāo)受眾細(xì)分和受眾粘性。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問(wèn)題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。
如果您認(rèn)為本詞條還有待完善,請(qǐng) 編輯
上一篇 dos系統(tǒng) 下一篇 Oracle數(shù)據(jù)庫(kù)