HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專(zhuān)注品牌策劃15年

    關(guān)鍵詞詞頻分析(關(guān)鍵詞詞頻分析工具)

    發(fā)布時(shí)間:2023-04-19 06:24:48     稿源: 創(chuàng)意嶺    閱讀: 87        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于關(guān)鍵詞詞頻分析的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話(huà)答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線(xiàn)網(wǎng)頁(yè)版、PC客戶(hù)端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶(hù)遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話(huà)175-8598-2043,或添加微信:1454722008

    本文目錄:

    關(guān)鍵詞詞頻分析(關(guān)鍵詞詞頻分析工具)

    一、做語(yǔ)言學(xué)畢業(yè)論文時(shí)想分析語(yǔ)料的詞頻,老師建議加標(biāo)的方法。到底什么是加標(biāo)?是按不同的標(biāo)簽分類(lèi)嗎?

    加標(biāo): annotation.

    it covers any descriptive or analytic notations applied to raw language data.

    就是讓對(duì)你收集的語(yǔ)料庫(kù)中的語(yǔ)料加注進(jìn)行描述或者分析的注解

    ________________________

    我找不到地方回答你追加的問(wèn)題。在這里補(bǔ)充:

    你要做語(yǔ)料庫(kù)詞頻分析,一定要分析關(guān)鍵詞。而你老師建議的加注應(yīng)該是針對(duì)關(guān)鍵詞的加注,對(duì)于關(guān)鍵詞加注如我上面所說(shuō),建議你可以要么做語(yǔ)法結(jié)構(gòu)的描述,要么做語(yǔ)義的分析。

    以GOT給你舉幾個(gè)結(jié)構(gòu)分析的例子:

    you GOT the right product.

    that's why he GOT more.

    we GOT to know it

    etc.

    這里GOT有幾種結(jié)構(gòu):GOT+名詞,+形容詞,+TO,ETC。

    依此類(lèi)推,語(yǔ)義的相信你自己知道怎么去做。

    二、詞頻表和關(guān)鍵詞表的聯(lián)系與區(qū)別

    詞頻表和關(guān)鍵詞表有聯(lián)系也有區(qū)別。

    1、聯(lián)系:通過(guò)詞頻表,可以了解語(yǔ)篇詞量、頻數(shù)、詞的各種形式和語(yǔ)篇難易度等方面的信息,也可利用詞頻表進(jìn)行速讀活動(dòng)。

    2、區(qū)別:詞頻表是指以關(guān)鍵詞詞匯出現(xiàn)的頻率構(gòu)成的表。特指單個(gè)媒體在制作使用索引時(shí),所用到的詞匯。

    三、論文關(guān)鍵詞有什么要求?

    征稿

    近年來(lái),中國(guó)學(xué)者每年發(fā)表的科技論文有數(shù)百萬(wàn)篇,如何在浩瀚的論文海洋中脫穎而出,吸引讀者的注意力,提高論文傳播力和顯示度,關(guān)鍵詞起著十分重要的作用。關(guān)鍵詞是能夠明確表達(dá)學(xué)術(shù)論文的主體研究?jī)?nèi)容或中心思想的詞或詞組,其最初是為了滿(mǎn)足計(jì)算機(jī)系統(tǒng)編制各種文獻(xiàn)索引的需要而產(chǎn)生。作為文獻(xiàn)檢索的重要依據(jù),關(guān)鍵詞應(yīng)具有專(zhuān)指性、全面性、規(guī)范性等特點(diǎn)。但實(shí)際情況是,科技論文中存在大量的含義寬泛、無(wú)實(shí)質(zhì)內(nèi)容的無(wú)效關(guān)鍵詞,如“應(yīng)用”“分析”“問(wèn)題”“研究”等等,大大降低了科技論文的檢索效率和傳播效果。此前,已有學(xué)者對(duì)無(wú)效關(guān)鍵詞展開(kāi)研究,但其主要針對(duì)高校社科學(xué)報(bào)論文以及農(nóng)業(yè)科技類(lèi)論文,針對(duì)更廣泛領(lǐng)域內(nèi)的科技論文中常見(jiàn)無(wú)效關(guān)鍵詞的計(jì)量學(xué)研究較少。

    為此,本文以中國(guó)知網(wǎng)為文獻(xiàn)來(lái)源數(shù)據(jù)庫(kù),結(jié)合文獻(xiàn)[3-5]及編校實(shí)踐經(jīng)驗(yàn),選取10個(gè)科技論文中出現(xiàn)頻率較高、指向性不強(qiáng)、含義空泛的關(guān)鍵詞,分別檢索其在2015—2019年發(fā)表的科技論文中的出現(xiàn)頻率,分析其年度分布規(guī)律及關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。隨后分別限定“大學(xué)學(xué)報(bào)”和“學(xué)院學(xué)報(bào)”以及“博士論文”和“碩士論文”(即博士和碩士的學(xué)位論文)為文獻(xiàn)來(lái)源,對(duì)比分析常見(jiàn)無(wú)效關(guān)鍵詞在不同類(lèi)型期刊以及不同學(xué)歷作者所著科技論文中的詞頻分布。最后分析常見(jiàn)無(wú)效關(guān)鍵詞產(chǎn)生的原因及應(yīng)對(duì)措施,以期提高科技論文作者和審讀編校人員對(duì)關(guān)鍵詞標(biāo)引質(zhì)量的認(rèn)識(shí)。

    1.檢索范圍和方法

    檢索范圍:文獻(xiàn)來(lái)源限定為中國(guó)知網(wǎng)“基礎(chǔ)科學(xué)”“工程科技Ⅰ輯”“工程科技Ⅱ輯”“農(nóng)業(yè)科技”“醫(yī)藥衛(wèi)生科技”“信息科技”6類(lèi)目錄下的期刊、會(huì)議、學(xué)位論文等(即本文所指科技論文),“大學(xué)學(xué)報(bào)”和“學(xué)院學(xué)報(bào)”,“博士論文”和“碩士論文”;文獻(xiàn)語(yǔ)種限定為中文;關(guān)鍵詞限定為“應(yīng)用”“對(duì)策”“問(wèn)題”“管理”“設(shè)計(jì)”“措施”“影響”“現(xiàn)狀”“研究”“發(fā)展”;發(fā)表時(shí)間限定為2015-01-01—2019-1-31。

    檢索方法:以“關(guān)鍵詞+發(fā)表時(shí)間”“關(guān)鍵詞+發(fā)表時(shí)間+文獻(xiàn)來(lái)源”為組合檢索條件,在中國(guó)知網(wǎng)6大類(lèi)科技文獻(xiàn)目錄下進(jìn)行檢索,獲得各關(guān)鍵詞在不同檢索條件下的詞頻分布。為確保檢索結(jié)果的有效性,每檢索一次均隨機(jī)選取若干篇論文,并核對(duì)這些論文中是否包含目標(biāo)關(guān)鍵詞。最后,將所得結(jié)果輸入Excel軟件進(jìn)行統(tǒng)計(jì)分析(檢索時(shí)間為2020-03-07—03-09)。

    2.無(wú)效關(guān)鍵詞的定義和分類(lèi)

    2.1無(wú)效關(guān)鍵詞的定義

    無(wú)效關(guān)鍵詞是指詞義寬泛、不能準(zhǔn)確傳達(dá)論文主題內(nèi)容、不利于檢索的詞或詞組,或是未經(jīng)公認(rèn)的縮寫(xiě)詞等。它們與論文主題相關(guān)性不大,不能反映單篇科技論文的特點(diǎn),不具檢索價(jià)值。

    2.2無(wú)效關(guān)鍵詞的分類(lèi)

    無(wú)效關(guān)鍵詞的分類(lèi)目前尚無(wú)統(tǒng)一標(biāo)準(zhǔn)。本文根據(jù)文獻(xiàn)[3.6]將無(wú)效關(guān)鍵詞分為以下3類(lèi):1)表示國(guó)別或地域的泛而不專(zhuān)的名詞,如“中國(guó)”“美國(guó)”“德國(guó)”等;2)“不能表示所屬學(xué)科專(zhuān)用概念的不足以反映實(shí)質(zhì)內(nèi)容的詞”,如“方法”“問(wèn)題”“試驗(yàn)”“研究”“分析”等;3)加了限定詞的復(fù)雜短語(yǔ)或是未經(jīng)公認(rèn)的縮略詞等,如“新型甘藍(lán)型油菜品種”“AP”等,它們雖然能反映文章主題,但不利于計(jì)算機(jī)檢索、識(shí)別。

    3.10個(gè)無(wú)效關(guān)鍵詞計(jì)量學(xué)分析

    3.1不同年份科技論文中10個(gè)無(wú)效關(guān)鍵詞頻率分布

    結(jié)合已有研究及編校實(shí)踐經(jīng)驗(yàn),本文針對(duì)第2類(lèi)無(wú)效關(guān)鍵詞展開(kāi)研究。分別選取“應(yīng)用”“對(duì)策”“問(wèn)題”“管理”“設(shè)計(jì)”“措施”“影響”“現(xiàn)狀”“研究”“發(fā)展”這10個(gè)科技論文中出現(xiàn)頻率較高的無(wú)效關(guān)鍵詞,限定文獻(xiàn)來(lái)源為科技論文,在中國(guó)知網(wǎng)進(jìn)行檢索。10個(gè)無(wú)效關(guān)鍵詞在2015—2019年發(fā)表的科技論文中的頻率(以檢索記錄表示)及其累計(jì)詞頻(10個(gè)無(wú)效關(guān)鍵詞檢索記錄條數(shù)之和與當(dāng)年發(fā)表的科技論文總篇數(shù)的比值)分布如表1所示。由表1可見(jiàn),整體看,不同年度無(wú)效關(guān)鍵詞頻率分布相對(duì)穩(wěn)定,按檢索記錄數(shù)排序,從高到低依次為“應(yīng)用”“對(duì)策”“問(wèn)題”“管理”“設(shè) 計(jì)”“措施”“影響”“現(xiàn)狀”“研究”“發(fā)展”,呈現(xiàn)出明顯規(guī)律性。2017年,科技論文發(fā)表總量為2 017 727篇,這10個(gè)無(wú)效關(guān)鍵詞檢索記錄之和達(dá)82 732條(未排除有2個(gè)或多個(gè)無(wú)效關(guān)鍵詞同時(shí)出現(xiàn)在同一篇科技論文中的情況),每100篇文章里就有約4篇文章的關(guān)鍵詞里包含這10個(gè)無(wú)效關(guān)鍵詞之一,可見(jiàn)無(wú)效關(guān)鍵詞的使用相當(dāng)普遍。2015—2019年,“應(yīng)用”這一關(guān)鍵詞出現(xiàn)頻率最高,且其檢索記錄在2017和2018年分別達(dá)20 267和20 203條,明顯高于其他9個(gè)無(wú)效關(guān)鍵詞的出現(xiàn)頻率,說(shuō)明科技論文作者選擇“應(yīng)用”作為關(guān)鍵詞的比例較高??v向來(lái)看,2015—2019年這10個(gè)無(wú)效關(guān)鍵詞檢索條數(shù)隨年度的變化并無(wú)明顯規(guī)律性,累計(jì)詞頻范圍為3.7%~4.1%,其中2015和2019年的無(wú)效關(guān)鍵詞累計(jì)詞頻均為3.7%左右(表1),說(shuō)明科技論文作者并未有意地減少無(wú)效關(guān)鍵詞的使用,無(wú)效關(guān)鍵詞將會(huì)伴隨著科技論文作者的寫(xiě)作習(xí)慣而長(zhǎng)期穩(wěn)定地存在。

    ▼ 表1 2015—2019年科技論文中10個(gè)無(wú)效關(guān)鍵詞頻率及累計(jì)詞頻分布

    3.2 10個(gè)無(wú)效關(guān)鍵詞共詞分析

    共詞分析法是指通過(guò)分析共同出現(xiàn)在同一篇文獻(xiàn)中的關(guān)鍵詞或主題詞,從而鑒別某一學(xué)科知識(shí)結(jié)構(gòu)和研究熱點(diǎn)的方法。目前,基于關(guān)鍵詞的共詞分析法已被廣泛應(yīng)用于文獻(xiàn)計(jì)量、信息系統(tǒng)、人工智能等領(lǐng)域。

    本文以10個(gè)無(wú)效關(guān)鍵詞為研究對(duì)象,分析其在2015—2019年共現(xiàn)關(guān)鍵詞(即2個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在同一篇文獻(xiàn)中的現(xiàn)象)分布情況,結(jié)果如圖1所示。圖1中,2015—2019年10個(gè)無(wú)效關(guān)鍵詞“應(yīng)用”“對(duì)策”“問(wèn)題”“管理”“設(shè)計(jì)”“措施”“影響”“現(xiàn)狀”“研究”“發(fā)展”的檢索記錄總數(shù)分別為94 100、50 287、41 644、37 074、34 989、30 565、26 275、23 905、22 225和18 448條。 數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng),本文僅展示頻率排序第1~15的共現(xiàn)關(guān)鍵詞。

    ▼ 圖1 2015—2019年10個(gè)無(wú)效關(guān)鍵詞共詞分析

    從圖1可以看出,2015—2019年同一篇科技論文中同時(shí)出現(xiàn)2個(gè)無(wú)效關(guān)鍵詞的現(xiàn)象相當(dāng)普遍。例如,以“問(wèn)題”為檢索關(guān)鍵詞,與其共現(xiàn)頻率最高的關(guān)鍵詞為“對(duì)策”,共現(xiàn)頻率達(dá)15 223(圖1(c)),也就是說(shuō),在一篇以“問(wèn)題”為關(guān)鍵詞的科技論文中,有大于1/3的概率會(huì)同時(shí)出現(xiàn)“對(duì)策”這一關(guān)鍵詞。分析其余9個(gè)無(wú)效關(guān)鍵詞的共詞分布情況也可發(fā)現(xiàn),與這些關(guān)鍵詞共現(xiàn)頻率較高的往往為無(wú)效關(guān)鍵詞。例如,按照關(guān)鍵詞共現(xiàn)頻率排序,2015—2019年與關(guān)鍵詞“應(yīng)用”共現(xiàn)的無(wú)效關(guān)鍵詞依次為“發(fā)展”“設(shè)計(jì)”“研究”,共現(xiàn)頻率分別為2 188、1878和1 642(圖1(a));與關(guān)鍵詞“現(xiàn)狀”“研究”“發(fā)展”共現(xiàn)頻率較高的幾乎均為“對(duì)策”“問(wèn)題”“應(yīng)用”等無(wú)效關(guān)鍵詞(圖1(h)~(j)),可見(jiàn)無(wú)效關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)不僅不能反映學(xué)科知識(shí)結(jié)構(gòu)和研究熱點(diǎn),而且造成了信息資源的浪費(fèi)。值得一提的是,在本文選取的10個(gè)無(wú)效關(guān)鍵詞排名前15的共現(xiàn)關(guān)鍵詞中,有7個(gè)共現(xiàn)關(guān)鍵詞中出現(xiàn)了“建筑”或“建筑工程”,這可能與該領(lǐng)域的科技論文發(fā)文總量較大有關(guān):以“建筑”為主題詞進(jìn)行檢索,2015—2019年累計(jì)發(fā)文306 196篇,約占科技論文總發(fā)文量9 890 018篇的3%。

    3.3不同期刊科技論文中10個(gè)無(wú)效關(guān)鍵詞頻率分布

    以本文篩選出的10個(gè)無(wú)效關(guān)鍵詞為檢索條件,同時(shí)限定文獻(xiàn)來(lái)源為“學(xué)院學(xué)報(bào)”和“大學(xué)學(xué)報(bào)”,檢索得到2015—2019年不同類(lèi)型期刊發(fā)表的科技論文中的10個(gè)無(wú)效關(guān)鍵詞頻率分布及其累計(jì)詞頻分布如表2所示。由表2可見(jiàn),2015—2019年,發(fā)表于“大學(xué)學(xué)報(bào)”的科技論文明顯比“學(xué)院學(xué)報(bào)”的科技論文多,但“學(xué)院學(xué)報(bào)”科技論文中無(wú)效關(guān)鍵詞的出現(xiàn)頻率明顯比“大學(xué)學(xué)報(bào)”科技論文的高。例如,2015年,“大學(xué)學(xué)報(bào)”共檢索到67 598篇文獻(xiàn),其中以“應(yīng)用”為關(guān)鍵詞的文獻(xiàn)為100條;“學(xué)院學(xué)報(bào)”共檢索到42 620篇文獻(xiàn),其中以“應(yīng)用”為關(guān)鍵詞的文獻(xiàn)為305條,二者差異顯著。由表2還可看出,2015—2019年,“大學(xué)學(xué)報(bào)”科技論文中的無(wú)效關(guān)鍵詞累計(jì)詞頻分別為0.73%、0.72%、0.69%、0.58%和0.54%,“學(xué)院學(xué)報(bào)”科技論文中的常見(jiàn)無(wú)效關(guān)鍵詞累計(jì)詞頻分別為3.36%、3.34%、2.89%、2.65%和2.56%,二者均隨著年度的變化而逐漸降低,呈現(xiàn)出明顯的規(guī)律性。同時(shí),“大學(xué)學(xué)報(bào)”科技論文無(wú)效關(guān)鍵詞累計(jì)詞頻明顯比同期“學(xué)院學(xué)報(bào)”科技論文的低,說(shuō)明前者關(guān)鍵詞標(biāo)引質(zhì)量比后者的高。

    ▼ 表2 2015—2019年不同類(lèi)型期刊科技論文中的10個(gè)無(wú)效關(guān)鍵詞頻率及累計(jì)詞頻分布

    3.4不同學(xué)歷作者所著科技論文中10個(gè)無(wú)效關(guān)鍵詞累計(jì)詞頻分布

    以本文篩選出的10個(gè)無(wú)效關(guān)鍵詞為檢索條件,同時(shí)限定文獻(xiàn)來(lái)源為“碩士論文”和“博士論文”,檢索2015—2019年不同學(xué)歷作者所著科技論文中無(wú)效關(guān)鍵詞頻率分布及其累計(jì)詞頻(即10個(gè)無(wú)效關(guān)鍵詞檢索條數(shù)之和與“博士論文”和“碩士論文”總篇數(shù)的比值)分布,如表3所示。

    ▼ 表 3 2015—2019 年不同學(xué)歷作者所著科技論文中的 10 個(gè)無(wú)效關(guān)鍵詞頻率及累計(jì)詞頻分布

    由表3可見(jiàn),2015—2019年“碩士論文”總篇數(shù)顯著高于“博士論文”總篇數(shù),前者為后者的8.1~10.5倍;同時(shí),“碩士論文”中10個(gè)無(wú)效關(guān)鍵詞出現(xiàn)頻率明顯比“博士論文”的高,如2019年“碩士論文”中以“設(shè)計(jì)”為關(guān)鍵詞的檢索記錄為203條,而“博士論文”中的檢索記錄僅為1條。由表3還可見(jiàn),2015—2019年“碩士論文”中的無(wú)效關(guān)鍵詞累計(jì)詞頻明顯降低,分別為10.43‰、8.84‰、8.32‰、6.93‰和5.32‰,與2015年相比,2019年“碩士論文”無(wú)效關(guān)鍵詞累計(jì)詞頻降幅達(dá)48.9%。2015—2019年“博士論文”中的無(wú)效關(guān)鍵詞累計(jì)詞頻整體上也呈下降趨勢(shì),分別為2.39‰、1.70‰、1.71‰、1.57‰和1.40‰,5年間“博士論文”無(wú)效關(guān)鍵詞累計(jì)詞頻降幅達(dá)41.4%。同時(shí),“博士論文”中無(wú)效關(guān)鍵詞累計(jì)詞頻明顯比同期“碩士論文”中的低,說(shuō)明無(wú)效關(guān)鍵詞的出現(xiàn)頻率與論文作者學(xué)歷有一定關(guān)系。

    4.10個(gè)無(wú)效關(guān)鍵詞出現(xiàn)原因及應(yīng)對(duì)措施

    4.1 10個(gè)無(wú)效關(guān)鍵詞出現(xiàn)的原因分析

    綜合分析結(jié)果可知,雖然在2015—2019年博士和碩士作者群體已逐漸減少無(wú)效關(guān)鍵詞的使用,但是在2015和2019年發(fā)表的科技論文中,這10個(gè)無(wú)效關(guān)鍵詞累計(jì)詞頻并無(wú)明顯變化(約為3.7%),說(shuō)明無(wú)效關(guān)鍵詞存在此消彼長(zhǎng)的現(xiàn)象。本研究認(rèn)為無(wú)效關(guān)鍵詞出現(xiàn)的主要原因包括以下幾個(gè)。

    一是多數(shù)科技論文作者未接受有效的指導(dǎo),不知道如何撰寫(xiě)合適的關(guān)鍵詞。有研究表明,多數(shù)高校學(xué)生承認(rèn)自己未接受過(guò)系統(tǒng)的科研寫(xiě)作訓(xùn)練。屈李純等針對(duì)328名碩士研究生展開(kāi)調(diào)研,發(fā)現(xiàn)僅有17.39%的研究生熟悉關(guān)鍵詞的選取。其實(shí)早在1987年,我國(guó)GB/T 7713—1987《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫(xiě)格式》明確規(guī)定:每篇論文應(yīng)選取3~8個(gè)詞作為關(guān)鍵詞,如有可能,盡量用《漢語(yǔ)主題詞表》等詞表中提供的規(guī)范詞語(yǔ)。2019年,國(guó)家新聞出版署發(fā)布了針對(duì)關(guān)鍵詞的行業(yè)標(biāo)準(zhǔn)CY/T 173—2019《學(xué)術(shù)出版規(guī)范關(guān)鍵詞編寫(xiě)規(guī)則》,其中闡述了關(guān)鍵詞的定義和基本要求。遺憾的是,高等院校中有關(guān)科技論文寫(xiě)作的課程和培訓(xùn)仍然較少,很多作者甚至從未聽(tīng)說(shuō)過(guò)《漢語(yǔ)主題詞表》,其他企事業(yè)單位中的作者接觸到最新的標(biāo)準(zhǔn)、規(guī)范、寫(xiě)作培訓(xùn)和指導(dǎo)的機(jī)會(huì)更少,這也就導(dǎo)致了低質(zhì)量科技論文和無(wú)效關(guān)鍵詞的穩(wěn)定存在。例如,在未包括“質(zhì)量”“分析”“技術(shù)”“原因”等無(wú)效關(guān)鍵詞的情況下,2015—2019年,僅本文選取的10個(gè)無(wú)效關(guān)鍵詞檢索記錄總數(shù)達(dá)381 295條;進(jìn)一步分析這些無(wú)效關(guān)鍵詞的累計(jì)詞頻可發(fā)現(xiàn),其整體呈先增加后降低的趨勢(shì),但變化幅度不大,可見(jiàn)科技論文作者使用無(wú)效關(guān)鍵詞的現(xiàn)象依然普遍。

    二是部分作者未從思想上重視關(guān)鍵詞對(duì)于論文檢索的重要作用。有些中文科技論文作者只在乎論文是否能發(fā)表,是否能助其拿到學(xué)位或晉升職稱(chēng),而對(duì)論文的關(guān)鍵詞標(biāo)引質(zhì)量以及論文發(fā)表后的學(xué)術(shù)影響并不關(guān)心,這就導(dǎo)致科技論文中存在大量無(wú)檢索價(jià)值的關(guān)鍵詞。進(jìn)一步分析圖1還可以發(fā)現(xiàn),作者在選取關(guān)鍵詞時(shí),往往只是根據(jù)刊物要求,簡(jiǎn)單地將論文題目拆分為3~8個(gè)關(guān)鍵詞,而未仔細(xì)鑒別這些關(guān)鍵詞是否能夠準(zhǔn)確地反映該篇論文的特點(diǎn),導(dǎo)致同一篇論文中無(wú)效關(guān)鍵詞共現(xiàn)的情況也相當(dāng)普遍。例如,2015—2019年篇名中同時(shí)含“應(yīng)用”和“研究”的科技論文檢索記錄達(dá)199 841條,篇名中同時(shí)含“影響”和“研究”的科技論文檢索記錄達(dá)128 358條,這也反映了部分作者從論文標(biāo)題中選取關(guān)鍵詞的隨意性。

    三是論文審讀編校群體(包括論文指導(dǎo)教師和同行評(píng)議人員)把關(guān)不嚴(yán)。目前,仍然有相當(dāng)一部分的編校人員秉持著“改錯(cuò)不改好”的理念,在審讀科技論文時(shí)僅僅關(guān)注變量符號(hào)和單位使用不規(guī)范、圖表和公式編排不合理等,而針對(duì)論文關(guān)鍵詞等能體現(xiàn)文章亮點(diǎn)的內(nèi)容就抱著無(wú)所謂的態(tài)度,雖然也是“為他人做嫁衣裳”,但難免有不夠走心之嫌。例如,2015—2019年來(lái)源于“學(xué)院學(xué)報(bào)”的科技論文總數(shù)為180 674篇,其中10個(gè)無(wú)效關(guān)鍵詞的累計(jì)詞頻為14.80%;而來(lái)源于“大學(xué)學(xué)報(bào)”的科技論文總數(shù)為322 564篇,其中10個(gè)無(wú)效關(guān)鍵詞的累計(jì)詞頻為3.26%(表2),前者累計(jì)詞頻約為后者的4.5倍,可見(jiàn)“學(xué)院學(xué)報(bào)”的編校群體對(duì)關(guān)鍵詞的標(biāo)引質(zhì)量控制嚴(yán)格程度比“大學(xué)學(xué)報(bào)”編校群體的低。同時(shí),高等院校教師忙于申請(qǐng)項(xiàng)目、開(kāi)公司,疏于指導(dǎo)學(xué)生進(jìn)行學(xué)術(shù)研究及寫(xiě)作的現(xiàn)象依然存在,論文作者因?qū)W術(shù)不端而被撤稿或是撤銷(xiāo)學(xué)位的報(bào)道也屢見(jiàn)不鮮,可見(jiàn)高等院校中部分導(dǎo)師和同行評(píng)議人員對(duì)學(xué)生學(xué)術(shù)論文的主體內(nèi)容審讀尚不夠仔細(xì),遑論論文中的關(guān)鍵詞了。例如,2015—2019年“博士論文”總數(shù)為116 093篇,其中10個(gè)無(wú)效關(guān)鍵詞的累計(jì)詞頻為8.78‰;而“碩士論文”總數(shù)為1 016 061篇,其中10個(gè)無(wú)效關(guān)鍵詞的累計(jì)詞頻為39.84‰,后者約為前者的4.5倍(表3),可見(jiàn)“碩士論文”的審讀群體對(duì)關(guān)鍵詞的標(biāo)引質(zhì)量控制嚴(yán)格程度比“博士論文”審讀群體的低。

    4.2無(wú)效關(guān)鍵詞的應(yīng)對(duì)措施

    我們認(rèn)為降低科技論文中的無(wú)效關(guān)鍵詞出現(xiàn)頻率的措施主要包括以下幾個(gè)方面。

    一是進(jìn)一步加強(qiáng)對(duì)科技論文作者的指導(dǎo)與培訓(xùn)。這就要求高等院校、各科技期刊編輯部以及其他企事業(yè)單位形成合力,建立合理的培訓(xùn)機(jī)制,定期開(kāi)設(shè)寫(xiě)作課程或開(kāi)展寫(xiě)作培訓(xùn),對(duì)作者進(jìn)行系統(tǒng)而全面的科技論文寫(xiě)作訓(xùn)練,使其加深對(duì)論文結(jié)構(gòu)、論文要素、論文寫(xiě)作標(biāo)準(zhǔn)及規(guī)范的認(rèn)識(shí),提高綜合寫(xiě)作能力,減少論文無(wú)效關(guān)鍵詞的選取。例如,吉林大學(xué)《中國(guó)獸醫(yī)學(xué)報(bào)》編輯部針對(duì)科技論文寫(xiě)作者開(kāi)展“移動(dòng)課堂”網(wǎng)絡(luò)教學(xué),取得了較好的效果。

    二是科技論文作者應(yīng)從思想上重視關(guān)鍵詞對(duì)于文獻(xiàn)檢索的重要作用,同時(shí)在操作上嚴(yán)格執(zhí)行關(guān)鍵詞的編寫(xiě)規(guī)則。作者應(yīng)充分認(rèn)識(shí)到關(guān)鍵詞是科技論文檢索的信息點(diǎn),是表達(dá)論文主要學(xué)術(shù)觀(guān)點(diǎn)的關(guān)鍵性因素,在論文寫(xiě)作中應(yīng)避免使用無(wú)效關(guān)鍵詞。CY/T 173—2019規(guī)定:關(guān)鍵詞編寫(xiě)一般包括論文審讀、主題分析、選詞和編排;關(guān)鍵詞應(yīng)準(zhǔn)確并充分揭示論文主題內(nèi)容,重要的可檢索內(nèi)容不應(yīng)遺漏。科技論文作者根據(jù)編寫(xiě)規(guī)則選取適宜的關(guān)鍵詞后,還應(yīng)以讀者的身份進(jìn)行反推:要檢索這一研究領(lǐng)域的科技論文,是否會(huì)選擇這樣的關(guān)鍵詞?合理、科學(xué)地標(biāo)引關(guān)鍵詞有助于提升文獻(xiàn)利用率。

    三是論文審讀編校群體需對(duì)無(wú)效關(guān)鍵詞進(jìn)行嚴(yán)格把關(guān)。關(guān)鍵詞能夠反映期刊研究熱點(diǎn)和發(fā)展方向,關(guān)系著期刊的學(xué)術(shù)質(zhì)量。論文審讀編校群體應(yīng)重視關(guān)鍵詞的標(biāo)引工作,選取合適的關(guān)鍵詞有利于學(xué)術(shù)文獻(xiàn)的有效傳播和充分利用,從而有助于提高論文和期刊的學(xué)術(shù)影響力。例如,已成功入選“中國(guó)科技期刊卓越行動(dòng)計(jì)劃梯隊(duì)期刊”的《中南大學(xué)學(xué)報(bào)(自然科學(xué)版)》嚴(yán)把期刊學(xué)術(shù)質(zhì)量關(guān),2015—2019年共發(fā)表論文2 385篇,其中10個(gè)無(wú)效關(guān)鍵詞的出現(xiàn)頻率為0;而《湖南城市學(xué)院學(xué)報(bào)(自然科學(xué)版)》同期共發(fā)表論文933篇,其中10個(gè)無(wú)效關(guān)鍵詞的檢索記錄為68條,累計(jì)詞頻達(dá)7.3%??梢?jiàn),論文審讀編校群體在關(guān)鍵詞的標(biāo)引質(zhì)量控制過(guò)程中發(fā)揮著重要作用。

    結(jié)束語(yǔ)

    在科學(xué)技術(shù)日新月異的今天,通過(guò)關(guān)鍵詞檢索相關(guān)研究領(lǐng)域的最新文獻(xiàn)早已成為科研工作者最常用的檢索方式之一。一方面,科技論文作者應(yīng)主動(dòng)學(xué)習(xí)科研寫(xiě)作標(biāo)準(zhǔn)和規(guī)范,參加科研寫(xiě)作課程學(xué)習(xí)或培訓(xùn),根據(jù)論文主題選取恰當(dāng)?shù)摹⒅赶蛐詮?qiáng)的關(guān)鍵詞;另一方面,作者和審讀編校人員都應(yīng)從思想上重視關(guān)鍵詞的標(biāo)引,進(jìn)一步加強(qiáng)對(duì)關(guān)鍵詞標(biāo)引質(zhì)量的控制,避免使用無(wú)效關(guān)鍵詞,以期實(shí)現(xiàn)科技論文快速而廣泛的傳播,提高科技論文的檢索利用率和學(xué)術(shù)影響力。

    ⚪本文來(lái)源中國(guó)知網(wǎng),載于《編輯學(xué)報(bào)》2020年第4期,原題《科技論文10個(gè)無(wú)效關(guān)鍵詞計(jì)量學(xué)分析》。

    ⚪引文格式:伍錦花,陳燦華.科技論文10個(gè)無(wú)效關(guān)鍵詞計(jì)量學(xué)分析[J].編輯學(xué)報(bào),2020,32(04):403-408.

    ⚪本文為節(jié)選,為閱讀及排版便利,本文刪去了注釋與參考文獻(xiàn)等內(nèi)容,敬請(qǐng)有需要的讀者參考原文。

    ⚪作者:伍錦花,陳燦華老師,《中南大學(xué)學(xué)報(bào)(自然科學(xué)版)》編輯部。

    ⚪轉(zhuǎn)載自:社科學(xué)術(shù)圈。版權(quán)歸原作者所有。如涉及版權(quán)問(wèn)題,請(qǐng)及時(shí)與我們進(jìn)行聯(lián)系。

    《二語(yǔ)寫(xiě)作》正在征稿,歡迎國(guó)內(nèi)外專(zhuān)家、學(xué)者和廣大外語(yǔ)教師及研究者掃碼入群賜稿?。ㄔ斍橐?jiàn)最后一條推送)

    精彩推文回顧

    四、用Py做文本分析5:關(guān)鍵詞提取

    關(guān)鍵詞指的是原始文檔的和核心信息,關(guān)鍵詞提取在文本聚類(lèi)、分類(lèi)、自動(dòng)摘要等領(lǐng)域中有著重要的作用。

    針對(duì)一篇語(yǔ)段,在不加人工干預(yù)的情況下提取出其關(guān)鍵詞

    無(wú)監(jiān)督學(xué)習(xí)——基于詞頻

    思路1:按照詞頻高低進(jìn)行提取

    思路2:按照詞條在文檔中的重要性進(jìn)行提取

    IF-IDF是信息檢索中最常用的一種文本關(guān)鍵信息表示法,其基本的思想是如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高,并且在語(yǔ)料庫(kù)中其他文檔中很少出現(xiàn),則認(rèn)為這個(gè)詞具有很好的類(lèi)別區(qū)分能力。

    TF:Term Frequency,衡量一個(gè)term在文檔中出現(xiàn)得有多頻繁。平均而言出現(xiàn)越頻繁的詞,其重要性可能就越高??紤]到文章長(zhǎng)度的差異,需要對(duì)詞頻做標(biāo)準(zhǔn)化:

    IDF:Inverse Document Frequency,逆文檔概率,用于模擬在該語(yǔ)料的實(shí)際使用環(huán)境中,目標(biāo)term的重要性。

    TF-IDF:TF*IDF

    優(yōu)點(diǎn):

    (1)jieba

    (2)sklearn

    (3)gensim

    前面介紹的TF-IDF屬于無(wú)監(jiān)督中基于詞頻的算法,TextRank算法是基于圖形的算法。

    TextRank算法的思想來(lái)源于PageRank算法:

    和基于詞頻的算法相比,TextRank進(jìn)一步考慮了文檔內(nèi)詞條間的語(yǔ)義關(guān)系。

    參考資料:

    Python數(shù)據(jù)分析--玩轉(zhuǎn)文本挖掘

    以上就是關(guān)于關(guān)鍵詞詞頻分析相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢(xún),客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    關(guān)鍵詞拓展工具有哪些(關(guān)鍵詞拓展工具有哪些種類(lèi))

    三個(gè)關(guān)鍵詞我的缺點(diǎn)(三個(gè)關(guān)鍵詞我的缺點(diǎn)怎么寫(xiě))

    抖音收藏怎么搜索關(guān)鍵詞(抖音收藏怎么搜索關(guān)鍵詞的視頻)

    沈陽(yáng)冷面店排行榜(沈陽(yáng)冷面店排行榜前十)

    抖音商學(xué)院是真的嗎(抖音上的商學(xué)院敢報(bào)名嗎)