-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷推廣 > 專題列表 > 正文
文章summary生成器(自動(dòng)寫論文神器app)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于文章summary生成器的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器
官網(wǎng):https://ai.de1919.com。
本文目錄:
C#怎么動(dòng)態(tài)生成方法和Summary注釋
C#中新建的類庫(kù)添加注釋時(shí),應(yīng)注意以下問題:1、編譯動(dòng)態(tài)類庫(kù)時(shí)命名空間要規(guī)范,一般不要和類同名,命名空間一般定義格式:項(xiàng)目名+類文件名;
2、動(dòng)態(tài)類庫(kù)中,類、方法的注釋都采用下列方式注釋:
類注釋的格式:
/// <summary>
/// 文件名:Ini處理類/
/// 文件功能描述:讀寫Ini文件/
/// 版權(quán)所有:Copyright (C) ZGM/
/// 創(chuàng)建標(biāo)識(shí):2011.12.13/
/// 修改標(biāo)識(shí):/
/// 修改描述:/
/// </summary>
方法注釋的格式:
/// <summary>
/// 讀出Ini文件
/// </summary>
/// <param name="Section">Ini文件中的段落名稱</param>
/// <param name="Key">Ini文件中的關(guān)鍵字</param>
/// <param name="IniFilePath">Ini文件的完整路徑和名稱</param>
/// <returns>Ini文件中關(guān)鍵字的數(shù)值</returns>
3、生成與動(dòng)態(tài)類庫(kù)相同名稱的xml文件,具體設(shè)置是:項(xiàng)目右鍵—>屬性—>生成—>XML文檔文件選中再編譯
4、引用動(dòng)態(tài)類庫(kù)時(shí),把類庫(kù)和同名的xml文件放到同一個(gè)文件夾內(nèi)即可。
如何用Python玩轉(zhuǎn)TF-IDF之尋找相似文章并生成摘要
應(yīng)用1:關(guān)鍵詞自動(dòng)生成
核心思想是對(duì)于某個(gè)文檔中的某個(gè)詞,計(jì)算其在這個(gè)文檔中的標(biāo)準(zhǔn)化TF值,然后計(jì)算這個(gè)詞在整個(gè)語料庫(kù)中的標(biāo)準(zhǔn)化IDF值。在這里,標(biāo)準(zhǔn)化是說對(duì)原始的計(jì)算公式進(jìn)行了一些變換以取得更好的衡量效果,并避免某些極端情況的出現(xiàn)。這個(gè)詞的TF-IDF值便等于TF*IDF。對(duì)于這個(gè)文檔中的所有詞計(jì)算它們的TF-IDF值,并按照由高到低的順序進(jìn)行排序,由此我們便可以提取我們想要的數(shù)量的關(guān)鍵詞。
TF-IDF的優(yōu)點(diǎn)是快捷迅速,結(jié)果相對(duì)來說比較符合實(shí)際情況。缺點(diǎn)是當(dāng)一篇文檔中的兩個(gè)詞的IDF值相同的時(shí)候,出現(xiàn)次數(shù)少的那個(gè)詞有可能更為重要。再者,TF-IDF算法無法體現(xiàn)我詞的位置信息,出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞,都被視為重要性相同,這是不正確的。存在的解決辦法是對(duì)文章的第一段和每段的第一句話給予比較大的權(quán)重。
應(yīng)用2:計(jì)算文本相似度
明白了對(duì)于每個(gè)詞,如何計(jì)算它的TF-IDF值。那么計(jì)算文本相似度也輕而易舉。我們已經(jīng)計(jì)算了文章中每個(gè)詞的TF-IDF值,那么我們便可以將文章表征為詞的TF-IDF數(shù)值向量。要計(jì)算兩個(gè)文本的相似度,只需要計(jì)算余弦即可,余弦值越大,兩個(gè)文本便越相似。
應(yīng)用3:自動(dòng)摘要
2007年,美國(guó)學(xué)者的論文<A Survey on Automatic Text Summarization>總結(jié)了目前的自動(dòng)摘要算法,其中很重要的一種就是詞頻統(tǒng)計(jì)。這種方法最早出自1958年IBM公司一位科學(xué)家的論文<The Automatic Creation of Literature Abstracts>。這位科學(xué)家認(rèn)為,文章的信息都包含在句子中,有的句子包含的信息多,有的句子包含的信息少。自動(dòng)摘要就是找出那些包含信息最多的句子。那么句子的信息量怎么衡量呢?論文中采用了關(guān)鍵詞來衡量。如果包含的關(guān)鍵詞越多,就說明這個(gè)句子越重要,這位科學(xué)家提出用Cluster的來表示關(guān)鍵詞的聚集。所謂簇,就是包含多個(gè)關(guān)鍵詞的句子片段。
以第一個(gè)圖為例,其中的cluster一共有7個(gè)詞,其中4個(gè)是關(guān)鍵詞。因此它的重要性分值就等于(4*4)/7=2.3。然后,找出包含cluster重要性分值最高的句子(比如5句),把它們合在一起,就構(gòu)成了這篇文章的自動(dòng)摘要。具體實(shí)現(xiàn)可以參見<Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites>(O'Reilly, 2011)一書的第8章,Python代碼見github。這種算法后來被簡(jiǎn)化,不再區(qū)分cluster,只考慮句子包含的關(guān)鍵詞。偽代碼如下。
Summarizer(originalText, maxSummarySize):// 計(jì)算文本的詞頻,生成一個(gè)列表,比如[(10,'the'), (3,'language'), (8,'code')...]
wordFrequences = getWordCounts(originalText)
// 過濾掉停用詞,列表變成[(3, 'language'), (8, 'code')...]
contentWordFrequences = filtStopWords(wordFrequences)
// 按照詞頻的大小進(jìn)行排序,形成的列表為['code', 'language'...]
contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
// 將文章分成句子
sentences = getSentences(originalText)
// 選擇關(guān)鍵詞首先出現(xiàn)的句子
setSummarySentences = {}
foreach word in contentWordsSortbyFreq:
firstMatchingSentence = search(sentences, word)
setSummarySentences.add(firstMatchingSentence)
if setSummarySentences.size() = maxSummarySize:
break
// 將選中的句子按照出現(xiàn)順序,組成摘要
summary = ""
foreach sentence in sentences:
if sentence in setSummarySentences:
summary = summary + " " + sentence
return summary
類似的算法已經(jīng)被寫成了工具,比如基于Java的Classifier4J庫(kù)的SimpleSummariser模塊、基于C語言的OTS庫(kù)、以及基于classifier4J的C#實(shí)現(xiàn)和python實(shí)現(xiàn)。
以上就是關(guān)于文章summary生成器相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
百度上發(fā)表文章賺錢嗎(百度上發(fā)表文章賺錢嗎)
vi 設(shè)計(jì) 費(fèi)用(vi設(shè)計(jì)費(fèi)用一般多少錢)