正文

文章summary生成器（自動(dòng)寫論文神器app）

發(fā)布時(shí)間：2023-05-23 20:18:09 稿源：創(chuàng)意嶺閱讀： 93

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于文章summary生成器的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁(yè)版、PC客戶端和批量生成器

官網(wǎng)：https://ai.de1919.com。

本文目錄:

C#怎么動(dòng)態(tài)生成方法和Summary注釋
如何用Python玩轉(zhuǎn)TF-IDF之尋找相似文章并生成摘要

文章summary生成器（自動(dòng)寫論文神器app）

C#怎么動(dòng)態(tài)生成方法和Summary注釋

C#中新建的類庫(kù)添加注釋時(shí)，應(yīng)注意以下問題：
1、編譯動(dòng)態(tài)類庫(kù)時(shí)命名空間要規(guī)范，一般不要和類同名，命名空間一般定義格式：項(xiàng)目名+類文件名；
2、動(dòng)態(tài)類庫(kù)中，類、方法的注釋都采用下列方式注釋：
類注釋的格式：
/// <summary>
/// 文件名:Ini處理類/
/// 文件功能描述:讀寫Ini文件/
/// 版權(quán)所有:Copyright (C) ZGM/
/// 創(chuàng)建標(biāo)識(shí):2011.12.13/
/// 修改標(biāo)識(shí):/
/// 修改描述:/
/// </summary>
方法注釋的格式：
/// <summary>
/// 讀出Ini文件
/// </summary>
/// <param name="Section">Ini文件中的段落名稱</param>
/// <param name="Key">Ini文件中的關(guān)鍵字</param>
/// <param name="IniFilePath">Ini文件的完整路徑和名稱</param>
/// <returns>Ini文件中關(guān)鍵字的數(shù)值</returns>
3、生成與動(dòng)態(tài)類庫(kù)相同名稱的xml文件，具體設(shè)置是：項(xiàng)目右鍵—>屬性—>生成—>XML文檔文件選中再編譯
4、引用動(dòng)態(tài)類庫(kù)時(shí)，把類庫(kù)和同名的xml文件放到同一個(gè)文件夾內(nèi)即可。

如何用Python玩轉(zhuǎn)TF-IDF之尋找相似文章并生成摘要

應(yīng)用1：關(guān)鍵詞自動(dòng)生成

核心思想是對(duì)于某個(gè)文檔中的某個(gè)詞，計(jì)算其在這個(gè)文檔中的標(biāo)準(zhǔn)化TF值，然后計(jì)算這個(gè)詞在整個(gè)語料庫(kù)中的標(biāo)準(zhǔn)化IDF值。在這里，標(biāo)準(zhǔn)化是說對(duì)原始的計(jì)算公式進(jìn)行了一些變換以取得更好的衡量效果，并避免某些極端情況的出現(xiàn)。這個(gè)詞的TF-IDF值便等于TF*IDF。對(duì)于這個(gè)文檔中的所有詞計(jì)算它們的TF-IDF值，并按照由高到低的順序進(jìn)行排序，由此我們便可以提取我們想要的數(shù)量的關(guān)鍵詞。

TF-IDF的優(yōu)點(diǎn)是快捷迅速，結(jié)果相對(duì)來說比較符合實(shí)際情況。缺點(diǎn)是當(dāng)一篇文檔中的兩個(gè)詞的IDF值相同的時(shí)候，出現(xiàn)次數(shù)少的那個(gè)詞有可能更為重要。再者，TF-IDF算法無法體現(xiàn)我詞的位置信息，出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞，都被視為重要性相同，這是不正確的。存在的解決辦法是對(duì)文章的第一段和每段的第一句話給予比較大的權(quán)重。

應(yīng)用2：計(jì)算文本相似度

明白了對(duì)于每個(gè)詞，如何計(jì)算它的TF-IDF值。那么計(jì)算文本相似度也輕而易舉。我們已經(jīng)計(jì)算了文章中每個(gè)詞的TF-IDF值，那么我們便可以將文章表征為詞的TF-IDF數(shù)值向量。要計(jì)算兩個(gè)文本的相似度，只需要計(jì)算余弦即可，余弦值越大，兩個(gè)文本便越相似。

應(yīng)用3：自動(dòng)摘要

2007年，美國(guó)學(xué)者的論文<A Survey on Automatic Text Summarization>總結(jié)了目前的自動(dòng)摘要算法，其中很重要的一種就是詞頻統(tǒng)計(jì)。這種方法最早出自1958年IBM公司一位科學(xué)家的論文<The Automatic Creation of Literature Abstracts>。這位科學(xué)家認(rèn)為，文章的信息都包含在句子中，有的句子包含的信息多，有的句子包含的信息少。自動(dòng)摘要就是找出那些包含信息最多的句子。那么句子的信息量怎么衡量呢？論文中采用了關(guān)鍵詞來衡量。如果包含的關(guān)鍵詞越多，就說明這個(gè)句子越重要，這位科學(xué)家提出用Cluster的來表示關(guān)鍵詞的聚集。所謂簇，就是包含多個(gè)關(guān)鍵詞的句子片段。

以第一個(gè)圖為例，其中的cluster一共有7個(gè)詞，其中4個(gè)是關(guān)鍵詞。因此它的重要性分值就等于(4*4)/7=2.3。然后，找出包含cluster重要性分值最高的句子（比如5句），把它們合在一起，就構(gòu)成了這篇文章的自動(dòng)摘要。具體實(shí)現(xiàn)可以參見<Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites>（O'Reilly, 2011）一書的第8章，Python代碼見github。這種算法后來被簡(jiǎn)化，不再區(qū)分cluster，只考慮句子包含的關(guān)鍵詞。偽代碼如下。

Summarizer(originalText, maxSummarySize):
　　　　// 計(jì)算文本的詞頻，生成一個(gè)列表，比如[(10,'the'), (3,'language'), (8,'code')...]
　　　　wordFrequences = getWordCounts(originalText)
　　　　// 過濾掉停用詞，列表變成[(3, 'language'), (8, 'code')...]
　　　　contentWordFrequences = filtStopWords(wordFrequences)
　　　　// 按照詞頻的大小進(jìn)行排序，形成的列表為['code', 'language'...]
　　　　contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
　　　　// 將文章分成句子
　　　　sentences = getSentences(originalText)
　　　　// 選擇關(guān)鍵詞首先出現(xiàn)的句子
　　　　setSummarySentences = {}
　　　　foreach word in contentWordsSortbyFreq:
　　　　　　firstMatchingSentence = search(sentences, word)
　　　　　　setSummarySentences.add(firstMatchingSentence)
　　　　　　if setSummarySentences.size() = maxSummarySize:
　　　　　　　　break
　　　　// 將選中的句子按照出現(xiàn)順序，組成摘要
　　　　summary = ""
　　　　foreach sentence in sentences:
　　　　　　if sentence in setSummarySentences:
　　　　　　　　summary = summary + " " + sentence
　　　　return summary

類似的算法已經(jīng)被寫成了工具，比如基于Java的Classifier4J庫(kù)的SimpleSummariser模塊、基于C語言的OTS庫(kù)、以及基于classifier4J的C#實(shí)現(xiàn)和python實(shí)現(xiàn)。

文章summary生成器（自動(dòng)寫論文神器app）