注:博文轉(zhuǎn)載、語料庫使用,請注明提供者、來源以及空間提供方。
免責(zé)聲明:此語料庫僅供自然語言處理的業(yè)余愛好者研究和交流,禁止用于任何商業(yè)用途(包括在資源內(nèi)部鏈接廣告等行為)。
感謝網(wǎng)易新聞中心、騰訊新聞中心、鳳凰新聞中心以及新浪新聞中心提供新聞素材。新聞著作權(quán)歸以上網(wǎng)站所有,任何人未經(jīng)上述公司允許不得抄襲。
語料庫下載地址:
語料素材來源: 鳳凰新聞中心、網(wǎng)易新聞中心、騰訊新聞中心、新浪新聞中心。
語料庫整理提供者: finallyliuyu
語料庫空間提供方: 博客園(無償提供)
說明:
1、此語料庫非職務(wù)作品,由本人在業(yè)余時間搜集整理,免費(fèi)提供給對NLP狂熱的業(yè)余愛好者學(xué)習(xí)研究使用;本人是自然語言處理的業(yè)余愛好者,在類別定義等方面都可能存在一些欠缺,歡迎大家提出寶貴意見和建議;
2、下載地址提供的是MS SQL2000數(shù)據(jù)庫的備份文件。使用此數(shù)據(jù)庫,您需要安裝 MS SQL2000 server,然后將corpus.rar解壓并還原。壓縮包大小為54.8M,共包含39247篇新聞,分為歷史、軍事、文化、讀書、教育、IT、娛樂、社會與法制等八個類別。歷史類、文化類、讀書類新聞來自于鳳凰網(wǎng),IT類的新聞全部來自tech.qq,教育類的新聞來自edu.qq,娛樂類的新聞來自網(wǎng)易。社會與法制類的新聞來自于新浪和騰訊的幾個版面;
3、需要特別注意的是,有的新聞在開頭處有大量空白,因此在查詢數(shù)據(jù)庫ArticleText字段中有大片空白的,不是空新聞,是整個新聞體截?cái)囡@示的緣故。
4、有關(guān)語料庫的其他情況,請參考《獻(xiàn)給熱衷于自然語言處理的業(yè)余愛好者的中文新聞分類語料庫之一》。
我本人在此語料庫做過的驗(yàn)證性實(shí)驗(yàn)有:《KL語義距離計(jì)算系列》 ,《Kmeans聚類系列》以及《文本分類和特征詞選擇系列》。
感謝DUDU在博客園無償幫忙提供空間;也感謝博客園團(tuán)隊(duì)。衷心祝愿你們越辦越好!
相關(guān)文章:“我愛自然語言處理”兩周歲自動作文評分與自然語言處理fastText原理及實(shí)踐(達(dá)觀數(shù)據(jù)王江)
文章導(dǎo)航
微軟:Web N-gram Services
請求捐贈短信,為短信語料庫的創(chuàng)建出一份力