英文文本挖掘预处理流程总结

  • 时间:
  • 浏览:0

    在nltk中,做词干提取的最好的法律辦法 有PorterStemmer,LancasterStemmer和SnowballStemmer。此人 推荐使用SnowballStemmer。这类类都可不可以 正确处理可是我 种语言,当然,除了中文。

    在实际的英文文本挖掘预正确处理的你要 ,建议使用基于wordnet的词形还原就都可不可以 了。

    肯能英文文本中肯能有拼写错误,你要一般还要进行拼写检查。肯能确信亲戚亲戚其他同学分析的文本没有拼写间题报告 ,都可不可以 略去此步。

    现在亲戚亲戚其他同学就都可不可以 用scikit-learn来对亲戚亲戚其他同学的文本形状进行正确处理了,在文本挖掘预正确处理之向量化与Hash Trick中,亲戚亲戚其他同学讲到了这类形状正确处理的最好的法律辦法 ,向量化与Hash Trick。而向量化是最常用的最好的法律辦法 ,肯能它都可不可以 接着进行TF-IDF的形状正确处理。在文本挖掘预正确处理之TF-IDF中,亲戚亲戚其他同学也讲到了TF-IDF形状正确处理的最好的法律辦法 。

    找出错误后,亲戚亲戚其他同学都可不可以 此人 来决定否有要改正。当然,亲戚亲戚其他同学也都可不可以 用pyenchant中的wxSpellCheckerDialog类来用对话框的形式来交互决定是忽略,改正还是完全改正文本中的错误拼写。亲戚亲戚其他同学感兴趣的话都可不可以 去研究pyenchant的官方文档。

    拼写检查,亲戚亲戚其他同学一般用pyenchant类库完成。pyenchant的安装很简单:"pip install pyenchant"即可。

    输出是:

    有了次责文本的TF-IDF的形状向量,亲戚亲戚其他同学就都可不可以 利用那些数据建立分类模型,肯能聚类模型了,肯能进行主题模型的分析。此时的分类聚类模型和你要 讲的非自然语言正确处理的数据分析没有那些两样。你要对应的算法都都可不可以 直接使用。而主题模型是自然语言正确处理比较特殊的一块,这类亲戚亲戚其他同学中间再单独讲。

    TfidfVectorizer类都可不可以 帮助亲戚亲戚其他同学完成向量化,TF-IDF和标准化三步。当然,还都可不可以 帮亲戚亲戚其他同学正确处理停用词。这次责工作和化文的形状正确处理也是完全相同的,亲戚亲戚其他同学参考前文即可。

    而英文文本的预正确处理还要此人 特殊的地方,第三点可是我 拼写间题报告 ,可是我 你要 ,亲戚亲戚其他同学的预正确处理要包括拼写检查,比如“Helo World”一有两个 的错误,亲戚亲戚其他同学只有在分析的你要 讲错纠错。可是我 还要在预正确处理前加以纠正。第四点可是我 词干提取(stemming)和词形还原(lemmatization)。这类东西主可是我 英文有单数,复数和各种时态,愿因一有两个 词会有不同的形式。比如“countries”和"country","wolf"和"wolves",亲戚亲戚其他同学期望是有一有两个 词。

    中间亲戚亲戚其他同学对英文文本挖掘预正确处理的过程做了一有两个 总结,希望都可不可以 帮助到亲戚亲戚其他同学。还要注意的是这类流程主要针对你要 常用的文本挖掘,并使用了词袋模型,对于某你要 自然语言正确处理的需求则流程还要修改。比如有你要 还要做词性标注,而有你要 亲戚亲戚其他同学也还要英文分词,比如得到"New York"而还要“New”和“York”,你要这类流程仅供自然语言正确处理入门者参考,亲戚亲戚其他同学都可不可以 根据亲戚亲戚其他同学的数据分析目的确定大慨的预正确处理最好的法律辦法 。

    而肯能是做词型还原,则一般都可不可以 使用WordNetLemmatizer类,即wordnet词形还原最好的法律辦法 。

本文转自刘建平Pinard博客园博客,原文链接:http://www.cnblogs.com/pinard/p/6756534.html,如需转载请自行联系原作者

    英文文本的预正确处理最好的法律辦法 和化文的有次责区别。首先,英文文本挖掘预正确处理一般都可不可以 不做分词(特殊需求除外),而中文预正确处理分词是必不可少的一步。第二点,大次责英文文本还要uft-8的编码,一有两个 在大多数你要 正确处理的你要 很多再考虑编码转换的间题报告 ,而中文文本正确处理还要要正确处理unicode的编码间题报告 。这两次责亲戚亲戚其他同学在中文文本挖掘预正确处理里肯能讲了。

    在这里有个词干提取和词型还原的demo,肯能是这块的新手都可不可以 去看看,上手很大慨。

    在实际应用中,一般使用nltk来进行词干提取和词型还原。安装nltk也很简单,"pip install nltk"即可。只不过亲戚亲戚其他同学一般还要下载nltk的语料库,都可不可以 用下面的代码完成,nltk会弹出对话框确定要下载的内容。确定下载语料库就都可不可以 了。

    对于一段文本,亲戚亲戚其他同学都可不可以 用下面的最好的法律辦法 去找出拼写错误:

    肯能英文单词有大小写之分,亲戚亲戚其他同学期望统计时像“Home”和“home”是一有两个 词。你要一般还要将所有的词都转化为小写。这类直接用python的API就都可不可以 玩转信用卡 。

    这次责英文和化文这类。获取最好的法律辦法 一般有这类:使用别人做好的语料库和此人 用爬虫去在网上去爬此人 的语料数据。

    这类步主可是我 针对亲戚亲戚其他同学用爬虫埋点的语料数据,肯能爬下来的内容带有可是我 html的你要 标签,还要添加。极少量的非文本内容的都可不可以 直接用Python的正则表达式(re)删除, 复杂的则都可不可以 用beautifulsoup来去除。另外还有你要 特殊的非英文字符(non-alpha),也都可不可以 用Python的正则表达式(re)删除。

    对于第二种使用爬虫的最好的法律辦法 ,开源工具有可是我 ,通用的爬虫我一般使用beautifulsoup。你要亲戚亲戚其他同学亲戚亲戚其他同学还要你要 特殊的语料数据,比如中间提到的“deep learning”相关的语料库,则还要用主题爬虫(也叫聚焦爬虫)来完成。这类我一般使用ache。 ache允许亲戚亲戚其他同学用关键字肯能一有两个 分类算法模型来过滤出亲戚亲戚其他同学还要的主题语料,比较强大。

    输出是"country",比较符合需求。

    在英文文本带有可是我 无效的词,比如“a”,“to”,你要 短词,还有你要 标点符号,那些亲戚亲戚其他同学你要在文本分析的你要 引入,你要还要添加,那些词可是我 停用词。此人 常用的英文停用词表下载地址在这。当然还要你要 版本的停用词表,不过这类版本是我常用的。

    输出是"countri",这类词干并还要一有两个 词。    

    中间的预正确处理中,亲戚亲戚其他同学会重点讲述第三点和第四点的正确处理。

    对于第这类最好的法律辦法 ,常用的文本语料库在网上有可是我 ,肯能亲戚亲戚其他同学可是我 学习,则都可不可以 直接下载下来使用,但肯能是你要 特殊主题的语料库,比如“deep learning”相关的语料库,则这类最好的法律辦法 行不通,还要亲戚亲戚其他同学此人 用第二种最好的法律辦法 去获取。

    词干提取(stemming)和词型还原(lemmatization)是英文文本预正确处理的特色。两者难能可贵有一起去点,即还要要找到词的原始形式。只不过词干提取(stemming)会更加激进你要 ,它在寻找词干的你要 都可不可以 会得到还要词的词干。比如"imaging"的词干肯能得到的是"imag", 并还要一有两个 词。而词形还原则保守你要 ,它一般只对要能还原成一有两个 正确的词的词进行正确处理。此人 比较喜欢使用词型还原而还要词干提取。

    在亲戚亲戚其他同学用scikit-learn做形状正确处理的你要 ,都可不可以 通过参数stop_words来引入一有两个 数组作为停用词表。这类最好的法律辦法 和前文讲中文停用词的最好的法律辦法 相同,这里就不写出代码,亲戚亲戚其他同学参考前文即可。