摘要: 数据预处理的整个步骤流程在自然语言处理的工程中要比其在机器学习的工程中精简一些,最大的区别就在数据清洗和特征构造这两个至关重要的过程。在自然语言处理中特征构造是否良好,很大程度上取决于所构造的特征数据集的数据特性与文本内容语义吻合程度的高低。比如,文本情感分类和文本内容分类都属于分类范畴,但对于同一种算法(参数都调整到最优),在两个不同分类的业务下,得到的结果可能会相差很大。通过仔细分析,我们将不难发现造成这种差异的最根本原因就是构造出来的特征数据集的数据模式没有很好地契合文本的真实语义,这也是自然语言处理的最大难点所在。(本文原创,转载必须注明出处.)
自然语言处理之中文自动分词
摘要:中文分词技术属于自然语言处理技术范畴,中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。诸如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等。本章首先介绍中文分词及其特点和难点,其次对常用的中文分词方法进行阐述;紧接着我们将介绍几个典型的中文分词工具,有兴趣的读者还可对文中所列出的其他工具自行深入研究。最后,本章将对结巴中文分词进行详细介绍,从原理到使用逐渐深入,力求让读者快速掌握其思想及原理。(本文原创,转载必须注明出处.)
自然语言处理之语料库技术
摘要:大数据发展的基石就是数据量的快速增加,无论是自然语言处理、数据挖掘、文本处理还是机器学习领域,都是在此基础上通过规则或统计方法进行模型构建的。但是不是数据足够大就叫大数据了呢?是不是数据足够多就构成语料库了呢?带着这些疑问,本章将带你走进语料库的世界,对语料知识进行一次全面而深入的了解。(本文原创,转载必须注明出处.)
自然语言处理入门
摘要:随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。然而身为初学者,要想快速入门这些前沿技术总是存在着各种各样的困难。为使读者对该领域整体概况有一个更为系统明晰的认识,本章1.1节将主要从发展历程、研究现状、应用前景等角度出发,概要地介绍自然语言处理及相关的机器学习技术。接下来1.2节我们将介绍自然语言处理和机器学习之间的关系。古语说“工欲善其事,必先利其器”,本课程的“器”就是开发环境部署,本书主要介绍Sublime的安装部署与使用。最后,在章末1.5节我们将用一个简单的实战案例让读者亲身领略编程之美。(本文原创,转载必须注明出处.)
简洁全面的Scrapy爬虫技术入门
摘要:AI时代在我们生活中扮演着愈加重要的角色,其显著特征就是对海量数据的处理。所谓海量数据即大数据,我们首先获取到数据才能够挖掘其信息,达到AI层面的应用。而数据的存在形式,绝大多数是非结构化的,网页存储就是典型的非结构化数据。由此引出了网络爬虫技术,本文主要介绍Scrapy的原理和入门应用,以及本地化存储。(本文原创,转载必须注明出处.)
Python数据预处理:机器学习、人工智能通用技术(1)
摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据,严重影响到数据建模的执行效率,甚至可能导致模型结果的偏差,因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后,不仅提高了数据质量,而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。(本文原创,转载必须注明出处.)