白宁超的官网

自然语言处理之数据预处理

发表于 2019-02-13 | 分类于自然语言处理

摘要：数据预处理的整个步骤流程在自然语言处理的工程中要比其在机器学习的工程中精简一些，最大的区别就在数据清洗和特征构造这两个至关重要的过程。在自然语言处理中特征构造是否良好，很大程度上取决于所构造的特征数据集的数据特性与文本内容语义吻合程度的高低。比如，文本情感分类和文本内容分类都属于分类范畴，但对于同一种算法（参数都调整到最优），在两个不同分类的业务下，得到的结果可能会相差很大。通过仔细分析，我们将不难发现造成这种差异的最根本原因就是构造出来的特征数据集的数据模式没有很好地契合文本的真实语义，这也是自然语言处理的最大难点所在。（本文原创，转载必须注明出处.）

阅读全文 »

自然语言处理之中文自动分词

发表于 2019-02-13 | 更新于 2019-03-06 | 分类于自然语言处理

摘要：中文分词技术属于自然语言处理技术范畴，中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。诸如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等。本章首先介绍中文分词及其特点和难点，其次对常用的中文分词方法进行阐述；紧接着我们将介绍几个典型的中文分词工具，有兴趣的读者还可对文中所列出的其他工具自行深入研究。最后，本章将对结巴中文分词进行详细介绍，从原理到使用逐渐深入，力求让读者快速掌握其思想及原理。（本文原创，转载必须注明出处.）

阅读全文 »

自然语言处理之语料库技术

发表于 2019-02-13 | 分类于自然语言处理

摘要：大数据发展的基石就是数据量的快速增加，无论是自然语言处理、数据挖掘、文本处理还是机器学习领域，都是在此基础上通过规则或统计方法进行模型构建的。但是不是数据足够大就叫大数据了呢？是不是数据足够多就构成语料库了呢？带着这些疑问，本章将带你走进语料库的世界，对语料知识进行一次全面而深入的了解。（本文原创，转载必须注明出处.）

阅读全文 »

自然语言处理入门

发表于 2019-02-13 | 分类于自然语言处理

摘要：随着人工智能的快速发展，自然语言处理和机器学习技术的应用愈加广泛。然而身为初学者，要想快速入门这些前沿技术总是存在着各种各样的困难。为使读者对该领域整体概况有一个更为系统明晰的认识，本章1.1节将主要从发展历程、研究现状、应用前景等角度出发，概要地介绍自然语言处理及相关的机器学习技术。接下来1.2节我们将介绍自然语言处理和机器学习之间的关系。古语说“工欲善其事，必先利其器”，本课程的“器”就是开发环境部署，本书主要介绍Sublime的安装部署与使用。最后，在章末1.5节我们将用一个简单的实战案例让读者亲身领略编程之美。（本文原创，转载必须注明出处.）

阅读全文 »

漫谈马尔可夫模型

发表于 2019-02-13 | 分类于自然语言处理

摘要：最早接触马尔可夫模型的定义源于吴军先生《数学之美》一书，起初觉得深奥难懂且没什么用场。直到学习自然语言处理时，我才真正使用到隐马尔可夫模型，并体会到此模型的奇妙之处。马尔可夫模型在处理序列分类时具有强大的功能，诸如解决：词类标注、语音识别、句子切分、字素音位转换、局部句法剖析、语块分析、命名实体识别、信息抽取等。此外它还广泛应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。（本文原创，转载必须注明出处.）

阅读全文 »

漫谈条件随机场

发表于 2019-02-13 | 分类于自然语言处理

摘要：条件随机场常用于序列标注、数据分割等自然语言处理任务中，此外其在中文分词、中文人名识别和歧义消解等任务中也有应用。本文基于笔者在做语句识别序列标注过程中，对条件随机场产生的了解。全篇内容主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF的相关介绍，最后由笔者进行大量研究整理后汇总成体系知识。本章首先介绍条件随机场的相关概念，然后结合实例以期让读者深入理解条件随机场的应用。（本文原创，转载必须注明出处.）

阅读全文 »

机器学习之模型评估

发表于 2019-02-13 | 分类于机器学习，模型评估

摘要：本文写作的初衷源于基于HMM模型序列标注的一个实验，在实验完成之后，如果迫切想知道采用的序列标注模型好坏，有哪些指标可以度量。于是，就产生了对这一专题进度的学习总结，这样也便于其他人参考，节约大家的时间。本文依旧旨在简明扼要地梳理出模型评估核心指标，关键以期达到实用的目的。本章首先介绍基于统计角度的模型评估，然后介绍模型评估的方法，最后对模型选择进行介绍。（本文原创，转载必须注明出处.）

阅读全文 »

命名实体识别技术

发表于 2019-02-13 | 分类于自然语言处理

摘要：命名实体识别在自然语言处理占据着非常重要的地位，也是不可逾越的学术问题。关于命名实体识别的学术理论和研究方法众多，本章侧重整体介绍。首先阐述了命名实体识别的背景知识和研究概况；其次主要介绍中文命名实体识别的特点与难点，加以案例加深理解；然后对命名实体识别当前研究方法和核心技术进行详细介绍；最后，展望其在未来人工智能方面的发展前景。（本文原创，转载必须注明出处.）

阅读全文 »

简洁全面的Scrapy爬虫技术入门

发表于 2019-01-21 | 更新于 2019-03-06 | 分类于网络爬虫

摘要：AI时代在我们生活中扮演着愈加重要的角色，其显著特征就是对海量数据的处理。所谓海量数据即大数据，我们首先获取到数据才能够挖掘其信息，达到AI层面的应用。而数据的存在形式，绝大多数是非结构化的，网页存储就是典型的非结构化数据。由此引出了网络爬虫技术，本文主要介绍Scrapy的原理和入门应用，以及本地化存储。（本文原创，转载必须注明出处.）

阅读全文 »

Python数据预处理：机器学习、人工智能通用技术（1）

发表于 2018-12-24 | 更新于 2019-03-06 | 分类于数据预处理

摘要：大数据技术与我们日常生活越来越紧密，要做大数据，首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据，严重影响到数据建模的执行效率，甚至可能导致模型结果的偏差，因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后，不仅提高了数据质量，而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。（本文原创，转载必须注明出处.）

阅读全文 »

白宁超

本站主要研究深度学习、机器学习、自然语言处理等前沿技术。ML&NLP交流群：436303759

RSS

GitHub Google 百度微博博客园微信公众号