Python数据预处理之抽取文本信息（2）

摘要：大数据技术与我们日常生活越来越紧密，要做大数据，首要解决数据问题。原始数据存在大量不完整、不一致、有异常的数据，严重影响到数据建模的执行效率，甚至可能导致模型结果的偏差，因此要数据预处。数据预处理主要是将原始数据经过文本抽取、数据清理、数据集成、数据处理、数据变换、数据降维等处理后，不仅提高了数据质量，而且更好的提升算法模型性能。数据预处理在数据挖掘、自然语言处理、机器学习、深度学习算法中起着重要的作用。（本文原创，转载必须注明出处.）

数据类型与数据采集

通常说的数据指的的数字、图表信息这些。在大数据领域所谓的数据总体包括结构化数据、半结构化数据和非结构化数据。

结构化数据

结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。比如：

id	name	age	gender
1	张三	12	男
2	李花	13	女
3	王五	18	男

数据特点：关系模型数据，关系数据库表示。
常见格式：比如MySQL、Oracle、SQL Server等。
应用场合：数据库、系统网站、数据备份、ERP等。
数据采集：DB导出、SQL等方式。

结构化的数据的存储和排列是很有规律的，这对查询和修改等操作很有帮助。但是，它的扩展性不好。

半结构化数据

半结构化数据是结构化数据的一种形式，它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层。因此，它也被称为自描述的结构。半结构化数据，属于同一类实体可以有不同的属性，即使他们被组合在一起，这些属性的顺序并不重要。常见的半结构数据有XML如下：


    李花
    13
    女

数据特点：非关系模型数据，还有一定的格式。
常见格式：比如Email、HTML、XML、JSON等。
应用场合：邮件系统、档案系统、新闻网站等。
数据采集：网络爬虫、数据解析等方式。

不同的半结构化数据的属性的个数是不定的。有些人说半结构化数据是以树或者图的数据结构存储的数据，上面的例子中，标签是树的根节点，和标签是子节点。通过这样的数据格式，可以自由地表达很多有用的信息，包括自我描述信息（元数据）。所以，半结构化数据的扩展性是很好的。

非结构化数据

就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式。如下所示：

数据特点：没有固定格式的数据
常见格式：Word、PDF、PPT、图片、音视频等。
应用场合：图片识别、人脸识别、医疗影像、文本分析等。
数据采集：网络爬虫、数据存档等方式。

常见的文本抽取方法

针对数据不同形式，通过特定方式的数据采集方式（文档下载、数据库导出、网络爬虫、语音收集、图片解析等等）获取数据，无论是结构化的数据库文件、半结构化的网页数据，还是非结构化的图片、音视频。我们最终的目的都是将数据传入到电脑之中，通过算法模型挖掘其潜在的价值，为最终的AI技术做支撑。不同的是，在结构化和半结构化数据数据集成过程中，我们可以提取相关文本信息，做进一步的数据预处理；而非结构化的图片、音视频我们采用一定的技术手段，获取其对应的数据点矩阵。这一点不太容易理解，我们比如说想解析一张图片的数据，我们知道图片是有长宽高组成的，还包括红蓝绿三种基本色。那么我们就找到对应的多维特征，采用数据点占位表示，比如：

图片名    长(bit)        宽(bit)        红        绿        蓝
猫1        12            100            0        0        1
狗2        101            234            1        1        1
猪3        202            24            0        1        0

上面就数据表示猫1这张图片，长宽位点（12,100）处只有蓝色构成；狗2这张图片，长宽位点（101,234）处有红绿蓝3中色构成；猪3这张图片，长宽位点（202,24）处只有绿构成。这就是非结构数据图片转化为数值型数据的原理。完整流程数据挖掘的流程图如下所示：

我根据不同的数据类型，采用对应的数据采集方式获取目标数据。这时候的数据质量很差，存在文本格式不同，数据表示形式不同等诸多问题。这里我们单纯的考虑文本信息的处理，就文本信息而言，你采集的数据可能是网页、数据库文件、pdf文档、word文档等等。我们想去处理这些数据，还需要对数据进行集成即转化为统一的数据格式，这里我们就需要文本信息抽取，常见的抽取方式包括以下几个内容：在线格式转换工具、office内置格式转换、自己开发文本抽取工具。详见下图：

经过实际操作会发现采用在线格式转换工具存在几个弊端，其限制文件转化的数据，要么就是收费的；而采用本地的office自带文档，一个个另存为文本，肯定不现实。基于上述情况，我们对工具抽取的弊端总结如下：

格式转换后，识别乱码较多
不支持或者限制支持批量处理
批量转化收费问题
格式转换后的txt文件存在编码问题
生成文件名一堆数字乱码
操作不够灵活便捷

我们针对以上问题，就去寻求解决方式，那就是自己动手丰衣足食，我们自己去打造批量文本抽取问题，我们期待效果是：

支持PDF/Word等多格式文本抽取
自动过滤不符合指定格式的文件
生成的目标文件与原文件目录一致
生成文档采用统一的编码格式保存（如：UTF-8 ）
支持默认保存路径和自定义保存路径

抽取Word文档文本

做word文档抽取工作，我们运行环境是在win10-64bit下，python3.5，Anaconda4.4版本下执行的，所使用的插件是win32com。下载地址：https://pan.baidu.com/s/1-2BsiTs8XjMIe5Gnh_GFjw 密码: 7j3t
预装完win32com以后，以下代码便完成抽取word文本信息。

算法思路：

定义文件路径和转存路径：split
修改新的文件名：fnmatch
设置完整的保存路径：join
启动应用程序格式转换：Dispatch
保存文本：SaveAs

算法流程：

代码实现：
coding=utf-8

“””
Description: Word文件转化TXT文本
Author：伏草惟存
Prompt: code in Python3 env
Install package： pip install pypiwin32
“””

import os,fnmatch
from win32com import client as wc
from win32com.client import Dispatch

‘’’
功能描述：word文件转存txt文件，默认存储当前路径下；用户可以指定存储文件路径。
参数描述：1 filePath：文件路径 2 savePath：指定保存路径
‘’’
def Word2Txt(filePath,savePath=’’):

# 1 切分文件上级目录和文件名
dirs,filename = os.path.split(filePath)
# print(dirs,'\n',filename)

# 2 修改转化后的文件名
new_name = ''
if fnmatch.fnmatch(filename,'*.doc'):
    new_name = filename[:-4]+'.txt'
elif fnmatch.fnmatch(filename,'*.docx'):
    new_name = filename[:-5]+'.txt'
else: return
print('->',new_name)

# 3 文件转化后的保存路径
if savePath=='': savePath = dirs
else: savePath = savePath
word_to_txt = os.path.join(savePath,new_name)
print('->',word_to_txt)

# 4 加载处理应用,word转化txt
wordapp = wc.Dispatch('Word.Application')
mytxt = wordapp.Documents.Open(filePath)
mytxt.SaveAs(word_to_txt,4)
mytxt.Close()

if name==’main‘:
filepath = os.path.abspath(r’../dataSet/filename.doc’)

# savepath = ''
Word2Txt(filepath)

</pre>

抽取PDF文档文本

算法思路：

定义文件路径和转存路径：split
修改新的文件名：fnmatch
设置完整的保存路径：join
启动应用程序格式转换：Dispatch
保存文本：SaveAs

算法流程：

代码实现：

# coding=utf-8

"""
Description: PDF文件转化TXT文本
Author：伏草惟存
Prompt: code in Python3 env
"""

import os,fnmatch
from win32com import client as wc
from win32com.client import Dispatch,gencache


'''
功能描述：pdf文件转化txt文本
参数描述：1 filePath：文件路径  2 savePath： 指定保存路径
'''
def Pdf2Txt(filePath,savePath=''):
    # 1 切分文件上级目录和文件名
    dirs,filename = os.path.split(filePath)
    # print('目录：',dirs,'\n文件名：',filename)

    # 2 修改转化后的文件名
    new_name = ""
    if fnmatch.fnmatch(filename,'*.pdf') or fnmatch.fnmatch(filename,'*.PDF'):
        new_name = filename[:-4]+'.txt' # 截取".pdf"之前的文件名
    else: return
    print('新的文件名：',new_name)

    # 3 文件转化后的保存路径
    if savePath=="": savePath = dirs
    else: savePath = savePath
    pdf_to_txt = os.path.join(savePath,new_name)
    print('保存路径：',pdf_to_txt)

    # 4 加载处理应用,pdf转化txt
    wordapp = wc.Dispatch('Word.Application')
    mytxt = wordapp.Documents.Open(filePath)
    mytxt.SaveAs(pdf_to_txt,4)
    mytxt.Close()



if __name__=='__main__':
    # 使用绝对路径
    filePath = os.path.abspath(r'../dataSet/Corpus/pdftotxt/2018年世界新闻自由日.pdf')
    # savePath = r'E:\\'
    Pdf2Txt(filePath)

文本抽取工具与编码

算法思路：

定义文件夹路径和转存夹路径：split
修改新的文件名：TranType(filename， typename)、fnmatch
设置完整的保存路径：join
启动应用程序格式转换：Dispatch
保存文本：SaveAs

代码实现
coding=utf-8

“””
Description: 多文档格式转换工具
Author：伏草惟存
Prompt: code in Python3 env
“””

import os,fnmatch
from win32com import client as wc
from win32com.client import Dispatch,gencache

‘’’
功能描述：抽取文件文本信息
参数描述：1 filePath：文件路径 2 savePath：指定保存路径
‘’’
def Files2Txt(filePath,savePath=’’):
try:

    # 1 切分文件上级目录和文件名
    dirs,filename = os.path.split(filePath)
    # print('目录：',dirs,'\n文件名：',filename)

    # 2 修改转化后的文件名
    typename = os.path.splitext(filename)[-1].lower() # 获取后缀
    new_name = TranType(filename,typename)
    # print('新的文件名：',new_name)

    # 3 文件转化后的保存路径
    if savePath=="": savePath = dirs
    else: savePath = savePath
    new_save_path = os.path.join(savePath,new_name)
    print('保存路径：',new_save_path)

    # 4 加载处理应用
    wordapp = wc.Dispatch('Word.Application')
    mytxt = wordapp.Documents.Open(filePath)
    mytxt.SaveAs(new_save_path,4)
    mytxt.Close()
except Exception as e:
    pass

‘’’
功能描述：根据文件后缀修改文件名
参数描述：1 filePath：文件路径 2 typename 文件后缀
返回数据：new_name 返回修改后的文件名
‘’’
def TranType(filename,typename):

# 新的文件名称
new_name = ""
if typename == '.pdf' : # pdf->txt
    if fnmatch.fnmatch(filename,'*.pdf') :
        new_name = filename[:-4]+'.txt' # 截取".pdf"之前的文件名
    else: return
elif typename == '.doc' or typename == '.docx' :  # word->txt
    if fnmatch.fnmatch(filename, '*.doc') :
        new_name = filename[:-4]+'.txt'
    elif fnmatch.fnmatch(filename, '*.docx'):
        new_name = filename[:-5]+'.txt'
    else: return
else:
    print('警告：\n您输入[',typename,']不合法，本工具支持pdf/doc/docx格式,请输入正确格式。')
    return
return new_name

if name == ‘main‘:
filePath1 = os.path.abspath(r’../dataSet/Corpus/wordtotxt/一种改进的朴素贝叶斯文本分类方法研究.doc’)
filePath2 = os.path.abspath(r’../dataSet/Corpus/pdftotxt/改进朴素贝叶斯文本分类方法研究.pdf’)
filePath3 = os.path.abspath(r’../dataSet/Corpus/wordtotxt/科技项目数据挖掘决策架构.docx’)
Files2Txt(filePath3)
</pre>

遍历读取文件

遍历文件的类TraversalFun ： TraversalDir、 AllFiles
遍历目录文件TraversalDir ： AllFiles(self.rootDir)
递归遍历文件AllFiles： AllFiles(self,rootDir)
判断是否为文件isfile ：打印出文件名
判断是否是目录isdir ：递归遍历

遍历文件源码实现

# coding=utf-8

"""
Description: 遍历读取文件名
Author：伏草惟存
Prompt: code in Python3 env
"""

import os,time


'''
功能描述：遍历目录处理子文件
参数描述： 1 rootDir 目标文件的根目录
'''
class TraversalFun():
    # 1 初始化
    def __init__(self,rootDir):
        self.rootDir = rootDir # 目录路径

    # 2 遍历目录文件
    def TraversalDir(self):
        TraversalFun.AllFiles(self,self.rootDir)

    # 3 递归遍历所有文件，并提供具体文件操作功能
    def AllFiles(self,rootDir):
        # 返回指定目录包含的文件或文件夹的名字的列表
        for lists in os.listdir(rootDir):
            # 待处理文件夹名字集合
            path = os.path.join(rootDir, lists)
            # 核心算法，对文件具体操作
            if os.path.isfile(path):
                print(os.path.abspath(path))
            # 递归遍历文件目录
            elif os.path.isdir(path):
                TraversalFun.AllFiles(self,path)



if __name__ == '__main__':
    time_start=time.time()

    # 根目录文件路径
    rootDir = r"../dataSet/Corpus/EnPapers"
    tra=TraversalFun(rootDir) # 默认方法参数打印所有文件路径
    tra.TraversalDir()     # 遍历文件并进行相关操作

    time_end=time.time()
    print('totally cost',time_end-time_start,'s')

实战案例：遍历文件批量抽取新闻文本内容

算法思路

引用外部文本抽取模块：import ExtractTxt as ET
参数方法使用：TraversalFun(rootDir,ET.Files2Txt,saveDir)
创建保存根目录：os.path.abspath
递归遍历文件：func(path, save_dir)

源码实现

# coding=utf-8

"""
Description: 批量文档格式自动转化txt
Author：伏草惟存
Prompt: code in Python3 env
"""

import ExtractTxt as ET
import os,time


'''
功能描述：遍历目录，对子文件单独处理
参数描述：1 rootDir 根目录  2 deffun：方法参数  3 saveDir: 保存路径
'''
class TraversalFun():
    # 1 初始化
    def __init__(self,rootDir,func=None,saveDir=""):
        self.rootDir = rootDir # 目录路径
        self.func = func   # 参数方法
        self.saveDir = saveDir # 保存路径

    # 2 遍历目录文件
    def TraversalDir(self):
        # 切分文件上级目录和文件名
        dirs,latername = os.path.split(self.rootDir)
        # print(rootDir,'\n',dirs,'\n',latername)

        # 保存目录
        save_dir = ""
        if self.saveDir=="": # 默认文件保存路径
            save_dir = os.path.abspath(os.path.join(dirs,'new_'+latername))
        else: save_dir = self.saveDir

        # 创建目录文件
        if not os.path.exists(save_dir): os.makedirs(save_dir)
        print("保存目录：\n"+save_dir)

        # 遍历文件并将其转化txt文件
        TraversalFun.AllFiles(self,self.rootDir,save_dir)


    # 3 递归遍历所有文件，并提供具体文件操作功能
    def AllFiles(self,rootDir,save_dir=''):
        # 返回指定目录包含的文件或文件夹的名字的列表
        for lists in os.listdir(rootDir):
            # 待处理文件夹名字集合
            path = os.path.join(rootDir, lists)

            # 核心算法，对文件具体操作
            if os.path.isfile(path):
                self.func(os.path.abspath(path),os.path.abspath(save_dir))

            # 递归遍历文件目录
            if os.path.isdir(path):
                newpath = os.path.join(save_dir, lists)
                if not os.path.exists(newpath):
                    os.mkdir(newpath)
                TraversalFun.AllFiles(self,path,newpath)




if __name__ == '__main__':
    time_start=time.time()

    # 根目录文件路径
    rootDir = r"../dataSet/Corpus/EnPapers"
    # saveDir = r"./Corpus/TxtEnPapers"
    tra=TraversalFun(rootDir,ET.Files2Txt) # 默认方法参数打印所有文件路径
    tra.TraversalDir()                   # 遍历文件并进行相关操作

    time_end=time.time()
    print('totally cost',time_end-time_start,'s')