ML-情感分析2-使用向量空间模型与SVM进行情感分析

前言 在ML-情感分析1-使用W2V与SVM进行情感分析这篇文章中,我们使用了word2vec模型进行了向量化,同时还为大家介绍了一下情感分析的基本流程。今天我们在这一篇文章中将为大家介绍向量空间模型向量化文字、使用卡方检验降维和使用tf-idf值规范化输入矩阵的知识。如果您对上述知识有什么不了解的地方,没关系,我都会在本篇文章中进行简略介绍。 1、语料预处理 作者在这里使用的是一个携程酒店正面负面评论的语料库,有3000条负面评论和7000条正面评论。可以从CSDN上面下载。如果您实在找不到下载资源可以从文末的给出的链接中下载。 同时我们还需要获取一个停用词表,这里我选择使用了中科院提供的一个停用词表。相关的资源都在我的ML-情感分析1-使用W2V与SVM进行情感分析这篇文章的文末给出了。 我们首先还是需要将语料转换成UTF-8的格式,相关代码在上篇文章中,接下来依次清洗数据、数据分词、去除停用词。建议首先从上一篇文章阅读 2、向量空间模型

ML-情感分析1-使用W2V与SVM进行情感分析

前言 情感分析是当前比较火热的自然语言处理领域,当前情感分析主要有三种方式,第一种使用情感词典进行情感分析,第二种是使用机器学习的方式进行情感分析,最后一种是综合前两种方式进行分析。本篇文章主要介绍如何使用机器学习的方式来解决情感分析问题。需要涉及到SVM(支持向量机)、PCA和Word2Vec的相关知识,如果读者还有什么不了解的话可以自行搜索学习。简单来说可以将SVM理解成一个分类器,区分正面和负面情绪。PCA(主成分分析法)可以理解成是一个告诉你哪些输入特征更加重要的算法,Word2Vec是一个可以将文字转换为机器可理解的向量的算法。希望这篇文章可以让读者简单了解情感分析过程中需要考虑的几个基本步骤 获取训练语料 作者在这里使用的是一个携程酒店正面负面评论的语料库,有3000条负面评论和7000条正面评论。可以从CSDN上面下载。如果您实在找不到下载资源可以从文末的给出的链接中下载。 同时我们还需要获取一个停用词表,这里我选择使用了中科院提供的一个停用词表 预处理语料

ML-训练自己的Word2Vec模型

前言 Word2Vec是Google推出的一款用于将自然语言映射为机器可以处理的向量的算法。是目前较为流行的一种重要算法,在自然语言处理界中有着广泛的应用。本篇博客就来为大家分享一下如何在Windows系统下使用Python语言训练自己的Word2Vec模型。 获取语料 如果要训练模型,首先需要大量的中文语料,不过不用担心,当前网络上已经有很多开源的语料库,不需要我们自己再去费力构建了。读者可以从这篇文章中挑选自己喜欢的语料库,在这里作者选择了搜狗的语料库,可以从这里下载。作者在这里下载了完整版的Zip版本。 下载后解压得到一个“news_tensite_xml.dat”文件 构建语料库 在刚刚获得的dat文件中,所有的数据都是以以下的形式存储的: <doc&

DL-RNN循环神经网络原理

前言 人类的大脑可以记住之前发生的事情,并以此为基础预测之后会发生的事情。 传统的神经网络并不能做到这点,看起来也像是一种巨大的弊端。例如,假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件。 RNN 解决了这个问题。RNN 是包含循环的网络,允许信息的持久化。RNN本质上是一种变形的神经网络。 ps:阅读本文需要你已经掌握了BP神经网络的相关知识,如果还没有,请到这里了解一下 RNN模型 递归神经网络(recurrent neural network,RNN)是一种具有反馈结构的神经网络,

ML-Softmax分类器的数学原理与统计原理

前言 Softmax是机器学习中最为基础的一种算法,其本质是对logistic回归算法的推广。logistic算法是二元分类,Softmax算法是多元分类。在这一篇博文中,我将向大家介绍分别介绍数学原理与统计原理。阅读本篇博文之前,希望你已经掌握了logistic算法的相关知识。不了解也没关系,但是可能有一些概念需要你现学一下。 广义线性模型(GLM)与指数分布族 广义线性模型是一系列模型的统称,其是基于指数分布族的。如果一个概率分布函数可以写成如下模式: \[ p(y;\eta)=b(y)exp(\eta^TT(y)

TF-Windows10安装TensorFlow-GPU版

前言 在TensorFlow刚刚推出的时候,很多人因为其不支持windows操作系统而改用Ubuntu,然后发现Ubuntu的显卡驱动是一个大坑。但是随着TensorFlow1.0版本的推出(好吧,其实0.12就支持了),TensorFlow对windows有了一定的支持,使得我们可以在显卡驱动环境更好的windows系统下进行深度学习的编程。但是TensorFlow GPU版本在windows上的安装十分繁琐,稍有不慎就会导致各种各样的错误,所以在这里跟大家分享一下win10是如何安装TF的。 准备工作 根据TensorFlow官网的介绍,我们需要做以下准备工作: 1.CUDA® Toolkit 8.0. 2.The NVIDIA

DL-BP神经网络及其数学原理

引言 最近博主学习了Coursera上面Andrew Ng老师的机器学习课程。其中对BP神经网络有一定的介绍,但是在课程中老师略过了数学推到过程。经过博主在网络上的搜索,大部分的资料内容缺乏条理性,并且与Coursera上面的课程对应不起来,所以只能自己整理一下啦,在此与大家分享一下。 假设大家掌握以下内容: 1.了解什么是神经网络 2.了解什么是Fp(前向)神经网络 3.了解什么是sigmoid函数以及梯度下降方法 如果您对上述概念还很模糊的话,还请查阅相关资料学习一下,以上都是很简单的内容,学习上述基础内容并不会耗费您太多的时间。 Bp神经网络 首先我们来约定一些符号: 1.

MLps1-正规方程组和梯度下降的联系与不同

前言 大家好,我是antdlx。MLps系列是针对ML系列的补充,一些在ML系列中不方便展开的问题会在这里展开讨论,力求让读者透彻的理解ML系列中的许多底层原理。 今天这篇文章将会介绍: 最大似然估计法 多元线性回归 正规方程组 正规方程组和梯度下降之间的联系和不同 1、最大似然估计法 正规方程组是由最大似然估计法得到的,那么什么事最大似然估计法呢?它是数理统计学中参数估计的点估计中的一种方法。 统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题。这里用到的就是估计问题。 1.1、点估计:设总体X的分布函数形式已知,但它的一个或者多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。

ML数学基础3-概率论与统计学

前言 大家好,我是antdlx。最近在学习机器学习的相关知识。我发现现在网络上机器学习的资料非常繁杂,对于初学者来说可能不止从何下手。而且对于很多初学者来说另一个不可忽视的问题就是对部分数学知识的不熟悉。我自己在学习的过程中也遇到了不少问题,走了不少弯路。为了让后来者更好的学习,少走弯路,我会在接下来的一段时间更新一系列机器学习的入门教程和自己的学习笔记,希望可以帮到大家。这里便是这个ML系列的第一个部分,也算是一个准备部分了吧,数学基础。 今天我就来为大家介绍一下在机器学习中需要使用到的最最基础的概率论和统计学相关的知识。掌握本篇内容可以保证你今后在入门机器学习时不至于看不懂相关术语和计算。 ps:本篇内容适合曾经学习过概率论和统计学但是掌握不扎实的读者,仅仅帮助读者用来回顾基础知识。 因为我的笔记中有大量截图,所以本篇博客也会主要以截图的形式给出 正文内容 0、收敛

ML数学基础2-高等代数

前言 大家好,我是antdlx。最近在学习机器学习的相关知识。我发现现在网络上机器学习的资料非常繁杂,对于初学者来说可能不止从何下手。而且对于很多初学者来说另一个不可忽视的问题就是对部分数学知识的不熟悉。我自己在学习的过程中也遇到了不少问题,走了不少弯路。为了让后来者更好的学习,少走弯路,我会在接下来的一段时间更新一系列机器学习的入门教程和自己的学习笔记,希望可以帮到大家。这里便是这个ML系列的第一个部分,也算是一个准备部分了吧,数学基础。 今天我就来为大家介绍一下在机器学习中需要使用到的最最基础的高等代数的知识。掌握本篇内容可以保证你今后在入门机器学习时不至于看不懂相关术语和计算。 ps:在这一讲主要写一些高等数学里面的基础内容。由于我笔记里面主要是电子书的截图,所以这篇博客的主要内容也将是图片,排版可能稍有不佳。作者使用的电子书是《高等数学微积分》北大版。

ML数学基础1-线性代数

前言 大家好,我是antdlx。最近在学习机器学习的相关知识。我发现现在网络上机器学习的资料非常繁杂,对于初学者来说可能不止从何下手。而且对于很多初学者来说另一个不可忽视的问题就是对部分数学知识的不熟悉。我自己在学习的过程中也遇到了不少问题,走了不少弯路。为了让后来者更好的学习,少走弯路,我会在接下来的一段时间更新一系列机器学习的入门教程和自己的学习笔记,希望可以帮到大家。这里便是这个ML系列的第一个部分,也算是一个准备部分了吧,数学基础。 今天我就来为大家介绍一下在机器学习中需要使用到的最最基础的线性代数的知识,主要是矩阵论的相关知识。掌握本篇内容可以保证你今后在入门机器学习时不至于看不懂相关术语和计算。 ps:本篇内容适合曾经学习过线性代数但是掌握不扎实的读者,仅仅帮助读者用来回顾基础知识 1、矩阵运算 1.1)

欢迎使用 Ghost 博客系统

Yeah,博客上线了!这篇文章的目的是向你介绍 Ghost 编辑器并帮你快速上手。通过 <your blog URL>/ghost/ 链接就可以登录系统后台管理你的博客内容了。当你进入后台,你就能看到左侧文章列表处列出的这篇文章,右侧就是这篇文章的预览效果。点击预览栏右上角的铅笔图标就能进入内容编辑页面。 快速入门 Ghost 使用 Markdown 语法书写内容。简单来说,Markdown 就是一种简化的书写格式! 用

Previous Page
Page 1 of 1
Next Page