这9个特征工程的使用技巧,解决90%机器学习问题

特征是什么?为什么需要工程设计?基本上,所有机器学习算法都是将一些输入数据转化为输出。这些输入数据包括若干特征,通常是以由列组成的表格形式出现。而算法往往要求输入具有某些特性的特征才能正常工作。因此,出现了对特征工程的需求。特征工程至少有两个目标,构建适合机器学习算法要求的输入数据。改善机器学习模型

协同过滤推荐算法

一、协同过滤思想简介二、协同过滤算法原理介绍三、基于用户的协同过滤算法描述四、基于物品的协同过滤算法(item-based collaborative filtering)基于物品的协同过滤算法的优缺点一、协同过滤思想简介协同过滤,从字面上理解,包括协同和过滤两个操作。首先我们在外出和朋友吃饭的时候

5分钟NLP - SpaCy速查表

SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向,例如信息提取、自然语言理解或为深度学习提供文本预处理。

深度学习入门之神经网络

接着啃书第三章

Python学习笔记——Numpy的初步学习

关于numpy模块的简单学习,欢迎大家多多指教

伪标签:用于深度神经网络的简单高效的半监督学习方法

未标记的数据由监督学习网络标记,即所谓的伪标记。然后使用标记数据和伪标记数据训练网络。

2022年必须要了解的20个开源NLP 库

在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。

矩量母函数介绍

1 矩量母函数 矩量母函数又称矩母函数(Moment Generating Function)又称动差生成函数,是一种构造函数,其定义为:随机变量XXX是连续型随机变量时,其矩量母函数为:MX(t)=E(etX)=∫−∞+∞etxf(x)dxM_X(t)=\mathrm{E}(e^{tX})=\in

高斯函数、高斯积分和正态分布

本篇文章我们首先将研究高斯函数的一般定义是什么,然后将看一下高斯积分,其结果对于确定正态分布的归一化常数是非常必要的。最后我们将使用收集的信息理解,推导出正态分布方程。

【顶会学习计划】万字吃透NER

NLP系列顶会学习计划,今天研究的是顶会ACL2018的一篇文章,并尝试在相同数据集上自己实现模型,领会STOA的魅力!

机器学习之Python开源教程——专栏介绍及理论知识概述

机器可以解决重复的工作,比如1+......+100=?如果是一个大脑,你可以在1秒钟立刻算出这些值吗?但是对于机器却是可以的,计算机程序针对大量的、重复的、具有规律的、可移植性的问题进行学习和求解,这一切的缘由都应该来自于“规律”——算法 机器是无法自己独立思考的,只有针对某种数学公

RVN 一种新的聚类算法

RVN 的灵感来自一家家具公司的商业案例,由于每件家具都有不同的形状和大小,所以创建了可以考虑每个点大小的 RVN 算法

Matplotlib 绘图 笔记

from jupyterthemes import jtplotjtplot.style(theme='monokai') #选择一个绘图主题import matplotlib.pyplot as plt# 个别环境需要以下代码%matplotlib inlineplt.figure()plt.pl

python使用StringIO读取字符串内容,并使用pandas基于字符串内容生成dataframe

python使用StringIO读取字符串内容,并使用pandas基于字符串内容生成dataframe

1月论文推荐:Hyper-Tune 满足大规模高效分布式自动超参数调整的 SOTA 架构

北京大学、苏黎世联邦理工学院和快手科技的研究团队提出了 Hyper-Tune,这是一种高效、健壮的分布式超参数调优框架

2022年人工智能5大发展趋势

近几年随着各行业对于自动化需求的提高,为人工智能带了了一次巨大的提升机会。随着深度学习的开放,人工智能在几年中快速发展,由尖端技术慢慢向着开始普及在各行业和家庭生活中。以下是国外一家专注于开源和堆栈技术新闻网站TheNewStark盘点的2022年值得人们期待的五个人工智能发展趋势。趋势1:大型语言

t 检验的 3 种常用方法及在 Python 中使用样例

本文将介绍 t 检验的 3 种变体以及何时使用它们以及如何在 Python 中运行它们。

基于SVM的多故障分类器|和车神哥一起学系列

暑假也要每天坚持学习哟!~

机器学习笔记一. 特征工程

sklearn 库加载数据集小数据集sk.datasets.load_iris();大数据集sk.datasets.fetch_20newsgroups()数据集返回值datasets.base.Bunch(继承自字 典类型)使用数据集# 数据集使用def datasets_demo(): i

机器学习【西瓜书/南瓜书】--- 第1章绪论(学习笔记+公式推导)

本博客为博主在学习 机器学习【西瓜书/南瓜书】过程中的学习笔记,每一章都是对《西瓜书》、《南瓜书》内容的总结和提炼笔记,博客可以作为各位读者的辅助思考,也可以做为读者快读书籍的博文,本博客对西瓜书所涉及公式进行详细的推理以及讲解,本人认为,不推导公式所学得的知识是没有深度的,是很容易忘记的,有些公式