50个常用的Numpy函数解释,参数和使用示例
Numpy是python中最有用的工具之一。它可以有效地处理大容量数据。使用NumPy的最大原因之一是它有很多处理数组的函数。在本文中,将介绍NumPy在数据科学中最重要和最有用的一些函数。
pandas.read_csv() 处理 CSV 文件的 6 个有用参数
pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。
卷积神经网络在深度学习中新发展的5篇论文推荐
卷积神经网络在深度学习中新发展的5篇论文推荐
ArgMiner:一个用于对论点挖掘数据集进行处理、增强、训练和推理的 PyTorch 的包
对kaggle中Feedback Prize比赛该兴趣的小伙伴推荐了解下。ArgMiner可以用于对SOTA论点挖掘数据集进行标准化处理、扩充、训练和执行推断。
Github Copilot 值得购买吗?使用GitHub Copilot进行快速EDA的示例
本篇文章作为例子来演示如何将Copilot用于探索性分析,看看每月10美元是否值得
基于图的 Affinity Propagation 聚类计算公式详解和代码示例
Affinity Propagation Clustering(简称AP算法)是2007提出的,当时发表在Science上《single-exemplar-based》。特别适合高维、多类数据快速聚类,相比传统的聚类算法,该算法算是比较新的,从聚类性能和效率方面都有大幅度的提升。
零样本和少样本学习
在本篇文章中,我们将讨论机器学习和深度学习的不同领域中的一个热门话题:零样本和少样本学习(Zero and Few Shot learning),它们在自然语言处理到计算机视觉中都有不同的应用场景。
一个简单但是能上分的特征标准化方法
一般情况下我们在做数据预处理时都是使用StandardScaler来特征的标准化,如果你的数据中包含异常值,那么效果可能不好。
基于趋势和季节性的时间序列预测
分析时间序列的趋势和季节性,分解时间序列,实现预测模型
100+数据科学面试问题和答案总结 - 机器学习和深度学习
来自Amazon,谷歌,Meta, Microsoft等的面试问题,本文接着昨天的文章整理了机器学习和深度学习的问题
100+数据科学面试问题和答案总结 - 基础知识和数据分析
来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题
使用“BERT”作为编码器和解码器(BERT2BERT)来改进Seq2Seq文本摘要模型
BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。
如何比较两个或多个分布:从可视化到统计检验的方法总结
比较一个变量在不同组中的分布是数据科学中的一个常见问题,在这篇文章中,我们将看到比较两个(或更多)分布的不同方法,并评估它们差异的量级和重要性。
评估和选择最佳学习模型的一些指标总结
在评估模型时,虽然准确性是训练阶段模型评估和应用模型调整的重要指标,但它并不是模型评估的最佳指标,我们可以使用几个评估指标来评估我们的模型。
位置编码(PE)是如何在Transformers中发挥作用的
Transformers不像LSTM具有处理序列排序的内置机制,它将序列中的每个单词视为彼此独立。所以使用位置编码来保留有关句子中单词顺序的信息。
主动学习(Active Learning) 概述、策略和不确定性度量
主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。
模型的度量指标和损失函数有什么区别?为什么在项目中两者都很重要?
在本文中,我将解释为什么需要两个独立的模型评分函数来进行评估和优化……甚至还可能需要第三个模型评分函数来进行统计测试。
Curriculum Labeling:重新审视半监督学习的伪标签
Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL)
如何正确拆分数据集?常见的三种方法总结
拥有适当的验证策略是成功创建良好预测,使用AI模型的业务价值的第一步,本文中就整理出一些常见的数据拆分策略。
联合概率和条件概率的区别和联系
本文解释联合概率和条件概率之间区别和联系