大数据和网络复习

大数据挖掘与技术部分
基本概念：
数据预处理是指在进行数据分析和建模之前，对原始数据进行清洗、转换、集成和规约等操作的过程。数据预处理的目的是提高数据的质量，使数据更加适合进行分析和建模。
数据预处理包括以下几个方面：
数据清洗：去除重复数据、处理缺失值、去除异常值等。
数据转换：将数据从一种格式转换为另一种格式，例如将文本数据转换为数值型数据。
数据集成：将来自不同数据源的数据进行整合，例如将不同表格中的数据进行合并。
数据规约：对数据进行压缩、抽样等处理，以便于存储和处理。
数据预处理的重要性在于，原始数据往往存在各种问题，例如缺失值、异常值、重复值等，这些问题会影响到后续的分析和建模。因此，在进行数据分析和建模之前，需要对原始数据进行预处理，以提高数据质量和分析效果。

Apriori算法
Apriori算法是关联规则挖掘技术的最基本算法.目前关联规则的并行数据挖掘算法大都以Apriori算法为基础，它具有无可替代的独特地位。Apriori算法本质主要包含两个方面问题，第一个是找出事务数据库中所有的频繁数据项集。第二个是如何生成强关联规则。

Apriori 原理
Apriori算法的核心思想是基于频繁项集理论的递归方法，采用逐层搜索的迭代方法挖掘出在目标事务数据库中所有频繁项集，直至找到最高阶频繁项集即止，最后通过对获得的频繁项集进行计算得到强关联规则。

2.决策树的构建
2.1 基本原理
策略:自上而下分而治之
●.自根至叶的递归过程，在每个中间结点寻找一个“划分” 属性。
●1)开始:构建根节点;所有训练数据都放在根节点，选择-个最优特征，按着这一特征将训练数据集分割成子集，进入子节点。
●2)所有子集按内部节点的属性递归的进行分割。
●3)如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点去。
●4)每个子集都被分到叶节点.上，即都有了明确的类，这样就生成了一颗决策树。

策略:分而治之”(divide- -and-conquer)
自根至叶的递归过程，在每个中间结点寻找一个“划分”(split or test)属性
三种停止条件:
(1)当前结点包含的样本全属于同一类别，无需划分;
(2)当前属性集为空，或是所有样本在所有属性.上取值相同，无法划分;
(3)当前结点包含的样本集合为空，不能划分.

1.朴素贝叶斯算法核心思想
贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（Naive Bayes）分类是贝叶斯分类中最简单，也是常见的一种分类方法。

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类，即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。
举个例子：眼前有100个西瓜，好瓜和坏瓜个数差不多，现在要用这些西瓜来训练一个「坏瓜识别器」，我们要怎么办呢？

一般挑西瓜时通常要「敲一敲」，听听声音，是清脆声、浊响声、还是沉闷声。所以，我们先简单点考虑这个问题，只用敲击的声音来辨别西瓜的好坏。根据经验，敲击声「清脆」说明西瓜还不够熟，敲击声「沉闷」说明西瓜成熟度好，更甜更好吃。
所以，坏西瓜的敲击声是「清脆」的概率更大，好西瓜的敲击声是「沉闷」的概率更大。当然这并不绝对——我们千挑万选地「沉闷」瓜也可能并没熟，这就是噪声了。当然，在实际生活中，除了敲击声，我们还有其他可能特征来帮助判断，例如色泽、跟蒂、品类等。

朴素贝叶斯把类似「敲击声」这样的特征概率化，构成一个「西瓜的品质向量」以及对应的「好瓜/坏瓜标签」，训练出一个标准的「基于统计概率的好坏瓜模型」，这些模型都是各个特征概率构成的。
这样，在面对未知品质的西瓜时，我们迅速获取了特征，分别输入「好瓜模型」和「坏瓜模型」，得到两个概率值。如果「坏瓜模型」输出的概率值大一些，那这个瓜很有可能就是个坏瓜。

在这里插入图片描述

在这里插入图片描述

一个数据报分组交换网允许各结点在必要时将收到的分组丢弃。设结点丢弃一个分组的概率为p。现有一个主机经过两个网络结点与另一个主机以数据报方式通信,因此两个主机之间要经过3段链路。当传送数据报时,只要任何一个结点丢弃分组,则源点主机最终将重传此分组。试问:
(1)每一个分组在一次传输过程中平均经过几段链路?
(2)每一个分组平均要传送几次?
(3)目的主机每收到一个分组,连同该分组在传输时被丢弃的传输,平均需要经过几段链路?

答:(1)从源主机发送的每个分组可能走1段链路(主机-结点)、2段链路(主机-结点-结点)或3段链路(主机-结点-结点-主机)。
走1段链路的概率是p,
走2段链路的概率是p(1-p),
走3段链路的概率是(1-p)2
则,一个分组平均通路长度的期望值是这3个概率的加权和,即等于
L=1×p+2×p(1-p)+3×(1-p)2= p2-3 p+3
注意,当p=0时,平均经过3段链路,当p=1时,平均经过1段链路,当0
(2)一次传送成功的概率=(1-p)2,令α=(1-p)2,
两次传送成功的概率=(1-α)α,
三次传送成功的概率=(1-α)2α,
……
因此每个分组平均传送次数T=α+2α(1-α)+3α(1-α)2+
=[α/(1-α)][(1-α)+2(1-α)2+3(1-α)3+……]
因为 ∞
∑ kqk = q/(1-q)2
k=1
所以 T=[α/(1-α)]×(1-α)/[1-(1-α)]2 =1/α=1/(1-p)2
(3)每个接收到的分组平均经过的链路数H
H=L×T=(p2-3 p+3)/(1-p)2

在这里插入图片描述

假设TCP在一个带宽无限的通道上使用窗口最大值(64KB)进行传输，其平均往返时延为20毫秒，求其最大吞吐量。如果其平均往返时延为40毫秒，最大吞吐量又为多少？
带宽无限说明发送时延忽略。
最大吞吐量=每秒发送数据次数×最大窗口。
平均往返时延20毫秒，每秒发送数据次数=1÷20×10⁻³=50次
最大窗口等于64KB，吞吐量单位为bit/s
所以最大吞吐量为50×64×1024×8=26214400bit/s
26214.4Kbit/s
26.2 Mbit/s
同理平均往返时延为40毫秒时，每秒发送数据次数=1÷40×10⁻³=25次
最大吞吐量为
25×64×1024×8=13.1Mbit/s
在这里插入图片描述

标签：大数据网络

本文转载自: https://blog.csdn.net/qq_43310767/article/details/134995868
版权归原作者 qq_43310767 所有，如有侵权，请联系我们删除。

大数据和网络复习

发表评论

“大数据和网络复习”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航