一.HTTP协议
虽然我们说, 应用层协议是我们程序猿自己定的. 但实际上, 已经有大佬们定义了一些现成的, 又非常好用的应用层协议, 供我们直接参考使用. HTTP(超文本传输协议) 就是其中之一。
HTTP定义:超文本传输协议,是一个 无链接,无状态的应用层协议。
*1.认识***URL **
平时我们俗称的 "网址" 其实就是说的 URL。
URL:统一资源定位服务(unit resource locate),用于在互联网中定位某种资源
https://www.baidu.com/ https://www.qq.com/
(1)域名->必须被转化成为IP
因为网络通信的本质: socket, IP+ port,所以(服务器地址)域名->必须被转化成为IP;访问网络服务,服务端必须具有port
(2)URL中可以省略的部分
①端口号可缺省
使用确定协议的时候,一般显示的时候,会缺省端口号:
浏览器访问指定的url的时候,浏览器或app必须给我们自动添加port
浏览器如何得知,url匹配的port是谁呢?——特定的众所周知服务,端口号必须是确定的! !
httpserver—> 80
httpsServer—>443 sshd—> 22
用户自己写的网络服务bind端口的范围:[1024,n];因为前1023个是给httpserver这些服务的
②登录信息可以省略
登录信息我们一般放在页面上登录,一般不放在URL中,所以可以省略。
③当我们访问自己的服务器时,https可省略,端口号不可省
当我们访问自己的服务器时,只需要IP+port:120.78.126.148:8080
https可省略,因为默认会选择https协议;登录信息一般放在页面上登录也可以省略;端口号不可省因为服务是我们自己写的,并不是众所周知服务。
(3)特定的服务 与 特定端口 的关系
——>警察 与 110;抢救服务 与 120;火警灭火服务 与 119
(4)http协议是做什么的?
答:用于查阅文档,看音视频,这些都是以网页的形式呈现的。网页实际就是一个 .htmI文件
** http用途:获取网页资源的**,视频,音频等也都是文件!
解释:http是向特定的服务器申请特定的”资源”的,把资源获取到本地(本地可以是浏览器/app/迅雷播放器)进行展示或者某种使用的!
(5)如果我们client没有获取的时候,资源在网络服务器上
就在你的网络服务器(软件)所在的服务器(硬件,计算机)上
(6)资源文件在Linux服务器上
服务器都是Linux系统的,这些资源都是文件,即资源文件在Linux服务器上。要打开资源文件,读取和发送会给客户端——前提:软件服务器,必须先找到这个文件! !
(7)Linux要如何找到这个文件呢?——通过路径!
/ 就是Linux下的路径分隔符!
https://new.qq.com/rain/a720230106A0fRHW00
2.*urlencode和*urldecode **
像 / ? : 等这样的字符, 已经被url当做特殊意义理解了. 因此这些字符不能随意出现. 比如, 某个参数中需要带有这些特殊字符, 就必须先对特殊字符进行转义.
转义的规则如下:
将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY
格式
二.http协议的请求格式
1.http协议的请求 分为三部分(我们这里以四部分解析)
每行以 \r\n 结尾
(1)请求行
第一部分只有一行叫 请求行:包含了①请求方法 method。②url 一般省略了域名和端口,只有路径。③版本 http/1.1
注意:http协议请求时大小写是忽略的,例如请求行的 GET / HTTP/1.1 和get / http/1.1 都一样
(2)请求报头
第二部分包含多行内容叫 请求报头:每一行包含很多请求属性,都是KV形式的,例如 Key: value(注意:和value中间有空格)
(3)空行
第三部分只有一行叫 空行:因为只包含了一个 \r\n ,用与做分隔符,把报头和有效载荷分离
(4)有效载荷
第四部分只有一行叫 有效载荷:包含了请求正文:①登陆账号和密码。②个人信息/音频/视频等等。
注意:前三部分(请求行,请求报头,空行)都为http协议的报头;有效载荷就是个人信息
<5>.请求实例
我们利用百度向我们的服务器发起一个请求:
然后我们的服务器仅仅把收到的请求打印出来如下:
因为我们这次请求没有请求正文,所以不显示正文。行下面是第二次请求,因为浏览器是多线程请求,会发送多次请求;或者请求失败会继续发送请求,所以我们会受到多次请求。
DEBUG| 16733361461 whb | accept: Invalid argument | 125. 76.203.191[5129],socket fd: 4
125.76.203.191: 5129
GET / HTTP/1.1
——GET:请求方法;/:是请求的资源。HTTP/1.1:(浏览器)版本
Host: 120. 78.126.148: 8080
——要请求哪个主机,这个主机的IP和port
Connection: keep-alive
——链接方式, keep-alive长链接
Cache- Control: max-age=0
——#cache缓存-暂时不管
Upgrade- Insecure- Requests: 1
——#协议升级-暂时不管
User- Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.3
——User- Agent浏览器版本
Accept: text/html,application/xhtml+xml,application/ xml;q=0.9,image/avif,image/webp , image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
——上面这个是可接受的资源种类
Accept- Encoding: gzip, deflate
——可接受的编码方式
Accept-Language: zh-CN, zh;q=0.9
——可接受的语言类型
2.http响应
也是每行以 \r\n 结尾
(1)响应行
第一部分只有一行叫 响应行:包含了①版本 http/1.1。②状态码。(例如404报错,200代表OK)③状态码描述。(例如404对应的“Not Found”描述)
(2)响应报头
第二部分包含多行内容叫 响应报头:每一行包含很多响应属性,都是KV形式的,例如 Key: value(注意:和value中间有空格)
(3)空行
第三部分只有一行叫 空行:因为只包含了一个 \r\n ,用与做分隔符,把报头和有效载荷分离
(4)有效载荷
第四部分只有一行叫 有效载荷:包含了响应正文:①htm/css/js/图片视频音频,自定义信息等——资源
http协议构建一个请求,响应
3.send 写入函数
ssize_t send(int sockfd, const void *buf, size_t len, int flags);
把缓冲区buf中的len个长度数据写入 sockfd这个文件中,flags设为0,send和write函数等价
返回值:返回实际写入的字节数,错误返回-1错误码被设置
4.telnet 命令——远程以协议方式登录某服务
我们的服务器的响应内容:
(1)telnet请求服务器
先把./serverTcp 8080把服务器起来,然后telnet 127.0.0.1 8080,再 ctrl+],输入请求 GET / http/1. 0 ,就可以得到服务器的响应信息
(2)百度上请求服务器
IP+端口,就能得到响应
三.http协议的响应,初步使用html
1.html
HTML 教程 | 菜鸟教程 (runoob.com)
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p>我的第一个段落。</p>
</body>
</html>
- <!DOCTYPE html> 声明为 HTML5 文档
- <html> 元素是 HTML 页面的根元素
- <head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
- <title> 元素描述了文档的标题
- <body> 元素包含了可见的页面内容
- 元素定义一个大标题
- 元素定义一个段落
2.响应内容,使用html
示例:
HTTP/1.0 200 OK\r\n
Content-Type 标定正文的类型
(1)
解释下面:
——"HTTP/1.0 200 OK\r\n"; HTTP/1.0 版本,200状态码表示通过,OK状态码描述
——"Content-Type: text/html\r\n" ; Content-Type内容类型,正文的类型是html文本类型。(text-文本类型)
——"\r\n"; 这是空行
——"<html>
hello bite
</html>\r\n"; 正文内容是hello bite,<html>……</html>是html网页的格式,……
是使正文成为大标题。(可以搜索html教程学习)
(2)Content-Length 保证能读取到完整的正文
任何协议的request or response:
报头+有效载荷
①http如何保证自己的报头和有效载荷被全部读取呢?
——无论是请求还是响应,读取完整报头:按行读取,直到读取到空行上
②你又如何保证 你能读取到完整的正文呢? ?
——报头能读取完毕,请求或者响应属性中”一定”要包含正文的长度!
response += ("Content-Length: " + std::to_string(html.size()) + "\r\n");
(3)把html和服务器工作解耦——readFile 要请求的资源
我要把特定的资源放到特定的目录下的文件中
①文件在哪里? ——在请求的请求行中,第二个字段就是你要访问的文件 。
例如:请求行:GET /a/b/c.html http/1.0 ,/a/b/c.html就是要访问的文件
②GET** /**a/b/c.html http/1.0 中的 / 是web目录,不是根目录
a前面的 / 不是根目录, web根目录,但可以设置成为根目录
path = "/a/b/index.html"; ——请求的人请求的文件路径
resource = "./wwwroot"; // 我们的web根目录,我们服务器内部给请求的路径自动加上前缀
resource += path; // ——> ./wwwroot/a/b/index.html
四.表单
1.我们的网络行为有两种
(1)我想把远端的资源拿到你的本地: GET /index.html http/1.1
(2)我们想把我们的属性字段,提交到远端,
提交到远端的两种方法:GET or POST
在HTTP中GET会以明文方式将我们对应的参数信息,拼接到url中
2.GET方法
**在HTTP中GET会以明文方式将我们对应的参数信息,拼接到url中 **
表单:
<form action="/a/b/c.html" method="get">
——action文件路径; method打开方法(忽略大小写)
Username: <input type="text" name="user"><br>
——input:渲染成输入框。类型是"text"文本类型。字段名称是"user"
Password: <input type="password" name="passwd"><br>
——类型是"password"密码类型。字段名称是"passwd"
<input type="submit" value="Submit">
——按钮类型是"submit",按钮名称是"Submit"
</form>
3.POST方法
POST方法提交参数,会将参数以明文的方式,拼接到http的正文中来进行提交!
只需把method="get" 改成method="post"
4.GET Vs POST
- GET通过url传参
- POST通过正文传参
- GET方法传参不私密(因为GET会把用户输入的有效信息用户名,密码等回显到浏览器)
- POST方法因为通过正文传参,所以,相对比较私密一些(因为一些小白一般不会抓包看正文,所以相对私密)
- GET通过url传参,POST通过正文传参,所以- -般- 些比较大的内容都是通过post方式传参的
5.代码
TCP服务器的工作:——————(回忆)
init():①创建套接字。②填充服务器信息struct sockaddr_in。③将套接字和sockaddr_in 绑定bind。④socket设置为监听状态。
loop():⑤accept获取链接并获取客户端IP和port。⑥提供服务,读取内容后完成转换写回。
TCP客户端的工作:①创建套接字。② connect 填充服务器信息后向服务器发起链接请求。③写入数据后读出服务器转化的数据
handlerHttpRequest 函数流程:
①read读取客户端发来的请求。②从客户端请求的请求行中拿出请求的文件路径。③文件路径加上web根目录。④读取路径对应文件中的内容。⑤保存后缀,为下面响应做准备。⑥开始响应:响应报头类型根据文本/图片添加。响应为:响应行+响应报头(包括正文类型,正文长度)+空行+响应正文
server.hpp
#pragma once
#include <iostream>
#include <fstream>
#include <string>
#include <vector>
#include <cstdio>
#include <cstring>
#include <signal.h>
#include <unistd.h>
#include <sys/socket.h>
#include <sys/stat.h>
#include <arpa/inet.h>
#include <netinet/in.h>
#include <sys/types.h>
#include <sys/wait.h>
#include <pthread.h>
#include <cerrno>
#include <cassert>
#define CRLF "\r\n"
#define SPACE " "
#define SPACE_LEN strlen(SPACE)
#define HOME_PAGE "index.html"
#define ROOT_PATH "wwwroot"
using namespace std;
std::string getPath(std::string http_request)
{
std::size_t pos = http_request.find(CRLF);
if(pos == std::string::npos) return "";
std::string request_line = http_request.substr(0, pos);
//GET /a/b/c http/1.1
std::size_t first = request_line.find(SPACE);
if(pos == std::string::npos) return "";
std::size_t second = request_line.rfind(SPACE);
if(pos == std::string::npos) return "";
std::string path = request_line.substr(first+SPACE_LEN, second - (first+SPACE_LEN));
if(path.size() == 1 && path[0] == '/') path += HOME_PAGE;
若客户端请求的只有一个web根目录,web根目录下那么多资源,不可能全给客户。
所以我们需要加上 index.html,让他只能访问到首页。
return path;
}
std::string readFile(const std::string &recource)
{
std::ifstream in(recource, std::ifstream::binary);
if(!in.is_open()) return "404";
std::string content;
std::string line;
while(std::getline(in, line)) content += line;
in.close();
return content;
}
void handlerHttpRequest(int sock)
{
char buffer[10240];
ssize_t s = read(sock, buffer, sizeof buffer);
if(s > 0) cout << buffer;
std::string path = getPath(buffer); 从客户端请求的请求行中拿出请求的文件路径
// path = "/a/b/index.html";
// recource = "./wwwroot"; // 我们的web根目录
// recource += path; // ./wwwroot/a/b/index.html
// 1. 文件在哪里? 在请求的请求行中,第二个字段就是你要访问的文件
// 2. 如何读取
std::string recource = ROOT_PATH;
recource += path; 给客户端请求的文件路径加上web根目录
std::cout << recource << std::endl;
std::string html = readFile(recource); 读取recource这个路径对应文件中的内容
std::size_t pos = recource.rfind(".");
std::string suffix = recource.substr(pos);
cout << suffix << endl;
//开始响应
std::string response;
response = "HTTP/1.0 200 OK\r\n"; 下面的if:若是图片,添加图片对应的文件后缀
if(suffix == ".jpg") response += "Content-Type: image/jpeg\r\n";
else response += "Content-Type: text/html\r\n";
response += ("Content-Length: " + std::to_string(html.size()) + "\r\n");
response += "\r\n";
response += html;
send(sock, response.c_str(), response.size(), 0);
}
class ServerTcp
{
public:
ServerTcp(uint16_t port, const std::string &ip = "")
: port_(port),
ip_(ip),
listenSock_(-1)
{
quit_ = false;
}
~ServerTcp()
{
if (listenSock_ >= 0) 爷爷进程用listenSock_接客,最后还要关掉监听套接字
close(listenSock_);
}
public:
void init()
{
// 1. 创建socket
listenSock_ = socket(PF_INET, SOCK_STREAM, 0);
if (listenSock_ < 0)
{
exit(1);
}
// 2. bind绑定
// 2.1 填充服务器信息
struct sockaddr_in local; // 用户栈
memset(&local, 0, sizeof local);
local.sin_family = PF_INET;
local.sin_port = htons(port_);
ip_.empty() ? (local.sin_addr.s_addr = INADDR_ANY) : (inet_aton(ip_.c_str(), &local.sin_addr));
// 2.2 本地socket信息,写入sock_对应的内核区域
if (bind(listenSock_, (const struct sockaddr *)&local, sizeof local) < 0)
{
exit(2);
}
// 3. 监听socket,为何要监听呢?tcp是面向连接的!
if (listen(listenSock_, 5 /*后面再说*/) < 0)
{
exit(3);
}
// 运行别人来连接你了
}
void loop()
{
signal(SIGCHLD, SIG_IGN); // only Linux
while (!quit_)
{
struct sockaddr_in peer;
socklen_t len = sizeof(peer);
int serviceSock = accept(listenSock_, (struct sockaddr *)&peer, &len);
if (quit_)
break;
if (serviceSock < 0)
{
// 获取链接失败
cerr << "accept error ...." << endl;
continue;
}
// 5.1 v1 版本 -- 多进程版本 -- 父进程打开的文件会被子进程继承吗?会的
pid_t id = fork();
assert(id != -1);
if(id == 0)
{
close(listenSock_); //建议
if(fork() > 0) exit(0);
//孙子进程
handlerHttpRequest(serviceSock);
exit(0); // 进入僵尸
}
close(serviceSock);
wait(nullptr);
}
}
bool quitServer()
{
quit_ = true;
return true;
}
private:
// sock
int listenSock_;
// port
uint16_t port_;
// ip
std::string ip_;
// 安全退出
bool quit_;
};
index.html
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>104 期测试</title>
</head>
<body>
<h3>hello my server!</h3>
<p>我终于测试完了我的代码</p>
<form action="/a/b/c.html" method="post">
Username: <input type="text" name="user"><br>
Password: <input type="password" name="passwd"><br>
<input type="submit" value="Submit">
</form>
<!-- <img border="0" src="https://img1.baidu.com/it/u=1691233364,820181697&fm=253&fmt=auto&app=138&f=JPEG?w=889&h=500" alt="Pulpit rock" width="304" height="228"> -->
</body>
</html>
五.HTTP的方法与状态码
1.HTTP****的方法
其中最常用的就是GET方法和POST方法
*2.HTTP***的状态码 **
最常见的状态码, 比如 200(OK)成功,404(Not Found)客户端错误,403(Forbidden),302(Redirect, 重定向)重定向,504(Bad Gateway)
4XX:客户端错误——>客户请求了不存在的资源,即客户提出了无理的要求,是客户的错。
5XX:服务器错误——>服务器代码中的内容错误,例如fork错误,就会返回5XX
(这里我们主要关注3XX)
response 结构图
六.HTTP常见Header
Content-Type: 数据类型(text/html等)
Content-Length: Body的长度
Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;
User-Agent: 声明用户的操作系统和浏览器版本信息;
referer: 当前页面是从哪个页面跳转过来的;
Location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;
Set-Cookie: 用于在客户端存储少量信息. 通常用于实现会话(session)的功能;
1.Location 重定向
301 代表 永久重定向/永久性转移 (Permanently Moved) ;302 代表 暂时重定向/暂时性转移(Temporarily Moved )
区别:一个网站1如果临时不想被访问就用 302 暂时重定向 重定向到网站2;一个网站1如果永久不想被访问就用 301 永久重定向 重定向到网站2;
下面我们服务器的响应报头中请求属性加上Location重定向,我们在百度上url:124.71.81.109:8080 请求服务器时,会跳转到qq这个网站。
2.Cookie
(1)介绍
http协议特点之一:无状态(用户的请求行为,http协议本身这个网络通信不做记录,但http协议会采取周边策略去保持会话)
用户需要一个功能:会话保持(登录后一段时间访问资源不需要再登录)
一旦登陆,会有各种会话保持的策略——cookie
cookie:浏览器维护的文件(保存着用户名&&密码)
两种状态:①真正的存在磁盘。②内存级
(2)cookie登录策略(不安全的简单策略)
①从客户端向服务器输入我们的用户名和密码——>②服务器把 cookie用户名&&密码返回给客户端——>③客户端下次登录 自动携带浏览器访问该网站对应的cookie文件中的内容,这样就能保持登录。
这样有安全隐患:当你下载了木马病毒,你的cookie用户名密码会被盗取,黑客会拿着你的cookie去登录,更严重的是黑客会修改你的cookie密码对账号产生威胁。
(3)cookie+session 登录策略(安全策略)
服务器形成的session文件:用户的临时私密信息,保存在这个文件中。
自动形成session文件的文件名叫session_id(文件名具备唯一性)
从客户端向服务器输入我们的用户名和密码——>服务器认证并形成session文件,用户的私密信息放在服务端的session文件中——>给客户端返回session_id——>将session_ id写入到本地的cookie中——>客户端下次登录 携带session_id,服务端找到session_id对应文件即可登录。
安全隐患减少了:
** ①损失小**:黑客可能会在客户端盗取session_id,拿着session_id去登录,但至少户名&&密码是安全的,不会被改密码
** ②服务端有防范措施**:服务器受到攻击怎么办?——大公司的服务端有能力防范;也有反诈陷阱,设置陷阱反向搜集黑客的信息,钓鱼执法。
3. Connection
(1)Connection: closed —— 短链接(http/1.0)
短链接一次只能处理一条http请求
用户所看到的完整的网页内容——背后可能是无数次http请求,每个图片就是一个文件,就需要一次请求
http底层主流采用的就是tcp协议,每处理一次请求就会进行一次 三次握手与四次挥手链接;一个网页有上百次http请求,就要进行上百次的 三次握手与四次挥手。则短链接不再适用。
(2)Connection: keep-aliye —— 长链接(http/1.1)
双方都同意采用长链接方案时,请求和响应中都携带了 Connection: keep-aliye ,客户端建立一个tcp链接,这一个tcp链接发送多次http请求,服务器接收后通过这个链接返回给客户端多次响应,当所有响应全部返回,此链接才断开。不用再向短链接那样重复建立链接了,大大提高了效率。
http协议无链接解释:
HTTP定义:超文本传输协议,是一个 无链接,无状态的应用层协议。
http协议底层是tcp,tcp是面向链接的,http只是使用了tcp的链接能力,但是http本身是无链接的。
版权归原作者 beyond.myself 所有, 如有侵权,请联系我们删除。