一.HTTP协议

虽然我们说, 应用层协议是我们程序猿自己定的. 但实际上, 已经有大佬们定义了一些现成的, 又非常好用的应用层协议, 供我们直接参考使用. HTTP(超文本传输协议) 就是其中之一。

HTTP定义：超文本传输协议，是一个无链接，无状态的应用层协议。

1.认识URL

平时我们俗称的 "网址" 其实就是说的 URL。

URL：统一资源定位服务（unit resource locate），用于在互联网中定位某种资源

https://www.baidu.com/ https://www.qq.com/

（1）域名->必须被转化成为IP

因为网络通信的本质: socket, IP+ port，所以（服务器地址）域名->必须被转化成为IP；访问网络服务,服务端必须具有port

（2）URL中可以省略的部分

①端口号可缺省

使用确定协议的时候，一般显示的时候，会缺省端口号：

浏览器访问指定的url的时候，浏览器或app必须给我们自动添加port
浏览器如何得知，url匹配的port是谁呢?——特定的众所周知服务，端口号必须是确定的! !
httpserver—> 80
httpsServer—>443 sshd—> 22
用户自己写的网络服务bind端口的范围：[1024,n]；因为前1023个是给httpserver这些服务的

②登录信息可以省略

登录信息我们一般放在页面上登录，一般不放在URL中，所以可以省略。

③当我们访问自己的服务器时，https可省略，端口号不可省

当我们访问自己的服务器时，只需要IP+port：120.78.126.148:8080

https可省略，因为默认会选择https协议；登录信息一般放在页面上登录也可以省略；端口号不可省因为服务是我们自己写的，并不是众所周知服务。

（3）特定的服务与特定端口的关系

——>警察与 110；抢救服务与 120；火警灭火服务与 119

（4）http协议是做什么的?

答：用于查阅文档，看音视频，这些都是以网页的形式呈现的。网页实际就是一个 .htmI文件
** http用途：获取网页资源的**，视频，音频等也都是文件！
解释：http是向特定的服务器申请特定的”资源”的，把资源获取到本地（本地可以是浏览器/app/迅雷播放器）进行展示或者某种使用的!

（5）如果我们client没有获取的时候，资源在网络服务器上

就在你的网络服务器(软件)所在的服务器(硬件，计算机)上

（6）资源文件在Linux服务器上

服务器都是Linux系统的，这些资源都是文件，即资源文件在Linux服务器上。要打开资源文件，读取和发送会给客户端——前提：软件服务器，必须先找到这个文件! !

（7）Linux要如何找到这个文件呢？——通过路径！

/ 就是Linux下的路径分隔符!

https://new.qq.com/rain/a720230106A0fRHW00

2.**urlencode和urldecode **

像 / ? : 等这样的字符, 已经被url当做特殊意义理解了. 因此这些字符不能随意出现. 比如, 某个参数中需要带有这些特殊字符, 就必须先对特殊字符进行转义.

转义的规则如下:

将需要转码的字符转为16进制，然后从右到左，取4位(不足4位直接处理)，每2位做一位，前面加上%，编码成%XY

格式

二.http协议的请求格式

1.http协议的请求分为三部分（我们这里以四部分解析）

每行以 \r\n 结尾

（1）请求行

第一部分只有一行叫 请求行：包含了①请求方法 method。②url 一般省略了域名和端口，只有路径。③版本 http/1.1

注意：http协议请求时大小写是忽略的，例如请求行的 GET / HTTP/1.1 和get / http/1.1 都一样

（2）请求报头

第二部分包含多行内容叫 请求报头：每一行包含很多请求属性，都是KV形式的，例如 Key: value（注意:和value中间有空格）

（3）空行

第三部分只有一行叫空行：因为只包含了一个 \r\n ，用与做分隔符，把报头和有效载荷分离

（4）有效载荷

第四部分只有一行叫 有效载荷：包含了请求正文：①登陆账号和密码。②个人信息/音频/视频等等。
注意：前三部分（请求行，请求报头，空行）都为http协议的报头；有效载荷就是个人信息

<5>.请求实例

我们利用百度向我们的服务器发起一个请求：

然后我们的服务器仅仅把收到的请求打印出来如下：

因为我们这次请求没有请求正文，所以不显示正文。行下面是第二次请求，因为浏览器是多线程请求，会发送多次请求；或者请求失败会继续发送请求，所以我们会受到多次请求。

DEBUG| 16733361461 whb | accept: Invalid argument | 125. 76.203.191[5129]，socket fd: 4
125.76.203.191: 5129
GET / HTTP/1.1           
        ——GET:请求方法；/：是请求的资源。HTTP/1.1：（浏览器）版本
Host: 120. 78.126.148: 8080   
        ——要请求哪个主机，这个主机的IP和port
Connection: keep-alive        
        ——链接方式， keep-alive长链接
Cache- Control: max-age=0        
        ——#cache缓存-暂时不管
Upgrade- Insecure- Requests: 1    
        ——#协议升级-暂时不管
User- Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML， like Gecko) Chrome/108.0.0.0 Safari/537.3
        ——User- Agent浏览器版本
Accept: text/html,application/xhtml+xml,application/ xml;q=0.9,image/avif,image/webp , image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
        ——上面这个是可接受的资源种类
Accept- Encoding: gzip, deflate
        ——可接受的编码方式
Accept-Language: zh-CN, zh;q=0.9
        ——可接受的语言类型

2.http响应

也是每行以 \r\n 结尾

（1）响应行

第一部分只有一行叫响应行：包含了①版本 http/1.1。②状态码。（例如404报错，200代表OK）③状态码描述。（例如404对应的“Not Found”描述）

（2）响应报头

第二部分包含多行内容叫响应报头：每一行包含很多响应属性，都是KV形式的，例如 Key: value（注意:和value中间有空格）

（3）空行

第三部分只有一行叫空行：因为只包含了一个 \r\n ，用与做分隔符，把报头和有效载荷分离

（4）有效载荷

第四部分只有一行叫 有效载荷：包含了响应正文：①htm/css/js/图片视频音频，自定义信息等——资源

http协议构建一个请求，响应

3.send 写入函数

ssize_t send(int sockfd, const void *buf, size_t len, int flags);

把缓冲区buf中的len个长度数据写入 sockfd这个文件中，flags设为0，send和write函数等价

返回值：返回实际写入的字节数，错误返回-1错误码被设置

4.telnet 命令——远程以协议方式登录某服务

我们的服务器的响应内容：

（1）telnet请求服务器

先把./serverTcp 8080把服务器起来，然后telnet 127.0.0.1 8080，再 ctrl+]，输入请求 GET / http/1. 0 ，就可以得到服务器的响应信息

（2）百度上请求服务器

IP+端口，就能得到响应

三.http协议的响应，初步使用html

1.html

HTML 教程 | 菜鸟教程 (runoob.com)

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>菜鸟教程(runoob.com)</title>
</head>
<body>
    <h1>我的第一个标题</h1>
    <p>我的第一个段落。</p>
</body>
</html>

<!DOCTYPE html> 声明为 HTML5 文档
<html> 元素是 HTML 页面的根元素
<head> 元素包含了文档的元（meta）数据，如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title> 元素描述了文档的标题
<body> 元素包含了可见的页面内容
元素定义一个大标题
元素定义一个段落

2.响应内容，使用html

示例：

    HTTP/1.0 200 OK\r\n

     Content-Type 标定正文的类型

（1）

解释下面：

——"HTTP/1.0 200 OK\r\n"; HTTP/1.0 版本，200状态码表示通过，OK状态码描述
——"Content-Type: text/html\r\n" ; Content-Type内容类型，正文的类型是html文本类型。（text-文本类型）
——"\r\n"; 这是空行
——"<html>

hello bite

</html>\r\n"; 正文内容是hello bite，<html>……</html>是html网页的格式，

……

是使正文成为大标题。（可以搜索html教程学习）

（2）Content-Length 保证能读取到完整的正文

任何协议的request or response:
报头+有效载荷
①http如何保证自己的报头和有效载荷被全部读取呢?
——无论是请求还是响应，读取完整报头:按行读取，直到读取到空行上

②你又如何保证你能读取到完整的正文呢? ?
——报头能读取完毕，请求或者响应属性中”一定”要包含正文的长度!

response += ("Content-Length: " + std::to_string(html.size()) + "\r\n");

（3）把html和服务器工作解耦——readFile 要请求的资源

我要把特定的资源放到特定的目录下的文件中

①文件在哪里？ ——在请求的请求行中，第二个字段就是你要访问的文件。

例如：请求行：GET /a/b/c.html http/1.0 ，/a/b/c.html就是要访问的文件

②GET /a/b/c.html http/1.0 中的 / 是web目录，不是根目录

a前面的 / 不是根目录, web根目录，但可以设置成为根目录

path = "/a/b/index.html"; ——请求的人请求的文件路径
resource = "./wwwroot"; // 我们的web根目录，我们服务器内部给请求的路径自动加上前缀
resource += path; // ——> ./wwwroot/a/b/index.html

四.表单

1.我们的网络行为有两种

（1）我想把远端的资源拿到你的本地: GET /index.html http/1.1
（2）我们想把我们的属性字段，提交到远端，
提交到远端的两种方法：GET or POST
在HTTP中GET会以明文方式将我们对应的参数信息，拼接到url中

2.GET方法

**在HTTP中GET会以明文方式将我们对应的参数信息，拼接到url中 **

表单：

    <form action="/a/b/c.html" method="get">    
——action文件路径； method打开方法（忽略大小写）
        Username: <input type="text" name="user"><br>
——input：渲染成输入框。类型是"text"文本类型。字段名称是"user"
        Password: <input type="password" name="passwd"><br>
——类型是"password"密码类型。字段名称是"passwd"
        <input type="submit" value="Submit">
——按钮类型是"submit"，按钮名称是"Submit"
    </form>

3.POST方法

POST方法提交参数,会将参数以明文的方式，拼接到http的正文中来进行提交!

只需把method="get" 改成method="post"

4.GET Vs POST

GET通过url传参
POST通过正文传参
GET方法传参不私密（因为GET会把用户输入的有效信息用户名,密码等回显到浏览器）
POST方法因为通过正文传参，所以，相对比较私密一些（因为一些小白一般不会抓包看正文，所以相对私密）
GET通过url传参，POST通过正文传参，所以- -般- 些比较大的内容都是通过post方式传参的

5.代码

TCP服务器的工作：——————（回忆）

init()：①创建套接字。②填充服务器信息struct sockaddr_in。③将套接字和sockaddr_in 绑定bind。④socket设置为监听状态。

loop()：⑤accept获取链接并获取客户端IP和port。⑥提供服务，读取内容后完成转换写回。

TCP客户端的工作：①创建套接字。② connect 填充服务器信息后向服务器发起链接请求。③写入数据后读出服务器转化的数据

handlerHttpRequest 函数流程：

①read读取客户端发来的请求。②从客户端请求的请求行中拿出请求的文件路径。③文件路径加上web根目录。④读取路径对应文件中的内容。⑤保存后缀，为下面响应做准备。⑥开始响应：响应报头类型根据文本/图片添加。响应为：响应行+响应报头（包括正文类型，正文长度）+空行+响应正文

server.hpp

#pragma once
#include <iostream>
#include <fstream>
#include <string>
#include <vector>
#include <cstdio>
#include <cstring>
#include <signal.h>
#include <unistd.h>
#include <sys/socket.h>
#include <sys/stat.h>
#include <arpa/inet.h>
#include <netinet/in.h>
#include <sys/types.h>
#include <sys/wait.h>
#include <pthread.h>
#include <cerrno>
#include <cassert>

#define CRLF "\r\n"
#define SPACE " "
#define SPACE_LEN strlen(SPACE)
#define HOME_PAGE "index.html"
#define ROOT_PATH "wwwroot"

using namespace std;

std::string getPath(std::string http_request)
{
    std::size_t pos = http_request.find(CRLF);
    if(pos == std::string::npos) return "";
    std::string request_line = http_request.substr(0, pos);
    //GET /a/b/c http/1.1
    std::size_t first = request_line.find(SPACE);
    if(pos == std::string::npos) return "";
    std::size_t second = request_line.rfind(SPACE);
    if(pos == std::string::npos) return "";

    std::string path = request_line.substr(first+SPACE_LEN, second - (first+SPACE_LEN));
    if(path.size() == 1 && path[0] == '/') path += HOME_PAGE;   
若客户端请求的只有一个web根目录，web根目录下那么多资源，不可能全给客户。
所以我们需要加上 index.html，让他只能访问到首页。

    return path;
}

std::string readFile(const std::string &recource)
{
    std::ifstream in(recource, std::ifstream::binary);
    if(!in.is_open()) return "404";
    std::string content;
    std::string line;
    while(std::getline(in, line)) content += line;
    in.close();
    return content;
}
void handlerHttpRequest(int sock)
{
    char buffer[10240];
    ssize_t s = read(sock, buffer, sizeof buffer);
    if(s > 0) cout << buffer;
    std::string path = getPath(buffer);    从客户端请求的请求行中拿出请求的文件路径
    // path = "/a/b/index.html";
    // recource = "./wwwroot"; // 我们的web根目录
    // recource += path; // ./wwwroot/a/b/index.html
    // 1. 文件在哪里？ 在请求的请求行中，第二个字段就是你要访问的文件
    // 2. 如何读取
    std::string recource = ROOT_PATH;    
    recource += path;                    给客户端请求的文件路径加上web根目录
    std::cout << recource << std::endl;

    std::string html = readFile(recource);  读取recource这个路径对应文件中的内容
    std::size_t pos = recource.rfind(".");
    std::string suffix = recource.substr(pos);
    cout << suffix << endl;

    //开始响应
    std::string response;
    response = "HTTP/1.0 200 OK\r\n";    下面的if：若是图片，添加图片对应的文件后缀
    if(suffix == ".jpg") response += "Content-Type: image/jpeg\r\n";
    else response += "Content-Type: text/html\r\n";
    response += ("Content-Length: " + std::to_string(html.size()) + "\r\n");
    response += "\r\n";
    response += html;

    send(sock, response.c_str(), response.size(), 0);
}

class ServerTcp
{
public:
    ServerTcp(uint16_t port, const std::string &ip = "")
        : port_(port),
          ip_(ip),
          listenSock_(-1)
    {
        quit_ = false;
    }
    ~ServerTcp()
    {
        if (listenSock_ >= 0)    爷爷进程用listenSock_接客，最后还要关掉监听套接字
            close(listenSock_);
    }

public:
    void init()
    {
        // 1. 创建socket
        listenSock_ = socket(PF_INET, SOCK_STREAM, 0);
        if (listenSock_ < 0)
        {
            exit(1);
        }
        // 2. bind绑定
        // 2.1 填充服务器信息
        struct sockaddr_in local; // 用户栈
        memset(&local, 0, sizeof local);
        local.sin_family = PF_INET;
        local.sin_port = htons(port_);
        ip_.empty() ? (local.sin_addr.s_addr = INADDR_ANY) : (inet_aton(ip_.c_str(), &local.sin_addr));
        // 2.2 本地socket信息，写入sock_对应的内核区域
        if (bind(listenSock_, (const struct sockaddr *)&local, sizeof local) < 0)
        {
            exit(2);
        }

        // 3. 监听socket，为何要监听呢？tcp是面向连接的！
        if (listen(listenSock_, 5 /*后面再说*/) < 0)
        {
            exit(3);
        }
        // 运行别人来连接你了
    }
    void loop()
    {
        signal(SIGCHLD, SIG_IGN); // only Linux
        while (!quit_)
        {
            struct sockaddr_in peer;
            socklen_t len = sizeof(peer);

            int serviceSock = accept(listenSock_, (struct sockaddr *)&peer, &len);
            if (quit_)
                break;
            if (serviceSock < 0)
            {
                // 获取链接失败
                cerr << "accept error ...." << endl;
                continue;
            }
            // 5.1 v1 版本 -- 多进程版本 -- 父进程打开的文件会被子进程继承吗？会的
            pid_t id = fork();
            assert(id != -1);
            if(id == 0)
            {
                close(listenSock_); //建议
                if(fork() > 0) exit(0);
                //孙子进程
                handlerHttpRequest(serviceSock);
                exit(0); // 进入僵尸
            }
            close(serviceSock);
            wait(nullptr);
        }
    }

    bool quitServer()
    {
        quit_ = true;
        return true;
    }

private:
    // sock
    int listenSock_;
    // port
    uint16_t port_;
    // ip
    std::string ip_;
    // 安全退出
    bool quit_;
};

index.html

<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8">
    <title>104 期测试</title>
</head>

<body>
    <h3>hello my server!</h3>
    <p>我终于测试完了我的代码</p>
    <form action="/a/b/c.html" method="post">
        Username: <input type="text" name="user"><br>
        Password: <input type="password" name="passwd"><br>
        <input type="submit" value="Submit">
    </form>
    <!-- <img border="0" src="https://img1.baidu.com/it/u=1691233364,820181697&fm=253&fmt=auto&app=138&f=JPEG?w=889&h=500" alt="Pulpit rock" width="304" height="228"> -->
</body>

</html>

五.HTTP的方法与状态码

1.HTTP的方法

其中最常用的就是GET方法和POST方法

2.HTTP的状态码

最常见的状态码, 比如 200(OK)成功，404(Not Found)客户端错误，403(Forbidden)，302(Redirect, 重定向)重定向，504(Bad Gateway)

4XX：客户端错误——>客户请求了不存在的资源，即客户提出了无理的要求，是客户的错。

5XX：服务器错误——>服务器代码中的内容错误，例如fork错误，就会返回5XX

（这里我们主要关注3XX）

response 结构图

六.HTTP常见Header

Content-Type: 数据类型(text/html等)

Content-Length: Body的长度

Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;

User-Agent: 声明用户的操作系统和浏览器版本信息;

referer: 当前页面是从哪个页面跳转过来的;

Location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;

Set-Cookie: 用于在客户端存储少量信息. 通常用于实现会话(session)的功能;

1.Location 重定向

301 代表永久重定向/永久性转移 (Permanently Moved) ；302 代表暂时重定向/暂时性转移(Temporarily Moved )

区别：一个网站1如果临时不想被访问就用 302 暂时重定向重定向到网站2；一个网站1如果永久不想被访问就用 301 永久重定向重定向到网站2；

下面我们服务器的响应报头中请求属性加上Location重定向，我们在百度上url：124.71.81.109:8080 请求服务器时，会跳转到qq这个网站。

2.Cookie

（1）介绍

http协议特点之一：无状态（用户的请求行为，http协议本身这个网络通信不做记录，但http协议会采取周边策略去保持会话）
用户需要一个功能：会话保持（登录后一段时间访问资源不需要再登录）
一旦登陆，会有各种会话保持的策略——cookie

cookie：浏览器维护的文件（保存着用户名&&密码）
两种状态：①真正的存在磁盘。②内存级

（2）cookie登录策略（不安全的简单策略）

①从客户端向服务器输入我们的用户名和密码——>②服务器把 cookie用户名&&密码返回给客户端——>③客户端下次登录自动携带浏览器访问该网站对应的cookie文件中的内容，这样就能保持登录。

这样有安全隐患：当你下载了木马病毒，你的cookie用户名密码会被盗取，黑客会拿着你的cookie去登录，更严重的是黑客会修改你的cookie密码对账号产生威胁。

（3）cookie+session 登录策略（安全策略）

服务器形成的session文件：用户的临时私密信息，保存在这个文件中。
自动形成session文件的文件名叫session_id(文件名具备唯一性)

从客户端向服务器输入我们的用户名和密码——>服务器认证并形成session文件，用户的私密信息放在服务端的session文件中——>给客户端返回session_id——>将session_ id写入到本地的cookie中——>客户端下次登录携带session_id，服务端找到session_id对应文件即可登录。

安全隐患减少了：

** ①损失小**：黑客可能会在客户端盗取session_id，拿着session_id去登录，但至少户名&&密码是安全的，不会被改密码

** ②服务端有防范措施**：服务器受到攻击怎么办？——大公司的服务端有能力防范；也有反诈陷阱，设置陷阱反向搜集黑客的信息，钓鱼执法。

3. Connection

（1）Connection: closed —— 短链接（http/1.0）

短链接一次只能处理一条http请求

用户所看到的完整的网页内容——背后可能是无数次http请求，每个图片就是一个文件，就需要一次请求
http底层主流采用的就是tcp协议，每处理一次请求就会进行一次三次握手与四次挥手链接；一个网页有上百次http请求，就要进行上百次的三次握手与四次挥手。则短链接不再适用。

（2）Connection: keep-aliye —— 长链接（http/1.1）

双方都同意采用长链接方案时，请求和响应中都携带了 Connection: keep-aliye ，客户端建立一个tcp链接，这一个tcp链接发送多次http请求，服务器接收后通过这个链接返回给客户端多次响应，当所有响应全部返回，此链接才断开。不用再向短链接那样重复建立链接了，大大提高了效率。

http协议无链接解释：

HTTP定义：超文本传输协议，是一个无链接，无状态的应用层协议。

http协议底层是tcp，tcp是面向链接的，http只是使用了tcp的链接能力，但是http本身是无链接的。

标签：网络 linux http

本文转载自: https://blog.csdn.net/zhang_si_hang/article/details/128634962
版权归原作者 beyond.myself 所有，如有侵权，请联系我们删除。

linux篇【14】：网络http协议

一.HTTP协议

*1.认识***URL **

（1）域名->必须被转化成为IP

（2）URL中可以省略的部分

①端口号可缺省

②登录信息可以省略

③当我们访问自己的服务器时，https可省略，端口号不可省

（3）特定的服务 与 特定端口 的关系

（4）http协议是做什么的?

（5）如果我们client没有获取的时候，资源在网络服务器上

（6）资源文件在Linux服务器上

（7）Linux要如何找到这个文件呢？——通过路径！

2.*urlencode和*urldecode **

二.http协议的请求格式

1.http协议的请求 分为三部分（我们这里以四部分解析）

（1）请求行

（2）请求报头

（3）空行

（4）有效载荷

<5>.请求实例

2.http响应

（1）响应行

（2）响应报头

（3）空行

（4）有效载荷

3.send 写入函数

4.telnet 命令——远程以协议方式登录某服务

（1）telnet请求服务器

（2）百度上请求服务器

三.http协议的响应，初步使用html

1.html

元素定义一个大标题

2.响应内容，使用html

（1）

hello bite

……

（2）Content-Length 保证能读取到完整的正文

（3）把html和服务器工作解耦——readFile 要请求的资源

①文件在哪里？ ——在请求的请求行中，第二个字段就是你要访问的文件 。

②GET** /**a/b/c.html http/1.0 中的 / 是web目录，不是根目录

四.表单

1.我们的网络行为有两种

2.GET方法

表单：

3.POST方法

4.GET Vs POST

5.代码

handlerHttpRequest 函数流程：

server.hpp

index.html

五.HTTP的方法与状态码

1.HTTP****的方法

*2.HTTP***的状态码 **

六.HTTP常见Header

1.Location 重定向

2.Cookie

（1）介绍

（2）cookie登录策略（不安全的简单策略）

（3）cookie+session 登录策略（安全策略）

3. Connection

（1）Connection: closed —— 短链接（http/1.0）

（2）Connection: keep-aliye —— 长链接（http/1.1）

http协议无链接解释：

发表评论

“linux篇【14】：网络http协议”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

1.认识URL

（3）特定的服务与特定端口的关系

2.**urlencode和urldecode **

1.http协议的请求分为三部分（我们这里以四部分解析）

①文件在哪里？ ——在请求的请求行中，第二个字段就是你要访问的文件。

②GET /a/b/c.html http/1.0 中的 / 是web目录，不是根目录

1.HTTP的方法

2.HTTP的状态码