【Linux网络】网络应用层的 http 和 https协议网站首页 技术教程

【Linux网络】网络应用层的 http 和 https协议

Ahao_te 2023-07-14 09:15:43

简介【Linux网络】网络应用层的 http 和 https协议

文章目录

1、http协议

在之前学习序列化和反序列化的时候，认识到主机之间传输结构数据的时候，最好是通过某种约定将结构数据序列化成一串字符串，接收方再通过反序列化将字符串转换成结构数据。以上说的这种约定，其实可以看成是用户层通信的一种协议，是由程序猿自己定的。

实际上，已经有很多大佬写了很多很好的应用层上的协议供我们参考学习。http协议（超文本传输协议）就是其中一个。

1.1 认识URL

早期的网址是用http协议的，不过经过长时间的技术发展后，目前网址一般都是用https协议的。
不过得先认识http，这样才能更好了解https。

下面就是一种网址格式。

在这里插入图片描述

实际上，目前的URL普遍省略了以下部分：
登录信息（一般都用一个可以互动的窗口让用户填写）
端口号（端口号被缺省了，因为每个协议所有的端口号被固定了，比如http：80，https：443）

那么URL究竟是个什么呢？
URL（uniform Resource Locator）又被称为统一资源定位符，顾名资源定位符，在互联网上用来标识和定位资源的一种文本字符串。URL可以帮助我们快速定位到网络上的不同资源。（比如网页、图片、视频等）

URL如何做到？
在URL中，http协议指定了如何访问资源，服务器地址（也称域名，域名是可以转换成IP地址的）标识了互联网上主机的唯一性，因此再通过特定端口，就可以访问到特定的服务端进行连接。可以看到URL上还有带层次的文件路径，没错，服务端一般是在Linux系统上搭建的，这就是需要访问的linux服务器的资源文件路径。

值得注意的是，这个文件路径不是简单的在服务器上的绝对路径的，而是大多数情况下，服务端进程（Web服务器）会将请求的URL映射到服务端的文件系统路径。例如，如果基础路径是服务端上的目录/wwwroot，请求的URL是“index.html”，那么请求的资源文件路径就是/wwwroot/index.html。

urlencode和urldecode
可以看到像/ ? : 这样的字符在URL中有特殊的含义，为了不让这些字符随意出现，如果参数中要有一些特殊字符就需要通过urlencode进行转义。
一些网站对于中文，也会进行转义，比如在bing中搜索C++，就变成了C%2B%2B。
在这里插入图片描述
unldecode就是逆过程。

转义的规则如下: 将需要转码的字符转为16进制，然后从右到左，取4位(不足4位直接处理)，每2位做一位，前面加上%，编码成%XY格式（比如‘+’的ASCII码是43，对应16进制就是2B）

1.2 http协议格式

http在被设计的时候也有着自己的格式。
在这里插入图片描述

任何协议的请求或接受都是报头+有效载荷。

其中请求部分

就是一个约定分隔符，代表每一行的结束。
请求报头中有着一些属性（具体的下面说），有效载荷中代表一些用户和服务端的交互数据。（比如登录信息、Up主上传的音频、视频）
读取完整报头时按行读取直到读取空行，空行的作用就是能代表报头读取完毕，接下来就是有效载荷部分。
如何保证读完正文呢？ 在报头中有一个记录正文长度的属性Content-Length。

其中响应方

http常用版本是http1.0和http1.1，可以看到客户端和服务端都有自己的版本，这也是为了服务端能根据版本信息去适配低版本客户端而有的。
状态码和状态码描述，可以代表响应的情况。（比如访问网页的404错误码和错误信息）
响应正文就是客户端需要拿到的资源。

下面通过一个在传输层以TCP协议传输的代码来体会一下。

#include <iostream>
#include <string>
#include <string.h>
#include <fstream>
#include <sys/socket.h>
#include <assert.h>
#include <stdarg.h>
#include <unistd.h>
#include <time.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <signal.h>
#include <pthread.h>

using namespace std;

#define CRLF "
"
#define SPACE " "
#define SPACE_LEN strlen(SPACE)
#define HOME_PAGE "index.html"
#define ROOT_PATH "wwwroot"

std::string getPath(std::string http_request)
{
    std::size_t pos = http_request.find(CRLF);
    if(pos == std::string::npos) return "";
    std::string request_line = http_request.substr(0, pos);
    //GET /a/b/c http/1.1
    std::size_t first = request_line.find(SPACE);
    if(pos == std::string::npos) return "";
    std::size_t second = request_line.rfind(SPACE);
    if(pos == std::string::npos) return "";

    std::string path = request_line.substr(first+SPACE_LEN, second - (first+SPACE_LEN));
    //当url为/时，不能代表获得全部资源，而是类似主页的index
    if(path.size() == 1 && path[0] == '/') path += HOME_PAGE;
    return path;
}

std::string readFile(const std::string &recource)
{
    std::ifstream in(recource, std::ifstream::binary);
    if(!in.is_open()) return "404";
    std::string content;
    std::string line;
    while(std::getline(in, line)) content += line;
    in.close();
    return content;
}


//http的请求 {method} 路径 版本
void handlerHttpRequest(int sock)
{
    //读取发送方信息
    char buffer[10240];
    ssize_t s = read(sock, buffer, sizeof buffer);
    if(s > 0) cout << buffer;

    //开始响应

    //获得资源在服务端下的地址
    std::string path = getPath(buffer);
    std::string recource = ROOT_PATH;
    recource += path;
    std::cout << recource << std::endl;

    //读取html资源（前端代码）
    std::string html = readFile(recource);

    //http响应方
    std::string response;
    //报头
    response = "HTTP/1.0 200 OK
";
    response += "Content-Type: text/html
";
    response += ("Content-Length: " + std::to_string(html.size()) + "
");
    response += "Set-Cookie: this is my cookie content;
";
    //空行
    response += "
";
    //回应正文
    response += html;

    //发送给客户端
    send(sock, response.c_str(), response.size(), 0);
}


class tcpServer
{
public:
    tcpServer() :_listenSock(-1), _quit(false)
    {}

    tcpServer(uint16_t port, const std::string& ip = "") 
        :_listenSock(-1)
        ,_serverPort(port)
        ,_serverIp(ip)
        ,_quit(false)
    {}

    ~tcpServer()
    {
        if(_listenSock >= 0)
            close(_listenSock);
    }

    void init()
    {
        //1、创建套接字
        _listenSock = socket(AF_INET, SOCK_STREAM, 0);
        if(_listenSock < 0)
        {
            exit(1);          
        }


        //2、bind服务器信息
        //2.1 填充服务器信息
        struct sockaddr_in server;
        //类似memset 清0
        bzero(&server, sizeof(server));
        //填写协议簇
        server.sin_family = PF_INET;
        //填写端口 因为是向网络中传输，所以要进行网络字节序的转换
        server.sin_port = htons(_serverPort);
        //填写IP 如果ip为空,设置为INADDR_ANY, 系统会帮忙填写
        server.sin_addr.s_addr = _serverIp.empty() ? INADDR_ANY : inet_addr(_serverIp.c_str());

        //2.2 bind 绑定
        if(bind(_listenSock, (const struct sockaddr*)&server, sizeof(server)) < 0)
        {
            exit(2);
        }

        //3、监听 获取连接 因为tcp是需要建立连接的,这一步相当于等待客户端请求连接
        if(listen(_listenSock, 5) < 0)
        {
            exit(3);
        }
    }

    void start()
    {
        while(!_quit)
        {
            //4.建立连接

            //客户端信息
            struct sockaddr_in peer;
            socklen_t peerLen = sizeof(peer);
            //accept返回一个文件描述符
            //_listenSock用来寻找连接
            //serviceSock用来建立连接
            //accept 将一个输出新参数传入，运行完后接收
            int serviceSock = accept(_listenSock, (struct sockaddr*)&peer, &peerLen);
            if(_quit)
            {
                break;
            }
            if(serviceSock < 0)
            {
                exit(4);
            }
            //至此服务器和客户端的连接建立完成

            //5.获取客户端信息
            //获取客户端ip
            std::string peerIp = inet_ntoa(peer.sin_addr);
            uint16_t peerPort = ntohs(peer.sin_port);
            signal(SIGCHLD, SIG_IGN);
            if(fork() == 0)
            {
                close(_listenSock);
                handlerHttpRequest(serviceSock);
                exit(0);
            }

            close(serviceSock);
        }
    }

    void quitServer()
    {
        _quit = true;
    }
private:
    //监听套接字
    int _listenSock;
    //端口
    uint16_t _serverPort;
    //ip
    std::string _serverIp;
    //安全退出
    bool _quit;
};

static void Usage(const std::string& proc)
{
    std::cout << "Usage:	
" << proc << " port : ip" << std::endl;
}

int main(int argc, char* argv[])
{
    if(argc != 2 && argc != 3)
    {
        Usage(argv[0]);
        exit(0);
    }

    std::string serviceIp;
    uint16_t servicePort;

    if(argc == 2)
    {
        servicePort = atoi(argv[1]);
    }

    if(argc == 3)
    {
        serviceIp = argv[2];
    }

    tcpServer ts(servicePort, serviceIp);
    ts.init();
    ts.start();
    return 0;
}

前端测试代码
基础路径是服务端前提下：/wwwroot/index.html
在这里插入图片描述

<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8">
    <title>测试</title>
</head>

<body>
    <h3>hello my server!</h3>
    <p>我终于测试完了我的代码</p>
    <form action="/a/b/c.html" method="get">
        Username: <input type="text" name="user"><br>
        Password: <input type="password" name="passwd"><br>
        <input type="submit" value="Submit">
    </form>
</body>

</html>

运行代码，通过浏览器输入IP和端口让浏览器以客户端的方式向服务端发送以下信息。

服务端收到数据以后，向客户端响应，就读取了对应的前端html代码。

Linux下的telnet命令
telnet命令，能够通过远程的，以协议方式登录某种服务。

当出现^]，就说明连接成功，就可以通过ctrl+] 然后回车，输入请求行信息，就可以获取响应端报头和有效载荷内容。

1.3 http的方法（GET和POST）

因为HTTP其它的方法不太常用。
这里只具体说GET和POST。

GET方法

可以注意到，在之前的前端代码中。method就是get。

method="get"

还是上面那个代码，在响应网站中输入账号和密码后，会发现一个这样的现象。
在这里插入图片描述
首先，404错误的出现肯定不是重点，因为我的代码没有提供确认按钮请求之后的响应。重点是这次URL中，账号和密码竟然出现在了参数部分。

是的，http中GET方法提交参数，会以明文的方式将我们对应的参数，拼接在URL中。

POST方法
其它都一样，只将method改为post。

method="post"

在这里插入图片描述
可以看到提交的参数放到了正文中。

GET和POST的比较

GET通过URL传参，POST通过正文传参。
GET方法传参不私密直接暴露出来，POST正文传参相对比较私密。（但是都不安全，通过抓包非常容易能得到）
GET方法传参一般传小数据，一般一些比较大的内容都通过POST方式传（文件、电影）

1.4 状态码

在这里插入图片描述

这里只关注这几个常见的和常用的
200代表客户端响应成功。
当因为客户端错误时，会有404(Not Found)无法访问，403(Forbidden)禁止访问。
当服务器错误，会有504(bad gateway)，错误的网关。

较为重要的是3XX重定向状态码。其中有301永久重定向和302临时重定向。

HTTP常见Header

Content-Type: 数据类型(text/html等)
Content-Length: Body的长度
Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;
User-Agent: 声明用户的操作系统和浏览器版本信息;(这个可以用在，比如用户在下载网页的时候，可以通过对不同的OS类型，率先提供匹配的下载版本。)
referer: 当前页面是从哪个页面跳转过来的;
location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;
Cookie: 用于在客户端存储少量信息. 通常用于实现会话(session)的功能;

重定向状态码
对应服务端两者每什么区别，区别是在客户端上的。
301:永久重定向，比如一个拥有很多客户的旧网站需要关闭更换新的网站，那么就可以通过这个永久重定向跳转到新的网站。这就需要客户记住新的网站，不过现在有些浏览器会记录经常访问的网站。
302:临时重定向，比如一些服务要升级，就可以临时重定向到一个新的网站，这个拷贝之前旧的服务，当服务升级完成后，就可以关闭这个临时重定向。这对客户不影响。

直接通过代码演示，将上述代码的处理函数改为以下。

void handlerHttpRequest(int sock)
{
    //读取发送方信息
    char buffer[10240];
    ssize_t s = read(sock, buffer, sizeof buffer);
    if(s > 0) cout << buffer;

    std::string response = "http/1.0 302 Movedtemporatily
";
    //填写location属性
    response += "Location: https://blog.csdn.net/Ahaooooooo
";
    response += "
";
    send(sock, response.c_str(), response.size(), 0);
}

通过浏览器输入ip:端口，结果也是成功返回到我的主页
在这里插入图片描述

1.5 cookie

其实http协议有一个特点是无状态。也就是http没有记录，要什么给什么。

不过我们经常会看到一个现象，就是我们登录网站时，在填写一次登录信息后，不管是关浏览器还是关机。下一次再登录网站时，就默认是登录状态了。这明显不符合http的特点。其实就是cookie策略在帮助记录的。

在这里插入图片描述

还是通过最开始的代码运行。

通过网站访问可以看到，cookie就是浏览器维护的文件，真正存在磁盘或者是一种内存级文件（这也符合那种关闭浏览器就需要重新登录的）
在这里插入图片描述

cookie的安全性问题
上述讨论简单传文件的是在http1.0中较为常见的。如果一些恶意软件将cookie软件找到，那么里面看到的就是裸露的数据，这就会造成安全性问题。（cookie这种机制也不止运用在浏览器，也会在一些软件中。）
因此现在主流的都是一种cookie+session的方案。
在这里插入图片描述

这让信息只放到了服务端，由产品公司进行保护，而公司相对于客户的安全能力肯定是更高的。

1.6 短连接和长连接

http在不同版本有不同的连接方式，在对应属性中有Connection字段，代表着不同连接。
http 1.0: closed 意为连接后响应一次就关闭对应文件描述符。
http 1.1: keep-alive 意为保持长连接，不用总是连接完再断开。

在这里插入图片描述

用户所看到的完整网页内容，背后可能是无数次http请求。http主流底层采用的是TCP协议！如果采用短连接，那么在底层tcp就会不断的进行3次握手和四次挥手（可以理解为连接和断开），这就会出现低效率问题。

长连接，对于多个请求访问，在一次连接时就可以都收到，并且为了防止出现顺序问题，也会通过一种Pipeline技术，使得依次响应。
其实http是无连接的，它只是借助了tcp建立连接的功能。因此http被称为一个超文本传输协议，是一个无状态无连接的应用层协议。

2、https协议

http因为其传输数据都是以明文方式进行传输的，因此在传输的过程中，是极有可能被第三方通过一些手段获取或更改数据，而造成数据安全问题的。
https通过在http的基础上添加了一层软件层：SSL/TLS加密协议，使得数据在传输的时候具有一定安全性。
在这里插入图片描述

http默认端口是80，https默认端口是443。
因此它们两个是两个不同的服务。
那么是不是https可以直接取代http了？
并不是，https因为需要加密解密的存在，肯定会导致效率更低的问题。因此在一些比较安全同时看重效率的场景下，http还是很有用的。

2.1 常见的加密方式

首先一个明文通过一个密钥的转换，就称为了一个密文。

对称加密: 采用单钥密码系统加密的方式，可同时用作信息加密和解密。（比如按位与 a^key = b, b^key = a），它的特点是计算量小，加密效率高。

非对称加密: 需要两个密钥来加密和解密。两个密钥分别是公钥和私钥。
用法除了正着用也可以反着用。它的特点是算法越复杂，安全性越高。因此相对于对称加密，加密速度非常慢。
在这里插入图片描述

数据摘要（也称数据指纹）: 原理是将数据通过一种单向散列函数（Hash函数）生成一串固定的长度的数据摘要。数据摘要不是一种加密算法，而是用来判断数据有没有被篡改。

数字签名： 数据摘要通过加密就得到了数字签名。（这个下面讲）

2.2 探究https协议的加密

因为数据安全问题，数据应该在加密之后以密文的方式在网络中进行传输，那么具体的方案，应该是什么样的呢？

方案一：只使用对称加密

方案二：只使用非对称加密
K代表公钥，K’代表私钥
在这里插入图片描述

方案三：只使用非对称加密

并且，前面说过非对称加密是非常影响效率的，因此如果考虑效率，这个方案也是绝对不行的。

方案四：非对称加密+对称加密
在这里插入图片描述
第四个方案，其实效率问题已经解决了，但是还是有密钥在传输的过程中被第三方篡改的问题。为了解决这个问题，就需要下面一个方案。

2.3 CA证书

服务器在使用https之前，需要向CA机构申领一份CA数字证书，数字证书里面含有证书申请者信息、公钥信息等。服务端将证书传给浏览器，浏览器从其中拿去公钥。证书像是一个服务端公钥的身份证，证明其权威性。
在这里插入图片描述

申请证书时，需要在特定的平台生成，并且会给一对密钥，也就是公钥和私钥，其中公钥会随着CA证书交给客户端，服务端自己保存私钥。