7、网络编程

基本概念

计算机为了联网,就必须规定通信协议,早期的计算机网络,都是由各厂商自己规定一套协议,IBM、Apple和Microsoft都有各自的网络协议,互不兼容,这就好比一群人有的说英语,有的说中文,有的说德语,说同一种语言的人可以交流,不同的语言之间就不行了。

为了把全世界的所有不同类型的计算机都连接起来,就必须规定一套全球通用的协议,为了实现互联网这个目标,互联网协议簇(Internet Protocol Suite)就是通用协议标准。Internet是由inter和net两个单词组合起来的,原意就是连接“网络”的网络,有了Internet,任何私有网络,只要支持这个协议,就可以联入互联网。

因为互联网协议包含了上百种协议标准,但是最重要的两个协议是TCP和IP协议,所以,大家把互联网的协议简称TCP/IP协议。

通信的时候,双方必须知道对方的标识,好比发邮件必须知道对方的邮件地址。互联网上每个计算机的唯一标识就是IP地址,类似123.123.123.123。如果一台计算机同时接入到两个或更多的网络,比如路由器,它就会有两个或多个IP地址,所以,IP地址对应的实际上是计算机的网络接口,通常是网卡。

IP协议负责把数据从一台计算机通过网络发送到另一台计算机。数据被分割成一小块一小块,然后通过IP包发送出去。由于互联网链路复杂,两台计算机之间经常有多条线路,因此,路由器就负责决定如何把一个IP包转发出去。IP包的特点是按块发送,途径多个路由,但不保证能到达,也不保证顺序到达。

internet-computers

IP地址实际上是一个32位整数(称为IPv4),以字符串表示的IP地址如192.168.0.1实际上是把32位整数按8位分组后的数字表示,目的是便于阅读。

IPv6地址实际上是一个128位整数,它是目前使用的IPv4的升级版,以字符串表示类似于2001:0db8:85a3:0042:1000:8a2e:0370:7334

TCP协议则是建立在IP协议之上的。TCP协议负责在两台计算机之间建立可靠连接,保证数据包按顺序到达。TCP协议会通过握手建立连接,然后,对每个IP包编号,确保对方按顺序收到,如果包丢掉了,就自动重发。

许多常用的更高级的协议都是建立在TCP协议基础上的,比如用于浏览器的HTTP协议、发送邮件的SMTP协议等。

一个TCP报文除了包含要传输的数据外,还包含源IP地址和目标IP地址,源端口和目标端口。

端口有什么作用?在两台计算机通信时,只发IP地址是不够的,因为同一台计算机上跑着多个网络程序。一个TCP报文来了之后,到底是交给浏览器还是QQ,就需要端口号来区分。每个网络程序都向操作系统申请唯一的端口号,这样,两个进程在两台计算机之间建立网络连接就需要各自的IP地址和各自的端口号。

一个进程也可能同时与多个计算机建立链接,因此它会申请很多端口。

Socket

python提供了两种Socket:

第一个是 Socket,它提供了标准的 BSD Sockets API。

第二个是 SocketServer, 它提供了服务器中心类,可以简化网络服务器的开发。

Socket类型

socket类型 描述
socket.AF_UNIX 只能够用于单一的Unix系统进程间通信
socket.AF_INET 服务器之间网络通信
socket.AF_INET6 IPv6
socket.SOCK_STREAM 流式socket , for TCP
socket.SOCK_DGRAM 数据报式socket , for UDP
socket.SOCK_RAW 原始套接字,普通的套接字无法处理ICMP、IGMP等网络报文,而SOCK_RAW可以;其次,SOCK_RAW也可以处理特殊的IPv4报文;此外,利用原始套接字,可以通过IP_HDRINCL套接字选项由用户构造IP头。
socket.SOCK_SEQPACKET 可靠的连续数据包服务
创建TCP Socket: s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
创建UDP Socket: s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

Socket函数

注意点:

1)TCP发送数据时,已建立好TCP连接,所以不需要指定地址。UDP是面向无连接的,每次发送要指定是发给谁。

2)服务端与客户端不能直接发送列表,元组,字典。需要字符串化repr(data)

socket函数 描述
服务端socket函数
s.bind(address) 将套接字绑定到地址, 在AF_INET下,以元组(host,port)的形式表示地址,也可用于客户端
s.listen(backlog) 开始监听TCP传入连接。backlog指定在拒绝连接之前,操作系统可以挂起的最大连接数量。该值至少为1,大部分应用程序设为5就可以了。
s.accept() 接受TCP连接并返回(conn,address),其中conn是新的套接字对象,可以用来接收和发送数据。address是连接客户端的地址。
客户端socket函数
s.connect(address) 连接到address处的套接字。一般address的格式为元组(hostname,port),如果连接出错,返回socket.error错误。
s.connect_ex(adddress) 功能与connect(address)相同,但是成功返回0,失败返回errno的值。
公共socket函数
s.recv(bufsize[,flag]) 接受TCP套接字的数据。数据以字符串形式返回,bufsize指定要接收的最大数据量。flag提供有关消息的其他信息,通常可以忽略。
s.send(string[,flag]) 发送TCP数据。将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。
s.sendall(string[,flag]) 完整发送TCP数据。将string中的数据发送到连接的套接字,但在返回之前会尝试发送所有数据。成功返回None,失败则抛出异常。
s.recvfrom(bufsize[.flag]) 接受UDP套接字的数据。与recv()类似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址。
s.sendto(string[,flag],address) 发送UDP数据。将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。
s.close() 关闭套接字。
s.getpeername() 返回连接套接字的远程地址。返回值通常是元组(ipaddr,port)。
s.getsockname() 返回套接字自己的地址。通常是一个元组(ipaddr,port)
s.setsockopt(level,optname,value) 设置给定套接字选项的值。
s.getsockopt(level,optname[.buflen]) 返回套接字选项的值。
s.settimeout(timeout) 设置套接字操作的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。一般,超时期应该在刚创建套接字时设置,因为它们可能用于连接的操作(如connect())
s.gettimeout() 返回当前超时期的值,单位是秒,如果没有设置超时期,则返回None。
s.fileno() 返回套接字的文件描述符。
s.setblocking(flag) 如果flag为0,则将套接字设为非阻塞模式,否则将套接字设为阻塞模式(默认值)。非阻塞模式下,如果调用recv()没有发现任何数据,或send()调用无法立即发送数据,那么将引起socket.error异常。
s.makefile() 创建一个与该套接字相关连的文件

TCP编程

Socket是网络编程的一个抽象概念。通常我们用一个Socket表示“打开了一个网络链接”,而打开一个Socket需要知道目标计算机的IP地址和端口号,再指定协议类型即可。

大多数连接都是可靠的TCP连接。创建TCP连接时,主动发起连接的叫客户端,被动响应连接的叫服务器。

访问网页服务

举个例子,当我们在浏览器中访问百度时,我们自己的计算机就是客户端,浏览器会主动向百度的服务器发起连接。如果一切顺利,百度的服务器接受了我们的连接,一个TCP连接就建立起来的,后面的通信就是发送网页内容了。

作为服务器,提供什么样的服务,端口号就必须固定下来。由于我们想要访问网页,因此提供网页服务的服务器必须把端口号固定在80端口,因为80端口是Web服务的标准端口。其他服务都有对应的标准端口号,例如SMTP服务是25端口,FTP服务是21端口,等等。端口号小于1024的是Internet标准服务的端口(必须管理员权限才可以用),端口号大于1024的,可以任意使用。

TCP连接创建的是双向通道,双方都可以同时给对方发数据。但是谁先发谁后发,怎么协调,要根据具体的协议来决定。例如,HTTP协议规定客户端必须先发请求给服务器,服务器收到后才发数据给客户端。

from socket import socket


import socket

#创建一个基于TCP的socket
#AF_INET指定使用IPv4协议,如果要用更先进的IPv6,就指定为AF_INET6。SOCK_STREAM指定使用面向流的TCP协议
s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)

#链接百度服务器,参数是一个元组,(ip,port)
s.connect(('www.baidu.com',80))

#发送数据
s.send(b'GET / HTTP/1.1\r\nHost: www.baidu.com\r\nConnection: close\r\n\r\n')

#循环接收数据,每次接收1024字节
buffer = []
while True:
    b = s.recv(1024)
    if b:
        buffer.append(b)
    else:
        break
data = b''.join(buffer)

#对响应的数据进行处理
#相应的数据中含有响应头和HTML页面
headers,html = data.split(b'\r\n\r\n',1)

print(headers.decode('utf8'))

#将html页面保存到文件
with open('./baidu.html','wb') as f:
    f.write(html)

'''
HTTP/1.1 200 OK

Accept-Ranges: bytes

Cache-Control: no-cache

Content-Length: 9508

Content-Type: text/html

Date: Tue, 22 Feb 2022 09:04:23 GMT

P3p: CP=" OTI DSP COR IVA OUR IND COM "

P3p: CP=" OTI DSP COR IVA OUR IND COM "

Pragma: no-cache

Server: BWS/1.1

Set-Cookie: BAIDUID=6420A429826E22B0B7F0BFB267607ACD:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com

Set-Cookie: BIDUPSID=6420A429826E22B0B7F0BFB267607ACD; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com

Set-Cookie: PSTM=1645520663; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com

Set-Cookie: BAIDUID=6420A429826E22B07BD8F456F971C92E:FG=1; max-age=31536000; expires=Wed, 22-Feb-23 09:04:23 GMT; domain=.baidu.com; path=/; version=1; comment=bd

Traceid: 164552066303888542827146785808572153771

Vary: Accept-Encoding

X-Frame-Options: sameorigin

X-Ua-Compatible: IE=Edge,chrome=1

Connection: close
'''

客户端和服务器

上面的访问baidu,我们就是一个客户端

服务器

绑定监听的地址和端口。服务器可能有多块网卡,可以绑定到某一块网卡的IP地址上,也可以用0.0.0.0绑定到所有的网络地址,还可以用127.0.0.1绑定到本机地址。127.0.0.1是一个特殊的IP地址,表示本机地址,如果绑定到这个地址,客户端必须同时在本机运行才能连接,也就是说,外部的计算机无法连接进来。

简单例子:

server.py,运行后会进入阻塞,等待连接

import socket

#创建一个基于ip4、TCP的socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

#绑定一个ip和端口,参数是一个元组(ip,port)
s.bind(('127.0.0.1',80))

#开始监听端口,参数为支持的最大连接数
s.listen(5)

#处理连接,通常使用死循环
while True:
    #接收新的连接,此方法返回一个元组(socket,(ip,port))
    sock,addr = s.accept()
    print('socket:',sock)
    print('addr:',addr)

'''
socket: <socket.socket fd=568, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=0, laddr=('127.0.0.1', 80), raddr=('127.0.0.1', 8080)>

addr: ('127.0.0.1', 8080)
'''

client.py,运行后会发现server.py打印信息

import socket

s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)

#客户端同样也可以绑定ip和端口
s.bind(('127.0.0.1',8080))

s.connect(('127.0.0.1',80))

模拟聊天

server.py

import socket
import threading

#创建一个基于ip4、TCP的socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

#绑定一个ip和端口,参数是一个元组(ip,port)
s.bind(('127.0.0.1',80))

#开始监听端口,参数为支持的最大连接数
s.listen(5)

#用于处理客户端连接的方法
def clientHandler(sock,addr):
    sock.send(b'Hello!')
    while True:
        b = sock.recv(1024)
        print('客户端%s发来消息:%s' % (addr,b.decode('utf8')))
        s = input('请发送消息给客户端:')
        sock.send(s.encode('utf8'))

#处理连接,通常使用死循环
while True:
    #接收新的连接,此方法返回一个元组(socket,(ip,port))
    sock,addr = s.accept()
    print('新的客户端连接,ip:%s,port:%s' % addr)
    #创建新的线程用来处理客户端TCP连接
    threading.Thread(name=addr,target=clientHandler,args=(sock,addr)).start()
    
'''
新的客户端连接,ip:127.0.0.1,port:8080
客户端('127.0.0.1', 8080)发来消息:你好,服务器
请发送消息给客户端:你好,客户端
'''

client.py

import socket
import threading

#创建一个基于ip4、TCP的socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

#绑定一个ip和端口,参数是一个元组(ip,port)
s.bind(('127.0.0.1',80))

#开始监听端口,参数为支持的最大连接数
s.listen(5)

#用于处理客户端连接的方法
def clientHandler(sock,addr):
    sock.send(b'Hello!')
    while True:
        b = sock.recv(1024)
        print('客户端%s发来消息:%s' % (addr,b.decode('utf8')))
        s = input('请发送消息给客户端:')
        sock.send(s.encode('utf8'))

#处理连接,通常使用死循环
while True:
    #接收新的连接,此方法返回一个元组(socket,(ip,port))
    sock,addr = s.accept()
    print('新的客户端连接,ip:%s,port:%s' % addr)
    #创建新的线程用来处理客户端TCP连接
    threading.Thread(name=addr,target=clientHandler,args=(sock,addr)).start()
 
'''
服务器发来消息:Hello!
请发送消息给服务器:你好,服务器
服务器发来消息:你好,客户端
请发送消息给服务器:exit
'''