重复端口

Q: 为什么会出现一个进程已经占用了某个端口，但另一进程还能打开此端口，但无法接收数据？

这种情况通常是由于以下几个原因造成的：

1. SO_REUSEADDR 套接字选项

当套接字设置了 SO_REUSEADDR 选项时，允许多个套接字绑定到相同的端口：

// C 代码示例
int yes = 1;
setsockopt(sockfd, SOL_SOCKET, SO_REUSEADDR, &yes, sizeof(yes));
bind(sockfd, ...);

后果：

多个进程可以同时绑定到同一端口
但只有最后一个绑定的套接字能接收数据
之前的套接字会"静默"失败

2. 套接字状态问题

TIME_WAIT 状态

# 查看 TIME_WAIT 状态的连接
netstat -ano | findstr TIME_WAIT

当连接关闭后，套接字会进入 TIME_WAIT 状态（通常2分钟），此时：

端口在技术上仍被占用
但新的绑定可能被允许（取决于 SO_REUSEADDR）

半关闭状态

一端关闭了连接，但另一端仍保持打开
端口看似可用，但数据传输异常

3. 不同协议族绑定

// IPv4 和 IPv6 可以绑定到"相同"端口
bind(ipv4_socket, ...);    // 绑定到 0.0.0.0:8080
bind(ipv6_socket, ...);    // 绑定到 [::]:8080

虽然端口号相同，但实际上是不同的协议族。

4. 多网卡绑定

// 绑定到特定IP的端口
bind(socket, "192.168.1.100", 8080);
// 另一个进程绑定到所有IP
bind(socket, "0.0.0.0", 8080);

这种情况下，第二个绑定可能会成功，但行为不确定。

5. 进程权限问题

普通用户进程绑定到端口 > 1024
特权进程绑定到端口 < 1024
如果权限检查不严格，可能导致异常绑定

实际场景示例

场景1：开发服务器重启

# 第一次启动
npm start --port 3000

# 强制停止后立即重启
# 此时可能遇到 TIME_WAIT
npm start --port 3000
# 错误：端口已被占用，但实际无法接收数据

场景2：Docker 容器

# 主机和容器绑定相同端口
docker run -p 3000:3000 my-app
# 主机上的另一个进程也绑定 3000 端口

诊断方法

1. 详细查看端口状态

# Windows
netstat -ano | findstr :3000

# Linux
netstat -tulpn | grep :3000
ss -tulpn | grep :3000
lsof -i :3000

2. 检查套接字选项

# Linux 查看套接字信息
cat /proc/net/tcp | grep "0BB8"  # 0BB8 是 3000 的十六进制

3. 使用 telnet 测试连接

telnet localhost 3000

解决方案

1. 等待 TIME_WAIT 超时

# 默认 2MSL (60-120秒)
# 可以调整系统参数（Linux）
echo 1 > /proc/sys/net/ipv4/tcp_tw_reuse

2. 正确设置 SO_REUSEADDR

在服务器代码中合理使用：

// Node.js 示例
const server = require('http').createServer();
server.listen(3000, () => {
  console.log('Server started on port 3000');
});

// 优雅关闭
process.on('SIGTERM', () => {
  server.close(() => {
    process.exit(0);
  });
});

3. 强制释放端口

# 找到并杀死占用进程
taskkill /F /PID <PID>

# 或者重启相关服务
net stop "Service Name" && net start "Service Name"

4. 使用不同的端口

临时解决方案：

PORT=3001 npm start

预防措施

优雅关闭：确保应用程序正确关闭套接字
错误处理：检查 bind() 函数的返回值
使用连接池：避免频繁创建销毁连接
监控工具：使用网络监控工具检测异常

这种问题的根本原因通常是操作系统套接字管理的复杂性，特别是在开发环境中频繁重启服务时最容易遇到。