迷宫求解机器人：基于Pygame与Q-learning的强化学习实战教程

暴灵珊 · 2025-6-1 00:10:22

引言：智能体的诞生

在人工智能的浩瀚宇宙中，强化学习犹如一颗璀璨的新星，它让机器具备了类似生物体的学习能力。今天，我们将亲手打造一位具备环境感知能力的智能体——迷宫求解机器人。它将在虚拟的迷宫世界中探索、学习，最终找到通往自由的道路。这不仅是一场代码与算法的交响，更是对人类智能奥秘的一次致敬。
一、环境搭建：工欲善其事，必先利其器

1.1 技术栈简介

Python：作为最受欢迎的编程语言之一，Python以其简洁的语法和丰富的生态系统成为实现本项目的首选。
Pygame：一个专为游戏开发设计的库，我们将用它来构建迷宫的可视化环境。
NumPy：提供高效的数组操作，是处理Q表等矩阵运算的利器。
Matplotlib：用于训练过程的数据可视化，让学习曲线一目了然。

1.2 安装依赖

打开终端，运行以下命令安装所需库：

bash复制代码
pip install pygame numpy matplotlib

复制代码

二、迷宫构建：打造智能体的训练场

2.1 迷宫设计原则

网格化表示：将迷宫划分为N×N的网格，每个单元格代表一个状态。
障碍物设置：用特定值标记墙壁，其余为可通行区域。
起点与终点：固定起点于左上角，终点于右下角，增加任务挑战性。

2.2 Pygame可视化实现

import pygame
import numpy as np
# 初始化Pygame
pygame.init()
# 迷宫参数
GRID_SIZE = 40 # 每个网格的像素大小
MAZE_SIZE = 10 # 10x10网格
WINDOW_WIDTH = MAZE_SIZE * GRID_SIZE
WINDOW_HEIGHT = MAZE_SIZE * GRID_SIZE
# 颜色定义
BLACK = (0, 0, 0)
WHITE = (255, 255, 255)
RED = (255, 0, 0)
GREEN = (0, 255, 0)
BLUE = (0, 0, 255)
# 创建窗口
screen = pygame.display.set_mode((WINDOW_WIDTH, WINDOW_HEIGHT))
pygame.display.set_caption("迷宫求解机器人")
# 生成迷宫矩阵（0:通路, 1:墙壁）
maze = np.zeros((MAZE_SIZE, MAZE_SIZE), dtype=int)
# 设置外围墙壁
maze[0, :] = 1
maze[-1, :] = 1
maze[:, 0] = 1
maze[:, -1] = 1
# 内部随机生成障碍物
np.random.seed(42) # 固定随机种子保证可重复性
for _ in range(15): # 生成15个内部障碍物
x = np.random.randint(1, MAZE_SIZE-1)
y = np.random.randint(1, MAZE_SIZE-1)
maze[x, y] = 1
# 绘制迷宫函数
def draw_maze():
screen.fill(BLACK)
for x in range(MAZE_SIZE):
for y in range(MAZE_SIZE):
if maze[x, y] == 1:
pygame.draw.rect(screen, WHITE,
(x*GRID_SIZE, y*GRID_SIZE, GRID_SIZE, GRID_SIZE))
pygame.display.update()
# 初始化机器人位置
robot_pos = [1, 1]
# 主循环
running = True
while running:
for event in pygame.event.get():
if event.type == pygame.QUIT:
running = False
draw_maze()
# 绘制机器人
robot_rect = pygame.Rect(robot_pos[0]*GRID_SIZE, robot_pos[1]*GRID_SIZE,
GRID_SIZE-2, GRID_SIZE-2)
pygame.draw.rect(screen, RED, robot_rect)
pygame.display.update()
pygame.quit()

复制代码

这段代码创建了一个10x10的迷宫，其中：

黑色背景代表不可见区域
白色方块为墙壁
红色方块代表机器人

三、Q-learning核心：智能体的学习引擎

3.1 Q表原理

Q表是一个状态-动作价值矩阵，其中Q[a]表示在状态s采取动作a的预计收益。通过不断更新Q值，智能体学会在不同状态下做出最优决策。
3.2 动作空间定义

定义四个基本动作：

上移(0)

右移(1)

下移(2)

左移(3)

3.3 Q表初始化

# Q表初始化
actions = ['up', 'right', 'down', 'left']
q_table = np.zeros((MAZE_SIZE*MAZE_SIZE, len(actions)))
复制代码
3.4 学习参数设置

# 学习参数
learning_rate = 0.1
discount_factor = 0.99
epsilon = 0.1  # 探索率
episodes = 1000
复制代码
四、探索-利用策略：平衡冒险与保守

4.1 ε-greedy策略

探索阶段：以ε概率随机选择动作，保持对未知的好奇

利用阶段：以1-ε概率选择当前Q值最高的动作，利用已有经验

4.2 动作选择函数

def choose_action(state, epsilon):
if np.random.random() < epsilon:
      return np.random.choice(len(actions))
else:
      return np.argmax(q_table[state])
复制代码
五、训练循环：智能体的进化之旅

5.1 状态转换逻辑

def move_robot(pos, action):
new_pos = pos.copy()
if actions[action] == 'up' and new_pos[1] > 0 and maze[new_pos[0], new_pos[1]-1] == 0:
      new_pos[1] -= 1
elif actions[action] == 'right' and new_pos[0] < MAZE_SIZE-1 and maze[new_pos[0]+1, new_pos[1]] == 0:
      new_pos[0] += 1
elif actions[action] == 'down' and new_pos[1] < MAZE_SIZE-1 and maze[new_pos[0], new_pos[1]+1] == 0:
      new_pos[1] += 1
elif actions[action] == 'left' and new_pos[0] > 0 and maze[new_pos[0]-1, new_pos[1]] == 0:
      new_pos[0] -= 1
return new_pos
复制代码
5.2 奖励机制

到达终点：奖励+100

撞墙或越界：奖励-10

其他移动：奖励-1

5.3 Q值更新公式

def update_q_table(state, action, reward, next_state):
predict = q_table[state, action]
target = reward + discount_factor * np.max(q_table[next_state])
q_table[state, action] = q_table[state, action] + learning_rate * (target - predict)
复制代码
5.4 完整训练循环

# 训练过程记录
rewards = []

# 训练循环
for episode in range(episodes):
state = robot_pos[0] * MAZE_SIZE + robot_pos[1]  # 将坐标转换为状态索引
total_reward = 0

while True:
      # 选择动作
      action = choose_action(state, epsilon)

      # 执行动作
      new_pos = move_robot(robot_pos, action)
      new_state = new_pos[0] * MAZE_SIZE + new_pos[1]

      # 计算奖励
      if new_pos == [MAZE_SIZE-2, MAZE_SIZE-2]:  # 到达终点
         reward = 100
         total_reward += reward
         update_q_table(state, action, reward, new_state)
         break
      elif (new_pos[0] == 0 or new_pos[0] == MAZE_SIZE-1 or
            new_pos[1] == 0 or new_pos[1] == MAZE_SIZE-1) or maze[new_pos[0], new_pos[1]] == 1:
         reward = -10
      else:
         reward = -1

      total_reward += reward
      update_q_table(state, action, reward, new_state)

      state = new_state
      robot_pos = new_pos.copy()

# 衰减探索率
epsilon *= 0.995

# 记录奖励
rewards.append(total_reward)

# 打印训练进度
if episode % 100 == 0:
      print(f"Episode {episode}, Total Reward: {total_reward}")
复制代码
六、可视化训练过程：见证成长的轨迹

6.1 绘制奖励曲线

import matplotlib.pyplot as plt

plt.figure(figsize=(10,5))
plt.plot(rewards)
plt.title("Training Rewards")
plt.xlabel("Episode")
plt.ylabel("Total Reward")
plt.show()
复制代码
6.2 Q表热力图

# 选择一个状态查看Q值分布
sample_state = 55  # 随机选择一个状态
plt.imshow(q_table[sample_state].reshape(1, -1), cmap='hot', interpolation='nearest')
plt.title(f"Q-values for State {sample_state}")
plt.xlabel("Action")
plt.yticks([])
plt.show()
复制代码
七、完整代码整合

将上述代码片段整合为完整可运行的Python脚本：
# 完整代码import pygameimport numpy as npimport matplotlib.pyplot as plt # 初始化Pygamepygame.init() # 迷宫参数GRID_SIZE = 40MAZE_SIZE = 10WINDOW_WIDTH = MAZE_SIZE * GRID_SIZEWINDOW_HEIGHT = MAZE_SIZE * GRID_SIZE # 颜色定义BLACK = (0, 0, 0)WHITE = (255, 255, 255)RED = (255, 0, 0)GREEN = (0, 255, 0)BLUE = (0, 0, 255) # 创建窗口screen = pygame.display.set_mode((WINDOW_WIDTH, WINDOW_HEIGHT))pygame.display.set_caption("迷宫求解机器人") # 生成迷宫矩阵maze = np.zeros((MAZE_SIZE, MAZE_SIZE), dtype=int)maze[0, :] = 1maze[-1, :] = 1maze[:, 0] = 1maze[:, -1] = 1np.random.seed(42)for _ in range(15): x = np.random.randint(1, MAZE_SIZE-1) y = np.random.randint(1, MAZE_SIZE-1) maze[x, y] = 1 def draw_maze(): screen.fill(BLACK) for x in range(MAZE_SIZE):       for y in range(MAZE_SIZE):          if maze[x, y] == 1:             pygame.draw.rect(screen, WHITE,                               (x*GRID_SIZE, y*GRID_SIZE, GRID_SIZE, GRID_SIZE)) pygame.display.update() # Q-learning参数actions = ['up', 'right', 'down', 'left']q_table = np.zeros((MAZE_SIZE*MAZE_SIZE, len(actions)))learning_rate = 0.1discount_factor = 0.99epsilon = 0.1episodes = 1000 def choose_action(state, epsilon):
if np.random.random() < epsilon:
      return np.random.choice(len(actions))
else:
      return np.argmax(q_table[state]) def move_robot(pos, action):
new_pos = pos.copy()
if actions[action] == 'up' and new_pos[1] > 0 and maze[new_pos[0], new_pos[1]-1] == 0:
      new_pos[1] -= 1
elif actions[action] == 'right' and new_pos[0] < MAZE_SIZE-1 and maze[new_pos[0]+1, new_pos[1]] == 0:
      new_pos[0] += 1
elif actions[action] == 'down' and new_pos[1] < MAZE_SIZE-1 and maze[new_pos[0], new_pos[1]+1] == 0:
      new_pos[1] += 1
elif actions[action] == 'left' and new_pos[0] > 0 and maze[new_pos[0]-1, new_pos[1]] == 0:
      new_pos[0] -= 1
return new_pos def update_q_table(state, action, reward, next_state):
predict = q_table[state, action]
target = reward + discount_factor * np.max(q_table[next_state])
q_table[state, action] = q_table[state, action] + learning_rate * (target - predict) # 训练过程rewards = []robot_pos = [1, 1] for episode in range(episodes): state = robot_pos[0] * MAZE_SIZE + robot_pos[1] total_reward = 0       while True:       action = choose_action(state, epsilon)       new_pos = move_robot(robot_pos, action)       new_state = new_pos[0] * MAZE_SIZE + new_pos[1]             if new_pos == [MAZE_SIZE-2, MAZE_SIZE-2]:          reward = 100          total_reward += reward          update_q_table(state, action, reward, new_state)          break       elif (new_pos[0] == 0 or new_pos[0] == MAZE_SIZE-1 or             new_pos[1] == 0 or new_pos[1] == MAZE_SIZE-1) or maze[new_pos[0], new_pos[1]] == 1:          reward = -10       else:          reward = -1             total_reward += reward       update_q_table(state, action, reward, new_state)             state = new_state       robot_pos = new_pos.copy()       epsilon *= 0.995 rewards.append(total_reward)       if episode % 100 == 0:       print(f"Episode {episode}, Total Reward: {total_reward}") # 可视化训练结果plt.figure(figsize=(10,5))plt.plot(rewards)plt.title("Training Rewards")plt.xlabel("Episode")plt.ylabel("Total Reward")plt.show() # 最终演示running = Truewhile running: for event in pygame.event.get():       if event.type == pygame.QUIT:          running = False       draw_maze() current_state = robot_pos[0] * MAZE_SIZE + robot_pos[1] best_action = np.argmax(q_table[current_state]) new_pos = move_robot(robot_pos, best_action)       # 绘制机器人路径 for x in range(MAZE_SIZE):       for y in range(MAZE_SIZE):          if [x, y] == robot_pos.tolist():             pygame.draw.rect(screen, RED,                               (x*GRID_SIZE, y*GRID_SIZE, GRID_SIZE-2, GRID_SIZE-2)) pygame.draw.rect(screen, BLUE,                   (new_pos[0]*GRID_SIZE, new_pos[1]*GRID_SIZE, GRID_SIZE-2, GRID_SIZE-2))       robot_pos = new_pos.copy() if robot_pos == [MAZE_SIZE-2, MAZE_SIZE-2]:       running = False pygame.display.update() pygame.quit()
复制代码
八、结论与展望

我们成功构建了一个具备环境感知能力的迷宫求解机器人。通过Q-learning算法，机器人学会了在复杂迷宫中找到最优路径。这个过程不仅展示了强化学习的魅力，也为解决类似序贯决策问题提供了通用框架。
未来的改进方向包括：

深度Q网络(DQN)：使用神经网络近似Q函数，处理更大规模的状态空间

优先级经验回放：提高样本利用效率

多智能体协作：研究多个机器人协同求解复杂迷宫

三维环境扩展：将二维迷宫扩展到三维空间，增加任务复杂度

这个项目的完整代码和详细教程为初学者提供了进入强化学习领域的理想入口。通过动手实践，你可以更深刻地理解智能决策的本质，为后续的研究和应用打下基础。现在，轮到你在这个基础上继续探索，创造属于你自己的智能奇迹！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

咳镘袁 · 2025-12-3 06:39:19

yyds。多谢分享

湄圳啸 · 2025-12-3 11:10:51

喜欢鼓捣这些软件，现在用得少，谢谢分享！

账号		自动登录	找回密码
密码			立即注册

迷宫求解机器人：基于Pygame与Q-learning的强化学习实战教程

相关帖子

回复

签约作者

迷宫求解机器人：基于Pygame与Q-learning的强化学习实战教程

相关帖子

相关推荐

回复

签约作者