什么是强化学习?
我们可以区分机器学习中当前使用的三种主要技术:
- 监督学习
- 我们将一组带有标签的示例输入到软件中,因此我们“解释”了如何正确的理解它们
- 基于此,可以对数据进行一些一般性的观察
- 通过推断,软件可以“解释”未来的未知数据
- 这种方法被广泛使用,例如用于基于图像的自动数据分析
- 无监督学习
- 我们在没有任何说明时将数据输入软件
- 这可用于识别复杂数据中的结构,例如用于检测异常事件,例如信用卡欺诈
- 强化学习(RL)
- 强化学习的3中基本组成部分是:
- 行为:根据对环境的影响,给予奖励或惩罚
- 政策:评估行为所依据的规则
- 环境:受行为影响的外部世界(被描述为系统状态)
- 强化学习的3中基本组成部分是:
强化学习的目标是优化与环境的交互,以实现理想的结果。用数学术语来说,该软件正在尝试最大化基于以下数据计算出的报酬:在给定策略下,所采取的行为及其在环境中触发的结果。例如
当我们在下棋时:
- 我们采取行动(我们的下一步)
- 将会改变周边相关环境(整个棋盘)
- 根据给定的政策(游戏规则),这将为我们带来结果(在这种情况下,我们可以赢或输)。与迭代游戏一样,有时在游戏结束时给出的结果是唯一重要的结果。在这种情况下,很难估计每个步骤的回报,因为有很多获胜或失败的方法,并且最终结果无法从游戏过程中采取的步骤中看出。当游戏中发生扭曲时,这才是真正令人兴奋。整个艺术是要理解整个游戏中动作及其结果之间的相互作用。
类似的情况发生在生物学处理过程中,但是要复杂得多。在这种情况下,相互作用发生在以下情况中:
- 我们的行动:调整工艺条件
- 行动的结果:我们的流程
- 在给定的政策下:由生物学定律给定
- 会产生结果:例如发酵过程的产量或质量。
机器学习工具的当前进展以及深度学习的引入,使得在给定的策略下,可以更好地建模动作及其结果之间的相互作用。
政策决定我们如何评估我们采取的行动
以及我们如何选择下一步行动。生物系统极其复杂,因此只有通过最新的近似方法(例如深度强化学习),才有可能在生物学定律下对相互作用进行建模。
这个难题的其他要素是传感器设计的进步,它提供了有关所研究过程的不同方面的更准确数据,例如温度,活细胞条件和化学成分浓度。
我们相信,通过提供有关如何调整自文明开始以来至目前19.4亿升的年产量人类所使用的这一复杂而有趣的过程的参数的建议,将这些难题汇总在一起将改善对啤酒生产大规模加工的控制。