Goroutine 调度器的 GMP 模型 -

Goroutine 调度器的 GMP 模型的设计思想
(1) GMP 模型
1.1 有关 P 和 M 的个数问题
1.2 P 和 M 何时会被创建
(2) 调度器的设计策略
2.1 work stealing (工作窃取) 机制
2.2 hand off (移交) 机制
(3) go func () 调度流程
(4) 调度器的生命周期
4.1 特殊的M0和G0
4.2 结合代码分析
(5) 可视化 GMP 编程
方式 1：go tool trace
方式 2：Debug trace

Goroutine 调度器的 GMP 模型的设计思想

面对之前调度器的问题，Go 设计了新的调度器。

在新调度器中，出列 M (thread) 和 G (goroutine)，又引进了 P (Processor)。

Processor，它包含了运行 goroutine 的资源，如果线程想运行 goroutine，必须先获取 P，P 中还包含了可运行的 G 队列。

(1) GMP 模型

在 Go 中，线程是运行 goroutine 的实体，调度器的功能是把可运行的 goroutine 分配到工作线程上。

全局队列（Global Queue）：存放等待运行的 G。
P 的本地队列：同全局队列类似，存放的也是等待运行的 G，存的数量有限，不超过 256 个。新建 G’时，G’优先加入到 P 的本地队列，如果队列满了，则会把本地队列中一半的 G 移动到全局队列。
P 列表：所有的 P 都在程序启动时创建，并保存在数组中，最多有 GOMAXPROCS(可配置) 个。
M：线程想运行任务就得获取 P，从 P 的本地队列获取 G，P 队列为空时，M 也会尝试从全局队列拿一批 G 放到 P 的本地队列，或从其他 P 的本地队列偷一半放到自己 P 的本地队列。M 运行 G，G 执行之后，M 会从 P 获取下一个 G，不断重复下去。

Goroutine 调度器和 OS 调度器是通过 M 结合起来的，每个 M 都代表了 1 个内核线程，OS 调度器负责把内核线程分配到 CPU 的核上执行。

1.1 有关 P 和 M 的个数问题

1、P 的数量：

由启动时环境变量 $GOMAXPROCS 或者是由 runtime 的方法 GOMAXPROCS() 决定。这意味着在程序执行的任意时刻都只有 $GOMAXPROCS 个 goroutine 在同时运行。

2、M 的数量:

go 语言本身的限制：go 程序启动时，会设置 M 的最大数量，默认 10000. 但是内核很难支持这么多的线程数，所以这个限制可以忽略。
runtime/debug 中的 SetMaxThreads 函数，设置 M 的最大数量。
一个 M 阻塞了，会创建新的 M。

M 与 P 的数量没有绝对关系，一个 M 阻塞，P 就会去创建或者切换另一个 M，所以，即使 P 的默认数量是 1，也有可能会创建很多个 M 出来。

1.2 P 和 M 何时会被创建

1、 P 何时创建：在确定了 P 的最大数量 n 后，运行时系统会根据这个数量创建 n 个 P。
2、 M 何时创建：没有足够的 M 来关联 P 并运行其中的可运行的 G。比如所有的 M 此时都阻塞住了，而 P 中还有很多就绪任务，就会去寻找空闲的 M，而没有空闲的，就会去创建新的 M。

(2) 调度器的设计策略

复用线程：避免频繁的创建、销毁线程，而是对线程的复用。

2.1 work stealing (工作窃取) 机制

当本线程无可运行的 G 时，尝试从其他线程绑定的 P 偷取 G，而不是销毁线程。

2.2 hand off (移交) 机制

当本线程因为 G 进行系统调用阻塞时，线程释放绑定的 P，把 P 转移给其他空闲的线程执行。

利用并行：GOMAXPROCS 设置 P 的数量，最多有 GOMAXPROCS 个线程分布在多个 CPU 上同时运行。GOMAXPROCS 也限制了并发的程度，比如 GOMAXPROCS = 核数/2，则最多利用了一半的 CPU 核进行并行。
抢占：在 coroutine 中要等待一个协程主动让出 CPU 才执行下一个协程，在 Go 中，一个 goroutine 最多占用 CPU 10ms，防止其他 goroutine 被饿死，这就是 goroutine 不同于 coroutine 的一个地方。
全局 G 队列：在新的调度器中依然有全局 G 队列，但功能已经被弱化了，当 M 执行 work stealing 从其他 P 偷不到 G 时，它可以从全局 G 队列获取 G。

(3) go func () 调度流程

从上图我们可以分析出几个结论：

1、我们通过 go func()来创建一个goroutine；
2、有两个存储G的队列，一个是局部调度器P的本地队列、一个是全局G队列。新创建的G会先保存在P的本地队列中，如果P的本地队列已经满了就会保存在全局的队列中；
3、 G只能运行在M中，一个M必须持有一个P，M与P是1：1的关系。M会从P的本地队列弹出一个可执行状态的G来执行，如果P的本地队列为空，就会想其他的MP组合偷取一个可执行的G来执行；
4、一个M调度G执行的过程是一个循环机制；
5、当M执行某一个G时候如果发生了syscall或则其余阻塞操作，M会阻塞，如果当前有一些G在执行，runtime会把这个线程M从P中摘除(detach)，然后再创建一个新的操作系统的线程(如果有空闲的线程可用就复用空闲线程)来服务于这个P；
6、当M系统调用结束时候，这个G会尝试获取一个空闲的P执行，并放入到这个P的本地队列。如果获取不到P，那么这个线程M变成休眠状态，加入到空闲线程中，然后这个G会被放入全局队列中。

(4) 调度器的生命周期

4.1 特殊的`M0`和`G0`

M0 是启动程序后的编号为 0 的主线程，这个 M 对应的实例会在全局变量 runtime.m0 中，不需要在 heap（堆）上分配，M0 负责执行初始化操作和启动第一个 G，在之后 M0 就和其他的 M 一样了。

G0 是每次启动一个 M 都会第一个创建的 gourtine，G0 仅用于负责调度的 G，G0 不指向任何可执行的函数，每个 M 都会有一个自己的 G0。在调度或系统调用时会使用 G0 的栈空间，全局变量的 G0 是 M0 的 G0。

4.2 结合代码分析

下面来跟踪一段代码，对调度器里面的结构做一个分析，代码如下：

package main

import "fmt"

func main() {
    fmt.Println("Hello world")
}

整体的分析过程如下：

（1）runtime创建最初的线程M0和Goroutine G0，并把二者关联。
（2）调度器初始化：初始化M0、栈、垃圾回收，以及创建和初始化由GOMAXPROCS个P构成的P列表，如下图所示。

（3）示例代码中的main()函数是main.main，runtime中也有1个main()函数runtime.main，代码经过编译后，runtime.main会调用main.main，程序启动时会为runtime.main创建Goroutine，称为Main Goroutine，然后把Main Goroutine加入到P的本地队列，如下图所示。

（4）启动m0，m0已经绑定了P，会从P的本地队列获取G，并获取到Main Goroutine。
（5）G拥有栈，M根据G中的栈信息和调度信息设置运行环境。
（6）M运行G。
（7）G退出，再次回到M获取可运行的G，这样重复下去，直到main.main退出，runtime.main执行Defer和Panic处理，或调用runtime.exit退出程序。

调度器的生命周期几乎占满了一个Go程序的一生，runtime.main的Goroutine执行之前都是为调度器做准备工作，runtime.main的Goroutine运行，才是调度器的真正开始，直到runtime.main结束而结束。

(5) 可视化 GMP 编程

在理解GPM的基本模型和初始化的生命周期及过程的基础上，还能不能通过一些工具来看一下程序的GPM模型在执行过程中的数据呢？

Golang提供了两种方式可以查看一个程序的GPM数据。

方式 1：go tool trace

trace记录了运行时的信息，能提供可视化的Web页面。下面举一个简单的例子，主要的流程是，main()函数创建trace，trace会运行在单独的Goroutine中，然后main()打印”Hello World”，最后退出，代码如下：

package main

import (
    "fmt"
    "os"
    "runtime/trace"
)

func main(){

    // 创建trace文件
    f, err := os.Create("trace.out")
    if err != nil {
        panic(err)
    }

    defer f.Close()

    //启动 trace goroutine
    err = trace.Start(f)
    if err != nil {
        panic(err)
    }
    defer trace.Stop()

    // main
    fmt.Println("Hello World")
}

运行，结果如下：

go run trace.go
Hello World

这里会发现，当前路径下会得到一个trace.out文件，可以用工具go tool打开该文件，结果如下：

通过浏览器打开 http://127.0.0.1:5761 网址，点击 view trace 能够看见可视化的调度流程，如下图所示。

上图所示的是一个当前的代码运行的进程所包含的全部Go成相关的流程和各自的时间抽。

其中左侧部分包含的信息菜单如下图所示。

（1）G信息。

点击Goroutines那一行可视化的数据条，会看到一些详细的信息，如图所示：

一共有两个G在程序中，一个是特殊的G0，是每个M必须有的一个初始化的G；另一个是G1即Main Goroutine（执行main()函数的协程），在一段时间内处于可运行和运行的状态。

（2）M信息。

点击Threads那一行可视化的数据条，会看到一些详细的信息，如下图所示。

一共有两个M在程序中，一个是特殊的M0，另一个是正在处于Running执行状态的M1，这个M1是用于承载G1的线程。

（3）P信息。

再来看左侧PROCS栏中的信息，这里列举的如Proc 0和Proc 1均属于Process（处理器）的信息，如下图所示。

G1中调用了main.main，创建了trace goroutine G18。G1运行在P1上，G18运行在P0上。这里有两个P，一个P必须绑定一个M才能调度G。接下来是M的信息，如下图所示。

图中可以看见，G18在P0上被运行的时候，在Threads行新增了一个M的数据，点击可查看详细信息，如下图所示。

新增的一个M2就是P0为了执行G18而动态创建的。

方式 2：Debug trace

package main

import (
    "fmt"
    "time"
)

func main() {
    for i := 0; i < 5; i++ {
        time.Sleep(time.Second)
        fmt.Println("Hello World")
    }
}

编译上面的代码的结果如下：

go build -o debug.exe main.go

接下来，通过Debug方式运行，结果如下：

接下来简单分析一下，上述输出结果的大致含义。

（1）SCHED：调试信息输出标志字符串，代表本行是Goroutine调度器的输出。
（2）0ms：即从程序启动到输出这行日志的时间。
（3）gomaxprocs: P的数量，本例有16个P, 因为默认的P的属性是和CPU核心数量默认一致，当然也可以通过GOMAXPROCS来设置。
（4）idleprocs: 处于idle状态的P的数量；通过gomaxprocs和idleprocs的差值，我们就可知道执行Go代码的P的数量。
（5）threads: os threads/M的数量，包含scheduler使用的m数量，加上runtime自用的类似sysmon这样的thread的数量。
（6）spinningthreads: 处于自旋状态的os thread数量。
（7）idlethread: 处于idle状态的os thread的数量。
（8）runqueue=0： Scheduler全局队列中G的数量。
（9）[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]: 分别为16个P的 local queue中的G的数量。

查看GPM数据go tool trace方式和Debug trace方式。二者均能够看到一个程序运行中的GPM分布情况，go tool trace还提供了本地web的可视化查看方式，而Debug trace是通过命令行输出到终端中。

作者：joker.liu 创建时间：2023-04-20 17:13
最后编辑：joker.liu 更新时间：2023-04-23 10:34

Goroutine 调度器的 GMP 模型