[问题未处理]-docker报错stream copy error- reading from a closed fifo导致服务器oom并cpu飙升后无响应_stream copy error: r

关键错误日志

Sep 27 08:37:54 docker005 dockerd: time="2020-09-27T08:37:54.525450264+08:00" level=error msg="stream copy error: reading from a closed fifo"
Sep 27 08:37:54 docker005 dockerd: time="2020-09-27T08:37:54.525450309+08:00" level=error msg="stream copy error: reading from a closed fifo"
Sep 27 08:37:55 docker005 dockerd: time="2020-09-27T08:37:55.652626099+08:00" level=warning msg="Health check for container 9b351669f228259d22736b4a1097ddbfc26225ae2978a702a4b5149ff6e30f7d error: context deadline exceeded: unknown"
Sep 27 08:39:03 docker005 dockerd: time="2020-09-27T08:39:03.580218917+08:00" level=warning msg="Health check for container 9b351669f228259d22736b4a1097ddbfc26225ae2978a702a4b5149ff6e30f7d error: context deadline exceeded: unknown"
Sep 27 08:39:03 docker005 dockerd: time="2020-09-27T08:39:03.580277907+08:00" level=error msg="exit event" container=9b351669f228259d22736b4a1097ddbfc26225ae2978a702a4b5149ff6e30f7d error="no such process" module=libcontainerd namespace=moby process=fa63ec2efcfb6f5d03069b5f4775e08da32274272b1f35bc646dbfd84f2d70de
Sep 27 08:39:36 docker005 dockerd: time="2020-09-27T08:39:36.605897377+08:00" level=error msg="stream copy error: reading from a closed fifo"
Sep 27 08:39:36 docker005 dockerd: time="2020-09-27T08:39:36.605898957+08:00" level=error msg="stream copy error: reading from a closed fifo"
暂时未确认引起宕机的具体原因 猜测是绑定在这台机子上的定时任务引起的 不排除阿里云的问题。 
类似issues 
https://github.com/docker/for-linux/issues/402
                    问题及原因告警触发 服务器探活失败 最后宕机告警。现象：系统oom  cpu负载爆高 服务器连接不上 读写等爆炸  阿里云控制台vnc进入也显示超时总共想通业务的机子有5台 其余4台服务器都没有问题。关键错误日志Sep 27 08:37:54 docker005 dockerd: time="2020-09-27T08:37:54.525450264+08:00" level=error msg="stream copy error: reading from a closed fifo"
NVIDIA深度学习GPU训练系统（又名DIGITS）是用于训练深度学习模型的Web应用程序。它将深度学习的力量交到了工程师和数据科学家手中。它可用于快速训练用于图像分类，分割和目标检测任务的高精度深度神经网络（DNN）。当前受支持的框架为：Caffe，Torch和Tensorflow。
nvidia-docker部署使用
首先是需要cuda以及cuda对应的gcc、g+等依赖，目前19年的gcc为8.3.1，cuda是向上兼容，所以如果显卡驱动只需要最低版本高于上表cuda接受的最低版本
问题排查过程，源码部分均由我的开发同事排查和记录；在征得其同意后，由我发表在此。
二、问题
某天接到客户反馈，pod的事件中出现大量的 warning event: Readiness probe failed: OCI runtime exec failed: exec failed: EOF: unknown。但不影响客户访问该服务。
特别说明：客户在负责运行业务的k8s节点上坚持开启了cpu-manager
				docker: Error response from daemon: OCI runtime create failed: container_linux.go:346: starting container process caused "exec: \"sh\": executable file not found in $PATH": unknown.
环境：Ubuntu16.04
				Cannot connect to the Docker daemon at unix:///var/run/docker.sock.问题描述解决过程参考资料
问题描述
最近发现 Docker 容器运行异常了。 错误如下：
Oct 09 14:00:29 argus dockerd[107571]: time="2021-10-09T14:00:29.429276020+08:00" level=error msg="stream copy error: reading from a closed fifo
INFO[2020-05-19T17:36:59.658945940+08:00] shim reaped                  id=19544c36eb40661bae26d559d0061e9616addbde74c9dcee13978f8568b6e1fd
ERRO[2020-05-19T17:36:59.670228708+08:00] stream copy error: reading f...
				Refer to StackOverflow:
docker: Error response from daemon: OCI runtime create failed: unable to retrieve OCI runtime error
To check the issue by run docker in the debug mode.
1: 	stop docker with systemctl stop docker
2:	run docker in debug mode dockerd -
containerd: time="2019-12-19T21:50:49.070815105Z" level=info msg="shim reaped" id=6bdd3fe50ae41e731e7483e939612792d6c752ca0437525dc89103abacf22a8d
dockerd: time="20...
上一篇讲解了nvidia-docker中关于nvidia-docker的部署以及一些我遇到的相应错误总结，但最后并没有演示容器开启后的应用与步骤，因为其实我自己也有点不清楚到底做的是个什么东西，但所幸看起来是成功了。
nvidia-docker部署
在默认已经部署成功的时候，我们可以通过下面几条命令看当前nvidia-docker状态是否开启成功：
// An highlighted block
var foo = 'bar';
				docker-compose 报错 Segmentation fault 可能是由于以下原因之一引起的：
1. docker-compose 版本不兼容：请确保你使用的 docker-compose 版本与你的 Docker 引擎版本兼容。可以通过运行 `docker-compose --version` 命令来检查 docker-compose 版本。
2. 系统资源不足：如果你的系统资源（如内存）不足，可能会导致 docker-compose 报错 Segmentation fault。请确保你的系统具有足够的资源来运行 docker-compose。
3. 安装问题：如果你的 docker-compose 安装有问题，可能会导致 Segmentation fault 错误。你可以尝试重新安装 docker-compose 来解决此问题。
4. 其他问题：如果以上方法都无法解决问题，可能是由于其他未知原因导致的。你可以尝试在 Docker 官方论坛或社区寻求帮助，以获取更多的支持和解决方案。
以下是一个示例，演示了如何使用 docker-compose 命令来启动一个简单的应用程序：
```shell
version: '3'
services:
    image: nginx
    ports:
      - 80:80