查看: 1919|回复: 0

[开发环境] GPU利用率长期为0的原因及解决方案

[复制链接]

166

主题

616

帖子

1万

积分

xdtech

Rank: 5Rank: 5

积分
10828
发表于 2019-3-26 17:39:26 | 显示全部楼层 |阅读模式
1-确定AI框架为gpu版
    目前平台除cpu_tf1.12外,其余AI环境默认安装GPU版AI框架。若使用过程中运行类似pip3 install -r requirement.txt等命令,则可能导致框架变为CPU版本。下面以tensorflow为例,查看使用的AI框架是否为GPU版。
打开终端,输入以下代码:
  1. import tensorflow as tf
  2. sess=tf.Session()
复制代码
从下图可以看出,使用GPU版本的tensorflow会打印显卡类型和可用显存,从这个方面可以看出是否安装了GPUI版tensorflow。(注意测试完后,用sess.close()释放显存)
GPU.jpg
2-常见原因及解决方法总结
    若通过上述步骤发现已安装gpu版AI框架,但GPU利用率几乎一直是0,可能原因是:
    1)程序在模型训练时预处理步骤较多或者数据量很大,可以查看CPU使用率基本在100%以上(查看CPU使用率教程)。这种情况建议升级配置,重新开机时选用更多的CPU核数。
    2)优化代码:如果程序对GPU的利用率不高,有可能代码没有经过优化。以tensorflow为例,官方建议用datasets的API替换feed_dict模式的数据输入方式,这样将提升GPU利用率和加速训练过程。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表