Happy清子 发表于 2019-3-26 17:39:26

GPU利用率长期为0的原因及解决方案

1-确定AI框架为gpu版
    目前平台除cpu_tf1.12外,其余AI环境默认安装GPU版AI框架。若使用过程中运行类似pip3 install -r requirement.txt等命令,则可能导致框架变为CPU版本。下面以tensorflow为例,查看使用的AI框架是否为GPU版。
打开终端,输入以下代码:
import tensorflow as tf
sess=tf.Session()从下图可以看出,使用GPU版本的tensorflow会打印显卡类型和可用显存,从这个方面可以看出是否安装了GPUI版tensorflow。(注意测试完后,用sess.close()释放显存)

2-常见原因及解决方法总结
    若通过上述步骤发现已安装gpu版AI框架,但GPU利用率几乎一直是0,可能原因是:
    1)程序在模型训练时预处理步骤较多或者数据量很大,可以查看CPU使用率基本在100%以上(查看CPU使用率教程)。这种情况建议升级配置,重新开机时选用更多的CPU核数。
    2)优化代码:如果程序对GPU的利用率不高,有可能代码没有经过优化。以tensorflow为例,官方建议用datasets的API替换feed_dict模式的数据输入方式,这样将提升GPU利用率和加速训练过程。
页: [1]
查看完整版本: GPU利用率长期为0的原因及解决方案