|
1-确定AI框架为gpu版
目前平台除cpu_tf1.12外,其余AI环境默认安装GPU版AI框架。若使用过程中运行类似pip3 install -r requirement.txt等命令,则可能导致框架变为CPU版本。下面以tensorflow为例,查看使用的AI框架是否为GPU版。
打开终端,输入以下代码:
- import tensorflow as tf
- sess=tf.Session()
复制代码 从下图可以看出,使用GPU版本的tensorflow会打印显卡类型和可用显存,从这个方面可以看出是否安装了GPUI版tensorflow。(注意测试完后,用sess.close()释放显存)
2-常见原因及解决方法总结
若通过上述步骤发现已安装gpu版AI框架,但GPU利用率几乎一直是0,可能原因是:
1)程序在模型训练时预处理步骤较多或者数据量很大,可以查看CPU使用率基本在100%以上(查看CPU使用率教程)。这种情况建议升级配置,重新开机时选用更多的CPU核数。
2)优化代码:如果程序对GPU的利用率不高,有可能代码没有经过优化。以tensorflow为例,官方建议用datasets的API替换feed_dict模式的数据输入方式,这样将提升GPU利用率和加速训练过程。
|
|