深度学习机装机流程与体验(windows+anconda环境)

lsh · 发表于 2018-10-14 11:34:08

本帖最后由 lsh 于 2018-10-14 11:33 编辑

1. 引言

深度学习是一种算法的革命，人工智能的火爆得益于深度学习算法的改进和开源，特别是云计算、大数据、深度学习和物联网计算的融合，人工智能在各个领域，特别是计算机视觉在图像处理、视频处理、人脸识别、声音和语音处理，以及自然语言的文本处理、语言翻译等领域都有了极大的提升，在一定程度上达到人类识别水平，甚至超过人类。

深度学习算法的主要框架是Tensorflow、Mxnet、PyTorch、Keras、PaddlePaddle、CNTK、Caffe2等，一般都在Python语言可以执行，主要是这些算法框架大部分都是开源的，都放在github仓库托管。

2. 机器组装简要概述

在拿到深度学习机之后，你首先需要了解一下机器的配置。当然，这些配置更多的是根据你的工作需求在组装之前就应该了然于胸的。

我们实验室的深度学习机主要的配置如下：

1、经过对比分析，GPU选择4*GeForce1080TI，总的来说这款GPU型号性价比高一些。

这是深度学习GPU各个型号的对照表格，可以说是很全了。

深度学习机要考虑能耗，电源的功率要考虑。

当然成本也要考虑，最新的Tesla K100一块GPU就几千美金啦。

2、主板：选择华硕X99-E

3、CPU处理器：Intel 酷睿I7

4、电源、水冷等

这里重点提一下水冷装置，因为各种部件一起工作其实是一个很庞大的工程，因此选择水冷装置，给了机器很好的散热功效，这样也有利于机器的正常高效的运行。

这里提醒：因为运输问题，GPU开箱后有些安装错位，造成一周时间的调试延误。

设备实物如图。

PS.感觉机器每次运行时水冷“咕咚咕咚”的声音简直是再美秒不过了。

3. 安装清单

有了深度学习机之后，你就可以开始开始你的深度学习之旅啦。我们的路径是这样，先拉取一个任务清单，详细写下要安装的软件，以及它们的用途，几者之间有没有什么依赖关系，这一点是为了避免，软件装好之后由于版本不对又得重新换。总而言之，整个安装过程要更有逻辑、更有条理一些。

系统环境：Ubuntu16.04。当下深度学习用的最多的系统应该就是Linux的Ubuntu系统了，图形界面和很好的开发环境，使得它备受开发者的喜欢。
安装显卡驱动：这一步一定要确保安装的正确，不然这深度学习你就别玩了。
CUDA 、Cudnn: 通过CUDA用户可以利用GPU进行计算，这是整个计算机的GPU加速框架。
安装Anaconda，Python3.6
Anaconda作为一款Python集成安装软件，简直是Python开发的必备神器，因为深度学习所需要用到的库基本已经涵盖，不需要另外安装，所以其重要性可见一斑。
安装Keras、TensorFlow、OpenCV：这些更不用说，是一定要装的，当然，具体用到哪一款，是需要你根据自己的项目选择的。
安装SSH：远程登录服务器，涉及到局域网和外网登录，但是命令很easy。
配置jupyter：界面化登录系统，学会使用之后，你会爱上jupyter的。

4. 开始安装

第一步：系统安装

1）Ubuntu16.04

ubuntu16.04.3的系统，之所有没有选择最新的17.10是考虑到各种环境的兼容性问题。

下载地址为官网：https://www.ubuntu.com/download/desktop

2）U盘引导盘系统

选择使用U盘引导盘安装，方便快捷。

使用工具：UniversalUSB Installer

找到一个容量足够的U盘，直接在win里安装UUI软件。将下载好的系统文件装进U盘

（注意，一定要用一个没有重要文件的U盘，不然所有的文件都会被格式化，你就只能哭了）。

3）开机后，不停按F2键，进入BIOS系统，选择U盘启动优先选项。这时，你的系统就进入一个选择安装的界面，你可以选择“安装“，一路”accpet“或者”yes“就行了。当然，这里会有一个坑，写出来希望可以帮助遇到相关问题的同学。

安装系统的坑：因为是多显卡原因，因此，在U盘引导启动的时候会遇到这样的情况，你的系统会以“5.921.261] nouveau 0000:01:00.0: fifo: SCHED_ERROR 08 []“不断刷屏，让你真的开始怀疑人生了。

有问题就有对应的填坑方法：u盘安装进入引导界面时，按键盘E键，在界面下方，对应quite splash后面添加nomodeset，然后Ctrl+c进入系统。这样你就可以顺利的进入模拟的Linux系统，然后桌面有安装文件，你就可以一路安装咯。

友情提示：系统最好安装英文版本，因为中文版本真的会有很多坑。

第二步：显卡驱动安装

显卡驱动的安装只要按照步骤来，其实很简单。关键是你可能需要习惯一下win7到Linux的转化，即图像化的控制和命令行的控制方式之间的转变，这会让你极其的不适应。其实命令行模式真的很高（zhuang）效(x)，只是初期会比较痛苦。

注意：驱动的安装不难，但是一定要按照步骤来，一步都不可以缺少，不然即使简单，你也会哭的，尤其显卡驱动这一步。显卡驱动装不好，后面就别想玩了。

下载驱动，进入NVIDIA官方网址选择你的驱动程序进行下载：https://www.geforce.cn/drivers

这时你下载的驱动是名为”NVIDIA-Linux-x86_64-384.98.run”的文件。

安装驱动流程为：进入命令行终端——禁用lightdm桌面服务——安装驱动——启用lightdm桌面服务——重启电脑

禁用nouveau驱动：sudo chmod666 /etc/modprobe.d/blacklist.conf
编辑配置文件：sudo vi/etc/modprobe.d/blacklist.conf
在文件末尾添加如下几行：
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb
修改并保存文件后，记得把文件属性复原：sudo chmod 644 /etc/modprobe.d/blacklist.conf
再更新一下内核：sudoupdate-initramfs -u
进入命令行模式的按键为：Ctrl + Alt + F1
禁用lightdm桌面服务：sudoservice lightdm stop。
安装驱动：sudo sh NVIDIA-Linux-x86_64-384.98.run
启用lightdm桌面服务：sudoservice lightdm start
重启电脑
安装好之后，验证驱动是否已经安装好：nvidia-smi

说明GPU驱动安装成功了！

第三步：CUDA、cudnn安装

步骤A：CUDA下载：https://developer.nvidia.com/cuda-80-ga2-download-archive

1）禁用nouveau：lsmod | grepnouveau

2）切换到命令行模式：Alt+Ctrl+F1

3）关闭图形化界面: sudo service lightdm stop

4）安装：sudo sh cuda_9.0.176_384.81_linux.run

5）启用lightdm桌面服务：sudoservice lightdm start

6）切换到桌面：Alt+Ctrl+F7

7）重启电脑

8）设置环境变量：sudo gedit /etc/profile

打开文件，添加两行：

exportPATH=/usr/local/cuda-7.5/bin/

PATH

exportLD_LIBRARY_PATH=/usr/local/cuda7.5/lib64/：$LD_LIBRARY_PATH

9）重启电脑

10）检查CUDA是否安装成功：nvcc –V

11）尝试编译一些CUDA的例子：首先要安装一堆依赖库

$ sudo apt-get install freeglut3-dev

$ sudo apt-get install build-essential

$ sudo apt-get install libx11-dev

$ sudo apt-get install libxmu-dev

$ sudo apt-get install libxi-dev

$ sudo apt-get install ibgl1-mesa-glx

$ sudo apt-get install llibglu1-mesa

$ sudo apt-get install libglu1-mesa-dev

安装好后，在终端输入：$ make

编译生成的二进制文件。

编译后的二进制文件默认存放在~/NVIDIA_CUDA-X.X_Samples/bin中。

切换路径到release文件夹：

cd ～/NVIDIA_CUDA-X.X_Samples/bin/x86_64/linux/release

终端输入：$./deviceQuery

最后得到结果：

如果结果显示为pass，则代表编译通过，成功安装啦。

步骤B：Cudnn下载：https://developer.nvidia.com/rdp/cudnn-download

继续Ctrl+alt+F1进入的字符界面
进入解压后的cudnn-9.0-linux-x64-v7.0.tgz文件cuda，在终端执行下面的指令安装：
tar -zxvf cudnn-9.0-linux-x64-v7.0.tgz
cd cuda
sudo cp lib64/lib*/usr/local/cuda/lib64/
sudo cp include/cudnn.h/usr/local/cuda/include/
然后更新网络连接：
cd /usr/local/cuda/lib64/
sudo chmod +r libcudnn.so.7.0.3 # 自己查看.so的版本
sudo ln -sf libcudnn.so.7.0.3.libcudnn.so.7
sudo ln -sf libcudnn.so.7 libcudnn.so
sudo ldconfig
重新启动图形化界面
sudo service lightdm start
Ctrl+alt+F7进入图形界面。

第四步：Anaconda（含Python3.6）

下载软件包：https://repo.continuum.io/archive/

安装Python 3.6 version版本：bash Anaconda3-4.3.1-Linux-x86_64.sh
安装过程，一直点回车，当遇到下面的选择，注意输入yes：
Do you wish the installer to prepend the Anaconda2 install location
to PATH in your /home/gjq/.bashrc ?[yes|no]
[no] >>> yes
让.bashrc中添加的路径生效：source~/.bashrc

测试：出现anaconda则代表安装成功

第五步：更新镜像源：vi ~/.pip/pip.conf

然后写入如下内容并保存

[global]

trusted-host = mirrors.aliyun.com

index-url =http://mirrors.aliyun.com/pypi/simple

第六步：安装TensorFlow

安装好Anaconda后，需要创建TensorFlow的隔离环境:conda create -n tensorflow python=3.6；创建了tensorflow的隔离环境后，要做的是激活tensorflow环境，然后用pip安装TensorFlow：source activate tensorflow
接下来就是跟随Google tensorflow的安装向导，逐步开始安装TensorFlow：pip3install --upgrade tensorflow
测试一下我们安装的Tensorflow

检测tensorflow是否使用gpu进行计算

import tensorflow as tf
sess =tf.Session(config=tf.ConfigProto(log_device_placement=True))

第七步：安装Keras：这是深度学习的高级框架API

pip install keras

第八步：配置SSH：

这样可以在内网或外网通过另一台电脑远程使用深度学习机了

sudo apt-get install openssh-server

编辑配置文件：sudo vi/etc/ssh/sshd_config

找到：PermitRootLoginprohibit-password，注释掉此项

添加：PermitRootLoginyes

执行命令：sudoservice ssh restart

MAC用户使用：ssh 用户名@IP地址

第九步：远程登录jupyter

登陆远程服务器
生成配置文件：jupyter notebook --generate-config
生成密码
打开ipython，创建一个密文的密码：
In [1]: from notebook.auth import passwd
In [2]: passwd()
Enter password:
Verify password:
Out[2]: 'sha1:XXXXXXXXX'
把生成的密文‘sha:ce…’复制下来
修改默认配置文件
$vim~/.jupyter/jupyter_notebook_config.py
进行如下修改：
c.NotebookApp.ip='*'
c.NotebookApp.password = u'sha:XXX...刚才复制的那个密文'
c.NotebookApp.open_browser = False
c.NotebookApp.port =8890 #随便指定一个端口
启动jupyter notebook：
$jupyter notebook
建立ssh通道在本地终端中输入：

ssh username@address_of_remote -L IP:8870:IP:8890

便可以在localhost:8870直接访问远程的jupyter了。

第十步：安装openCV：计算机图像视频处理都需要这个库

下载opencv3.2.0
需要下载opencv和opencv_contrib：
wgethttps://github.com/opencv/opencv/archive/3.2.0.zip
wgethttps://github.com/opencv/opencv_contrib/archive/3.2.0.zip
配置编译opencv (NVIDIA CUDA版本)
使用NVIDIA GPUGeForce 1080ti，则首先需要编译：
$ cmake -D CMAKE_BUILD_TYPE=RELEASE
-D CMAKE_INSTALL_PREFIX=/usr/local
-D INSTALL_PYTHON_EXAMPLES=ON
-D INSTALL_C_EXAMPLES=OFF
-D OPENCV_EXTRA_MODULES_PATH=~/opencv_contrib-3.2.0/modules
-D PYTHON_EXCUTABLE=/usr/bin/python
-D WITH_CUDA=ON # 使用CUDA
-D WITH_CUBLAS=ON
-D DCUDA_NVCC_FLAGS="-D_FORCE_INLINES"
-D CUDA_ARCH_BIN="5.3"
-D CUDA_ARCH_PTX=""
-D CUDA_FAST_MATH=ON
-D WITH_TBB=ON
-D WITH_V4L=ON
-D WITH_QT=ON
-D WITH_GTK=ON
-D WITH_OPENGL=ON
-D BUILD_EXAMPLES=ON ..
完成安装

安装完成以后，重启电脑。大功告成，可以起飞啦！

以下一组图就是实验室利用新装的深度学习机器，用OpenCV跑的程序，可以用来图像识别物体，初次尝鲜，感觉也是棒棒哒。

yizhu · 发表于 2019-5-31 16:27:45

厉害了6666666