本帖最后由 lsh 于 2018-10-14 11:33 编辑
1. 引言 深度学习是一种算法的革命,人工智能的火爆得益于深度学习算法的改进和开源,特别是云计算、大数据、深度学习和物联网计算的融合,人工智能在各个领域,特别是计算机视觉在图像处理、视频处理、人脸识别、声音和语音处理,以及自然语言的文本处理、语言翻译等领域都有了极大的提升,在一定程度上达到人类识别水平,甚至超过人类。 深度学习算法的主要框架是Tensorflow、Mxnet、PyTorch、Keras、PaddlePaddle、CNTK、Caffe2等,一般都在Python语言可以执行,主要是这些算法框架大部分都是开源的,都放在github仓库托管。 2. 机器组装简要概述 在拿到深度学习机之后,你首先需要了解一下机器的配置。当然,这些配置更多的是根据你的工作需求在组装之前就应该了然于胸的。 我们实验室的深度学习机主要的配置如下: 1、经过对比分析,GPU选择4*GeForce1080TI,总的来说这款GPU型号性价比高一些。 这是深度学习GPU各个型号的对照表格,可以说是很全了。 深度学习机要考虑能耗,电源的功率要考虑。 当然成本也要考虑,最新的Tesla K100一块GPU就几千美金啦。 2、主板:选择华硕X99-E 3、CPU处理器:Intel 酷睿I7 4、电源、水冷等 这里重点提一下水冷装置,因为各种部件一起工作其实是一个很庞大的工程,因此选择水冷装置,给了机器很好的散热功效,这样也有利于机器的正常高效的运行。 这里提醒:因为运输问题,GPU开箱后有些安装错位,造成一周时间的调试延误。 设备实物如图。 PS.感觉机器每次运行时水冷“咕咚咕咚”的声音简直是再美秒不过了。 3. 安装清单 有了深度学习机之后,你就可以开始开始你的深度学习之旅啦。我们的路径是这样,先拉取一个任务清单,详细写下要安装的软件,以及它们的用途,几者之间有没有什么依赖关系,这一点是为了避免,软件装好之后由于版本不对又得重新换。总而言之,整个安装过程要更有逻辑、更有条理一些。 系统环境:Ubuntu16.04。当下深度学习用的最多的系统应该就是Linux的Ubuntu系统了,图形界面和很好的开发环境,使得它备受开发者的喜欢。 安装显卡驱动:这一步一定要确保安装的正确,不然这深度学习你就别玩了。 CUDA 、Cudnn: 通过CUDA用户可以利用GPU进行计算,这是整个计算机的GPU加速框架。 安装Anaconda,Python3.6 Anaconda作为一款Python集成安装软件,简直是Python开发的必备神器,因为深度学习所需要用到的库基本已经涵盖,不需要另外安装,所以其重要性可见一斑。 安装Keras、TensorFlow、OpenCV:这些更不用说,是一定要装的,当然,具体用到哪一款,是需要你根据自己的项目选择的。 安装SSH:远程登录服务器,涉及到局域网和外网登录,但是命令很easy。 配置jupyter:界面化登录系统,学会使用之后,你会爱上jupyter的。
4. 开始安装 第一步:系统安装 1)Ubuntu16.04 ubuntu16.04.3的系统,之所有没有选择最新的17.10是考虑到各种环境的兼容性问题。 2)U盘引导盘系统 选择使用U盘引导盘安装,方便快捷。 使用工具:UniversalUSB Installer 找到一个容量足够的U盘,直接在win里安装UUI软件。将下载好的系统文件装进U盘 (注意,一定要用一个没有重要文件的U盘,不然所有的文件都会被格式化,你就只能哭了)。 3)开机后,不停按F2键,进入BIOS系统,选择U盘启动优先选项。这时,你的系统就进入一个选择安装的界面,你可以选择“安装“,一路”accpet“或者”yes“就行了。当然,这里会有一个坑,写出来希望可以帮助遇到相关问题的同学。 安装系统的坑:因为是多显卡原因,因此,在U盘引导启动的时候会遇到这样的情况,你的系统会以“5.921.261] nouveau 0000:01:00.0: fifo: SCHED_ERROR 08 []“不断刷屏,让你真的开始怀疑人生了。 有问题就有对应的填坑方法:u盘安装进入引导界面时,按键盘E键,在界面下方,对应quite splash后面添加nomodeset,然后Ctrl+c进入系统。这样你就可以顺利的进入模拟的Linux系统,然后桌面有安装文件,你就可以一路安装咯。 友情提示:系统最好安装英文版本,因为中文版本真的会有很多坑。 第二步:显卡驱动安装 显卡驱动的安装只要按照步骤来,其实很简单。关键是你可能需要习惯一下win7到Linux的转化,即图像化的控制和命令行的控制方式之间的转变,这会让你极其的不适应。其实命令行模式真的很高(zhuang)效(x),只是初期会比较痛苦。 注意:驱动的安装不难,但是一定要按照步骤来,一步都不可以缺少,不然即使简单,你也会哭的,尤其显卡驱动这一步。显卡驱动装不好,后面就别想玩了。 这时你下载的驱动是名为”NVIDIA-Linux-x86_64-384.98.run”的文件。 安装驱动流程为:进入命令行终端——禁用lightdm桌面服务——安装驱动——启用lightdm桌面服务——重启电脑 禁用nouveau驱动:sudo chmod666 /etc/modprobe.d/blacklist.conf 编辑配置文件:sudo vi/etc/modprobe.d/blacklist.conf 在文件末尾添加如下几行: blacklist vga16fb blacklist nouveau blacklist rivafb blacklist rivatv blacklist nvidiafb 修改并保存文件后,记得把文件属性复原:sudo chmod 644 /etc/modprobe.d/blacklist.conf 再更新一下内核:sudoupdate-initramfs -u 进入命令行模式的按键为:Ctrl + Alt + F1 禁用lightdm桌面服务:sudoservice lightdm stop。 安装驱动:sudo sh NVIDIA-Linux-x86_64-384.98.run 启用lightdm桌面服务:sudoservice lightdm start 重启电脑 安装好之后,验证驱动是否已经安装好:nvidia-smi
说明GPU驱动安装成功了! 第三步:CUDA、cudnn安装 1)禁用nouveau:lsmod | grepnouveau 2)切换到命令行模式:Alt+Ctrl+F1 3)关闭图形化界面: sudo service lightdm stop 4)安装:sudo sh cuda_9.0.176_384.81_linux.run 5)启用lightdm桌面服务:sudoservice lightdm start 6)切换到桌面:Alt+Ctrl+F7 7)重启电脑 8)设置环境变量:sudo gedit /etc/profile 打开文件,添加两行: exportPATH=/usr/local/cuda-7.5/bin/PATH exportLD_LIBRARY_PATH=/usr/local/cuda7.5/lib64/:$LD_LIBRARY_PATH 9)重启电脑 10)检查CUDA是否安装成功:nvcc –V 11)尝试编译一些CUDA的例子:首先要安装一堆依赖库 $ sudo apt-get install freeglut3-dev $ sudo apt-get install build-essential $ sudo apt-get install libx11-dev $ sudo apt-get install libxmu-dev $ sudo apt-get install libxi-dev $ sudo apt-get install ibgl1-mesa-glx $ sudo apt-get install llibglu1-mesa $ sudo apt-get install libglu1-mesa-dev 安装好后,在终端输入:$ make 编译生成的二进制文件。 编译后的二进制文件默认存放在~/NVIDIA_CUDA-X.X_Samples/bin中。 切换路径到release文件夹: cd ~/NVIDIA_CUDA-X.X_Samples/bin/x86_64/linux/release 终端输入:$./deviceQuery 最后得到结果: 如果结果显示为pass,则代表编译通过,成功安装啦。 继续Ctrl+alt+F1进入的字符界面 进入解压后的cudnn-9.0-linux-x64-v7.0.tgz文件cuda,在终端执行下面的指令安装: tar -zxvf cudnn-9.0-linux-x64-v7.0.tgz cd cuda sudo cp lib64/lib*/usr/local/cuda/lib64/ sudo cp include/cudnn.h/usr/local/cuda/include/ 然后更新网络连接: cd /usr/local/cuda/lib64/ sudo chmod +r libcudnn.so.7.0.3 # 自己查看.so的版本 sudo ln -sf libcudnn.so.7.0.3.libcudnn.so.7 sudo ln -sf libcudnn.so.7 libcudnn.so sudo ldconfig 重新启动图形化界面 sudo service lightdm start Ctrl+alt+F7进入图形界面。
第四步:Anaconda(含Python3.6) 安装Python 3.6 version版本:bash Anaconda3-4.3.1-Linux-x86_64.sh 安装过程,一直点回车,当遇到下面的选择,注意输入yes: Do you wish the installer to prepend the Anaconda2 install location to PATH in your /home/gjq/.bashrc ?[yes|no] [no] >>> yes 让.bashrc中添加的路径生效:source~/.bashrc
测试:出现anaconda则代表安装成功 第五步:更新镜像源:vi ~/.pip/pip.conf 然后写入如下内容并保存 [global] trusted-host = mirrors.aliyun.com index-url =http://mirrors.aliyun.com/pypi/simple 第六步:安装TensorFlow 安装好Anaconda后,需要创建TensorFlow的隔离环境:conda create -n tensorflow python=3.6;创建了tensorflow的隔离环境后,要做的是激活tensorflow环境,然后用pip安装TensorFlow:source activate tensorflow 接下来就是跟随Google tensorflow的安装向导,逐步开始安装TensorFlow:pip3install --upgrade tensorflow 测试一下我们安装的Tensorflow
检测tensorflow是否使用gpu进行计算 第七步:安装Keras:这是深度学习的高级框架API pip install keras 第八步:配置SSH: 这样可以在内网或外网通过另一台电脑远程使用深度学习机了 sudo apt-get install openssh-server 编辑配置文件:sudo vi/etc/ssh/sshd_config 找到:PermitRootLoginprohibit-password,注释掉此项 添加:PermitRootLoginyes 执行命令:sudoservice ssh restart MAC用户使用:ssh 用户名@IP地址 第九步:远程登录jupyter 登陆远程服务器 生成配置文件:jupyter notebook --generate-config 生成密码 打开ipython,创建一个密文的密码: In [1]: from notebook.auth import passwd In [2]: passwd() Enter password: Verify password: Out[2]: 'sha1:XXXXXXXXX' 把生成的密文‘sha:ce…’复制下来 修改默认配置文件 $vim~/.jupyter/jupyter_notebook_config.py 进行如下修改: c.NotebookApp.ip='*' c.NotebookApp.password = u'sha:XXX...刚才复制的那个密文' c.NotebookApp.open_browser = False c.NotebookApp.port =8890 #随便指定一个端口 启动jupyter notebook: $jupyter notebook 建立ssh通道在本地终端中输入:
ssh username@address_of_remote -L IP:8870:IP:8890 便可以在localhost:8870直接访问远程的jupyter了。 第十步:安装openCV:计算机图像视频处理都需要这个库 下载opencv3.2.0 需要下载opencv和opencv_contrib: 配置编译opencv (NVIDIA CUDA版本) 使用NVIDIA GPUGeForce 1080ti,则首先需要编译: $ cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local -D INSTALL_PYTHON_EXAMPLES=ON -D INSTALL_C_EXAMPLES=OFF -D OPENCV_EXTRA_MODULES_PATH=~/opencv_contrib-3.2.0/modules -D PYTHON_EXCUTABLE=/usr/bin/python -D WITH_CUDA=ON # 使用CUDA -D WITH_CUBLAS=ON -D DCUDA_NVCC_FLAGS="-D_FORCE_INLINES" -D CUDA_ARCH_BIN="5.3" -D CUDA_ARCH_PTX="" -D CUDA_FAST_MATH=ON -D WITH_TBB=ON -D WITH_V4L=ON -D WITH_QT=ON -D WITH_GTK=ON -D WITH_OPENGL=ON -D BUILD_EXAMPLES=ON .. 完成安装
安装完成以后,重启电脑。大功告成,可以起飞啦! 以下一组图就是实验室利用新装的深度学习机器,用OpenCV跑的程序,可以用来图像识别物体,初次尝鲜,感觉也是棒棒哒。
|