深度学习训练
深度学习推理
科学计算
视频编解码
图形工作站
TACO Train 训练加速
TACO Infer 推理加速
GPU 共享技术 qGPU
• 提供从自底向上的网络通信、分布式策略及训练框架等多层级的优化加速组件,用户可以根据需要选择适配。
• HARP、LightCC 等优化技术支持插件式集成,无需业务代码改动,即可加速分布式训练业务。
• 支持大规模多机多卡分布式训练场景,提高加速比和模型迭代效率。
• TACO Infer 仅有一行简洁的优化接口,不改变用户一贯的使用部署习惯,提供插件式的第三方开发接口,适配不同业务场景。
• 支持多种框架模型和多种加速硬件,可运行在云服务器、物理机、容器等各种环境。
• 集成硬件厂商的定向开源的加速方案,整合先进的编译优化、图优化和算子优化技术。
• qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用 GPU 卡的基础上,保证业务安全,达到提高 GPU 使用率、降低客户成本的目的。
• qGPU 依托 TKE 对外开源的 Nano GPU 框架,可实现对 GPU 算力与显存的细粒度调度,并支持多容器共享 GPU 与多容器跨 GPU 资源分配。同时依赖底层强大的 qGPU 隔离技术,可做到 GPU 显存和算力的强隔离,在通过共享使用 GPU 的同时,尽量保证业务性能与资源不受干扰。
高性能计算解决方案
渲染解决方案
一般常见问题
网络
存储
镜像
计费
地域和可用区
安全性
GPU 比 CPU 拥有更多的逻辑运算单元(ALU),支持多线程大规模并行计算,适用于如下客户场景:
1、AI计算:深度学习推理、深度学习训练
2、图形图像处理:云游戏、云手机、云桌面、CloudXR
3、高性能计算:流体动力学、分子建模、气象工程、地震分析、基因组学等
您需要根据场景选择实例类型:
AI训练:GN10Xp、GN10X、GT4、GN8、GN6/GN6S
AI推理:GN7、GN10Xp、GN10X、PNV4、GI3X、GN6/GN6S
图形图像处理:GN7vw、GNV4、GNV4v、GI1
科学计算:GN10Xp、GN10X、GT4、GI3X
NVIDIA GPU 实例的类型包括物理直通卡实例(整卡 GPU)和 vGPU 实例(非单颗 GPU,例如1/4GPU)。
物理直通的 GPU 可以使用 Tesla 驱动,也可以使用 GRID 驱动(少数卡型不支持 GRID 驱动)来实现不同场景的计算加速。
vGPU 只能使用特定版本的 GRID 驱动来实现计算加速。
GPU 云服务器 PNV4、GT4、GN10X/GN10Xp、GN6/GN6S、GN7、GN8、GNV4v、GNV4、GN7vw、GI1 支持同实例族下调整实例配置。 GI3X 暂时不支持调整实例配置。
如果在创建实例时遇到资源售罄的情况,建议采取以下措施:
1、更换地域
2、更换可用区
3、更换资源配置
推荐您使用 高性能计算集群。高性能计算集群基于腾讯自研交换机,实现了高带宽低延时的100G RoCEv2 RDMA网络互联,并且具备云上多租户 RDMA 流量强隔离、自动化运维、快速故障切换等特点。
内网 IP :又称私有 IP 地址,为来源 IP 为私网的客户端提供服务的连接地址。外网 IP :又称公有 IP 地址,为来源 IP 为公网的客户端进行公网通信的连接地址。它们可通过网络地址转换直接相互映射。同一地域内服务器,可以经过内网通信;不同地域间服务器,只能通过公网通信。
弹性公网 IP 地址是专为动态云计算设计的静态 IP 地址。它是某地域下一个固定不变的公网 IP 地址。借助弹性公网 IP 地址,您可以快速将地址重新映射到账户中的另一个 CVM 实例(或 NAT 网关实例),从而屏蔽实例故障。
腾讯云为 GPU 云服务器实例提供了不同类型的灵活、经济且易于使用的数据存储设备。分别为云硬盘、本地盘、对象存储 COS、块存储设备映射的存储方案。不同的存储设备具有不同的性能和价格,适用于不同的使用场景。
GPU 裸金属实例部分机型提供本地存储,您可以根据需要搭配远端存储使用。
1、本地存储
部分裸金属实例提供读写性能优越的 Nvme SSD 磁盘,为云实例常规选型的三倍以上,保障高性能计算作业稳定性。
2、远端存储
文件存储:可以选择 Turbo CFS 通过智能网卡技术挂载,存储容量灵活扩容并保障三副本强一致性。
对象存储:搭配 GooseFS 分布式集群架构,提高数据本地性,利用高速缓存功能解决存储性能问题,提高写入对象存储 COS 的带宽。
1、当您的 GPU 云服务器为云硬盘主机时,您可以通过创建系统盘自定义镜像以及数据盘快照的方式来备份您的业务数据。
如需创建自定义镜像,请参考 创建自定义镜像。
如需创建快照,请参考 创建快照。
2、当您的 GPU 云服务器为本地盘主机时,您的系统盘可以通过创建自定义镜像的方式来实现备份。但您的数据盘中的业务数据仍需要您自行定制备份策略。通常可以采用 FTP 方式来将服务器中的数据备份至其他处,具体 FTP 部署方式您可以参考:
Windows 操作系统:Windows 实例搭建 FTP 服务
Linux 操作系统:Linux 实例搭建 FTP 服务
3、另外,若您对数据安全性要求较高,您也可以付费购买更加专业第三方定制备份服务。
如果您选择 vGPU 实例或者渲染型实例,购买页的“公共镜像”里即可选择预装 GRID 驱动的镜像。
您也可以在购买页的“镜像市场”中选择已预装 GPU 驱动的镜像。
腾讯云提供的镜像包括:公共镜像、服务市场镜像、共享镜像、自定义镜像
共享镜像是将自己已经创建好的自定义镜像共享给其他用户使用的镜像。用户可以方便地从其他用户那里获得共享镜像,并从中获得需要的组件及添加自定义内容。
每个镜像最多可以共享给50个用户。共享镜像不占用自身镜像名额。
目前 GPU 云服务器支持包年包月计费模式和按量计费模式。包年包月计费模式需要您提前按单月或数月支付 GPU 云服务器的费用,适用于设备需求量长期稳定的成熟业务。按量计费模式是按秒计费,按小时结算,随时购买随时释放,适用于电商抢购等设备需求量瞬间大幅波动的场景。
预付费:一般为包年包月的购买形式,先购买再使用,系统根据用户选择的云服务类型和数量计算购买金额,对用户账户金额进行扣除。详见 预付费计费说明。
后付费(也称按量计费):先按需申请资源使用,在结算时会按您的实际资源使用量收取费用。根据资源的结算周期进行结算。详见 按量计费说明。
如何选择:在业务场景稳定,需长期使用云资源的情况下,建议选择预付费;在业务发展有较大波动性,且无法进行准确预测,或资源使用有临时性和突发性的情况下建议选择后付费。
选购云服务器时,腾讯云为您提供 价格计算器 。您可以在计算器中进行价格计算,并可加入预算清单进行不同类型的云产品间比较。
腾讯云不同地域之间完全隔离,可保证不同地域间最大程度的稳定性和容错性。我们将逐步增加区域供应以满足更多节点的覆盖。建议用户选择最靠近您客户的地域,可降低访问时延、提高下载速度。关于支持的地域的实时信息。
地域选择原则遵循靠近用户原则和内网通信同地域原则。
靠近用户原则:根据您的用户所在地理位置选择云服务器地域。云服务器越靠近访问客户,越能获得较小的访问时延和较高的访问速度。例如:您的用户大部分位于长江三角洲附近时,上海地域是较好的选择。
内网通信同地域原则:相同地域下的云服务器可以通过内网相互同信(免费);不同地域之间的云服务器不能通过内网相互通信,需经过公网(收费) 。如需多个云服务器内网通信,则必须选择相同的云服务器地域。
每个可用区域在其独立的、物理上显著不同的基础设施中运行,并已设计为具备高可靠性。可用区之间不共用像发电机和冷却设备那样的常见故障点。此外,它们在物理上也是相互独立的,即使火灾、龙卷风或洪涝等极为罕见的灾难也只会影响单个可用区域。
腾讯云提供安全组、加密登录、弹性 IP 等各种网络与安全性服务保障您的实例安全、高效、自由地对内对外提供服务。
您可以完全掌控您的系统的可见性,云服务器允许您将运行的实例放入您选择的任意安全组中。借助 控制台-安全组 的界面,您可以指定组间通信,以及网络上哪些 IP 子网可以与云服务器通信。
如怀疑出现安全隐患或出现不良事件,您可以参考 安全帮助指引 进行排查,同时可参考 主机安全 解决出现的安全问题。