主页 > imtoken钱包官方网址 > 1.NPU 嵌入式神经网络处理器

1.NPU 嵌入式神经网络处理器

imtoken钱包官方网址 2023-06-27 08:44:05

嗯，我申请实习的时候，把NPU当成NLU，然后申请了软件测试。既然已经进入面试，我还是要做好准备，稳住脚。不过，真的xs，我怎么一开始就给这个投了票，我现在真的不知道有人在看职位描述。

文章内容

软件测试理解

职位：软件测试工程师（NPU工具链方向）

职位描述：1、负责测试NPU软件工具链； 2、负责ASIC FPGA验证测试台开发，编写测试用例； 3、配合IC设计工程师和软件工程师完成FPGA验证和验证脚本调试； 4、维护验证计划、测试用例等文档，编写测试报告和验证报告。

职位要求：1、熟悉C/C++/Python编程；2、熟悉linux环境和shell脚本编程；3、了解常见的CNN模型结构和算子计算特征。

IC设计工程师：集成电路设计师，从事IC开发、集成电路开发设计事业。 IC专业是集成电路设计专业。集成电路设计是电子工程和计算机工程的一门学科。其主要内容是利用专业的逻辑和电路设计技术来设计集成电路（IC）。

公司简介

傲比中光科技集团有限公司是一家以AI 3D传感技术为核心的科技创新企业。公司总部位于深圳，在上海、西安、美国设有分公司。 AI 3D感知是为人工智能提供3D视觉能力的关键基础共性技术。傲比中光突破了国际技术垄断，拥有从芯片、算法到系统、框架、上层应用支持的全栈技术实力。四家平台化科技公司，掌握全领域AI 3D感知技术，占据行业制高点。

绵景（Nioke）1.NPU嵌入式神经网络处理器

Embedded Algorithm Transplantation Optimization Study Notes 5 - CPU, GPU, TPU, NPU all what is.

NPU指“嵌入式神经网络处理器”，采用“数据驱动并行计算”的架构，尤其擅长处理视频和图像的海量多媒体数据。 NPU处理器专为物联网人工智能设计，用于加速神经网络运算，解决传统芯片在神经网络运算中效率低的问题。

在这里插入图片描述

什么是 CPU、GPU、TPU、NPU？：NPU处理器包括乘加、激活函数、二维数据运算、解压等模块。乘加模块用于计算矩阵乘加、卷积、点积等函数。 NPU中有64个MAC，SNPU中有32个。激活函数模块采用最高12阶参数拟合方法来实现神经网络中的激活函数。 NPU中有6个MAC，SNPU中有3个。二维数据操作模块用于实现平面上的操作，如下采样、平面数据复制等。NPU中有一个MAC，SNPU中有一个MAC。解压模块用于对权重数据进行解压。为了解决物联网设备内存带宽小的特点，神经网络中的权重会在NPU编译器中进行压缩，在不影响精度的情况下可以达到6-10倍的压缩效果。

其他资讯：什么是NPU，NPU性能参数分解，RK1808 AI芯片-NPU开发介绍，专栏：AI嵌入式设备，NPU矩阵乘法加速详解，CPU、MPU、MCU、SOC的概念和区别，MCU的最强科普总结，手机芯片中的NPU，落地必备的AI算法部署技巧。

将CV算法部署到硬件平台（NPU），实现真正的AI落地。

并行计算gpu挖矿_为什么用gpu而不是cpu挖矿_cpu挖矿和gpu挖矿

2.工具链

工具链是指一系列软件。这些工具通常一个接一个地应用，一个工具的输出馈送到下一个工具，但可以广泛用于单独指多个相关工具。逐个使用这一系列软件可以达到一定的技术目标。

工具链是每个大型开源项目背后的无声力量，包括 Linux 内核本身。它们由一组必要的工具和软件组成，用于编译和调试从最小的工具软件到您能想象到的最复杂的类似 Linux 内核的软件。

以 GNU 为例：GNU 工具链中包含的项目有： GNU make：一个用于编译和构建的自动工具； GNU Compiler Collection (GCC)：一组用于多种编程语言的编译器； GNU Binutils：一个包含链接器、汇编器和其他工具的工具集； GNU Debugger (GDB)：代码调试工具； GNU 构建系统（自动工具）：Autoconf、Autoheader、Automake、Libtool。

任何工具链都依赖于行业标准的过程和存在。流程越完善，就越需要完善的工具链来保证其实施。

3.软件测试3.1 职位定义

高级软件测试工程师，精通软件测试和开发技术，对被测软件的行业非常了解了解并能够分析评估可能出现的问题；中级软件测试工程师，编写软件测试计划和测试文档，与项目组一起制定软件测试阶段的工作计划，能够在项目运行过程中合理使用测试工具完成测试任务；初级软件测试工程师通常根据软件测试计划和程序对产品进行功能测试，以检查产品是否存在缺陷。

测试工程师的职位：

提高测试质量的关键点：

具体工作包括：

使用各种测试技术和方法来测试和发现软件中的软件缺陷。测试技术主要分为两类：黑盒测试和白盒测试。其中，黑盒测试技术主要包括等价类划分法、边值法、因果图法、状态图法、测试大纲法和各种典型的软件故障模型；白盒测试的主要技术包括语句覆盖和分支覆盖。、决策覆盖、基本路径覆盖等；、集成测试、系统测试、性能测试等测试方法，以及基本的测试流程管理、缺陷管理、自动化测试技术等知识。

测试需要贯穿整个软件开发生命周期。一个完整的软件测试工作包括在单个软件测试职业发展的各个阶段的元测试、集成测试、验证测试和系统测试工作。单元测试工作主要在编码阶段完成，由开发人员和软件测试工程师共同完成，其主要依据是详细测试。集成测试的主要工作是测试软件模块之间的接口是否正确实现，其基本依据是软件架构的设计。确认测试和系统测试是在软件开发完成后验证软件功能和要求的一致性，验证软件在相应硬件条件下的系统功能是否满足用户要求，主要以用户要求为依据。

测试人员将发现的缺陷编译成正式的缺陷报告，提交给开发人员进行缺陷确认和修复。编写错误报告的主要要求是确保重现错误。测试人员需要具备良好的写作能力和语言组织能力。

测试人员需要分析软件质量。测试完成后，测试人员需要根据测试结果对软件质量进行分析，包括缺陷率、缺陷分布、缺陷修复趋势等。软件各种质量特性的具体度量，包括功能性、可靠性、易用性给出了使用、安全、时间和资源特性。最后给出一个软件是否可以发布或提交供用户使用的结论。

为什么用gpu而不是cpu挖矿_cpu挖矿和gpu挖矿_并行计算gpu挖矿

在测试过程中，为了更好地组织和实施测试工作，测试组长需要制定测试计划，包括测试资源、测试进度、测试策略、测试方法、测试工具、测试风险等。

为了更好、更有效地进行测试，保证测试工作的质量，测试人员在执行测试工作前需要设计测试用例并形成测试用例报告。设计测试用例是保证测试质量的核心工作，很多测试技术可以用来指导测试用例的设计。为了提高测试用例的设计效率，BTEST培训班专门开设了测试用例高效设计课程，教授各种设计用例的技术和方法。

为了提高工作效率或提高测试水平，测试工作需要引入自动化测试工具，测试人员需要学习使用自动化测试工具，编写测试脚本，进行性能测试。

在测试工作中，测试负责人还需要不断改进测试流程，提高测试水平，根据实际情况组建测试团队。

职业优势：

入学门槛低：大学学历就够了，不管是不是计算机专业。如果是另外一个有商业背景的专业就更有优势了，比如：会计、金融、办公自动化、酒店管理、网站设计等。有行业背景的人上手比较快，因为对于测试工作，有时，了解业务比了解技术更重要。一旦你了解了技术，你需要在各行各业去测试的时候学习商业知识，这是非常重要的。正常的事情。初级技术要求低：目前大部分测试技术仍为人工测试，人工测试的准入门槛很低。您只需要能够编写用例和文件错误。测试人员需要对业务知识有一个简单的了解，学会使用开发的系统，即能使用系统。根据用例执行测试，发现缺陷直接提交。就业好：国外开发与测试的比例为1：2。目前国内开发和测试的比例为6:1。因此，检测行业人才缺口较大，就业前景非常好。基本供不应求。更轻松的工作：软件测试工程师的工作比软件开发工程师的工作相对容易。大开发：测试分为三个阶段：手动测试、自动化测试、性能测试。这是一个循序渐进的过程。最初的工作可能是人工测试，这也是目前大部分测试人员从事的工作。自动化测试是测试的发展趋势，自动化测试人员急缺，工资高。现在最稀缺的就是性能测试仪了，目前性能测试仪的待遇可能比开发同等经验的要高，因为性能测试仪现在处于稀缺状态。年龄越大越受欢迎：软件测试是一种质量检查，包括技术和管理工作。工作比较稳定，没有年龄限制。随着经验的积累，工作年龄越长，越受欢迎。 3.2 基础知识

软件测试工程师的经典面试题

测试用例设计方法——黑盒测试

黑盒测试和白盒测试的区别

性能测试和功能测试

软件测试常见问题面试问题 - 计算机网络相关

4.ASIC 与 FPGA

参考：GPU、FPGA和ASIC，FPGA ASIC原型验证：

在这里插入图片描述

并行计算gpu挖矿_为什么用gpu而不是cpu挖矿_cpu挖矿和gpu挖矿

衡量一个芯片计算性能的一个重要指标叫做计算能力。一般来说，计算能力是通过每秒浮点运算的数量（也称为每秒峰值速度）来衡量的，简称 FLOPS。现有主流芯片的算力已经达到TFLOPS级别。 1 TFLOPS (teraFLOPS) 等于 1 万亿 (=10^12）每秒浮点运算。提高深度学习计算能力需要多维度并行改进：

4.1 FPGA 现场可编程门阵列

FPGA，Field Programmable Gate Array，或Field Programmable Gate Array，是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它作为一种半定制电路出现在专用集成电路（ASIC）领域，不仅解决了定制电路的缺点，而且克服了原有可编程器件门电路数量有限的缺点。

FPGA芯片主要由6部分组成，分别是：可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入式Block RAM、丰富的布线资源、嵌入式底层功能单元和嵌入式专用硬件模块.

FPGA还具有静态可重复编程和动态在系统重配置的特点，可以像软件一样通过编程来修改硬件的功能。 FPGA可以完成任何数字设备的功能，甚至是高性能的所有CPU都可以用FPGA实现。

FPGA有大量的可编程逻辑单元，可根据客户定制，进行有针对性的算法设计。此外，在处理海量数据时，FPGA 优于 FPGA。对于 CPU 和 GPU，独特的优势是 FPGA 更接近 IO。换句话说，FPGA是硬件的底层架构。比如数据由GPU计算，必须先进入内存，在CPU指令下复制到GPU内存中，再在CPU指令下复制到GPU内存中。执行结束后，复制到内存中，由CPU处理。这个过程没有时间优势。如果使用FPGA，数据I/O接口进入FPGA，在去帧后进行数据处理或预处理，然后通过PCIE接口对数据进行处理或预处理。发送到内存供CPU处理，一些非常底层的工作已经被FPGA处理了（FPGA起到协处理器的作用），积累到一定数量后，再转移到内存中DMA的形式，中断通知CPU处理，效率高很多。

虽然FPGA的频率普遍低于CPU，但CPU是通用处理器，做某项操作（如信号处理、图像处理）可能需要很多时钟周期，而FPGA则是可以通过编程对电路进行重组，直接生成专用电路。凭借电路的并行性，完成这一特定操作可能只需要一个时钟周期。

例如，一般的 CPU 一次只能处理 4 到 8 条指令。在 FPGA 上使用数据并行可以一次处理 256 条或更多指令，使 FPGA 能够处理比 CPU 更多的数据。

比如CPU的主频是3GHz，FPGA的主频是200MHz。如果 CPU 需要 30 个时钟周期来做一个特定的操作，而只需要一个 FPGA，那么耗时情况：CPU：30/3GHz = 10ns； FPGA：1/200MHz = 5ns。可以看出，FPGA做这个特定的操作比CPU块快，可以帮助提速。

北京大学和加利福尼亚大学就 FPGA 加速深度学习算法开展的合作研究。显示执行深度学习算法时 FPGA 和 CPU 的耗时比较。运行一次迭代时，使用 CPU 耗时 375 毫秒，使用 FPGA 仅需 21 毫秒，实现了约 18 倍的加速。

FPGA 与 CPU 和 GPU 相比具有显着的能源优势，主要有两个原因。首先，FPGA中没有取指令和指令译码操作。在Intel的CPU中，由于采用了CISC架构，仅解码就占到了整个芯片能耗的50%；在 GPU 中，取指令和解码也消耗了 10% 到 20% 的能量消耗。其次，FPGA的主频远低于CPU和GPU。通常CPU和GPU的主频在1GHz到3GHz之间，而FPGA的主频一般在500MHz以下。如此大的频率差异，使得 FPGA 的能耗远低于 CPU 和 GPU。

FPGA 和 CPU 在执行深度学习算法时的能耗比较。进行深度学习运算时为什么用gpu而不是cpu挖矿，使用 CPU 消耗 36 焦耳的能量，而使用 FPGA 仅消耗 10 焦耳的能量，实现了约 3.5 倍的节能率。通过使用 FPGA 加速和节能，让深度学习实时计算更容易在移动设备上运行。

相比 CPU 和 GPU，FPGA 凭借其比特级细粒度的定制结构、流水线并行计算能力和高效的能耗，在深度学习应用中具有独特的优势。或资源受限的嵌入式应用程序具有巨大潜力。此外，灵活的 FPGA 架构使研究人员能够探索 GPU 等固定架构之外的模型优化。

本质上还是一种芯片。很多人不知道FPGA是软件还是硬件？事实上，它介于软件和硬件之间。如果用于接口和通信，则偏向于硬件；如果用于算法和控制，则偏向于软件。

cpu挖矿和gpu挖矿_为什么用gpu而不是cpu挖矿_并行计算gpu挖矿

4.2 ASIC专用集成电路

ASIC，Application Specific Integrated Circuit，专用集成电路，指设计、制造的集成电路。严格来说，ASIC是一种专用芯片，不同于传统的通用芯片。它是专门针对特定需求定制的芯片。

ASIC作为集成电路技术和特定用户整机或系统技术的产物，与通用集成电路相比具有以下优点：体积更小、功耗更低、提高可靠性、提高性能、增强保密性、并降低成本。回到深度学习最重要的指标：计算能力和功耗。我们将NVIDIA的GK210和一个ASIC芯片规划指标对比如下：

算力方面，ASIC产品的算力2.是GK210的5倍。第二个指标是功耗，是GK210的1/15。第三个指标是内部存储容量的大小和带宽。这个内部的 MEMORY 相当于 CPU 上的 CACHE。深雪中的模型比较大，一般几百MB到1GB不等，会经常被读出。如果模型放在片外DDR，DDR上的带宽压力通常会达到TB/S级别。

与非定制芯片相比，完全定制设计的ASIC由于自身的特点，具有以下优势：1.同样的工艺，同样的功能，采用第一个完全定制的设计，性能提升了7.6 次； 2. 对于常见的设计，全定制和非全定制的差异可能相差1到2个数量级； 3. 全定制方式可以超越非全定制4个工艺节点（28nm全定制设计可能优于5nm非全定制设计）我们认为ASIC的优势在该领域潜力巨大人工智能深度学习。

ASIC 尚未广泛应用于人工智能深度学习，但随着比特币矿机芯片的发展，我们可以做出类似的推理。比特币挖矿和人工智能深度学习的相似之处在于，它们都依赖底层芯片进行大规模并行计算。 ASIC在比特币挖矿领域展现出独特优势。

4.3 ASIC与FPGA对比

FPGA主要用于快速迭代或小批量产品，或者作为算法验证加速的ASIC。 ASIC用于设计规模大、复杂度高的芯片，或者成熟度高、产量比较大的产品；

当需要小批量时，单个FPGA的成本低于ASIC。单片ASIC的成本逐渐降低；在相同工艺条件下，FPGA的功耗要大于ASIC。 FPGA，尤其是那些基于查找表 (LUT) 和基于静态存储器 (SRAM) 的配置元件技术（每个单元占用大量硅面积的六个晶体管），比其 ASIC 同类产品消耗更多的功率；

在速度方面：FPGA基于通用结构，内部布局布线根据RTL设计选择。当然，通用性必然会导致冗余。 ASIC根据设计需求优化单元逻辑资源，实现优化布局布线，减少布线延迟和单元延迟。

定制电路设计和工艺使用的ASIC面积小于FPGA。

FPGA设计流程是先根据需要选择满足设计要求的FPGA芯片，然后按照下图所示流程进行设计（整个FPGA设计流程包括功能描述、电路设计和输入、功能仿真、综合优化、综合后仿真、实现和布局布线、时序仿真、板级仿真和验证、调试和负载配置）。

ASIC设计分为前端设计、后端设计、封装测试（ASIC设计流程（数字芯片）包括：功能描述、模块划分、模块编码输入、模块级仿真验证、系统集成和系统仿真验证、综合、STA（静态时序分析）、形式验证。在ASIC设计过程中，FPGA经常用于原型验证。FPGA验证是ASIC设计的重要环节，然后需要ASIC版本源代码引入。插入IOPAD、DFT、功耗估算等后端流程。完成FPGA验证可以说完成了整个ASIC流程的50-80%。

preview

并行计算gpu挖矿_为什么用gpu而不是cpu挖矿_cpu挖矿和gpu挖矿

两者的定位

FPGA和ASIC产品的使用要根据产品的定位和设计需求来选择，ASIC产品适合设计在特别大的规模上，比如CPU、DSP或者多层交换芯片，或者应用于技术非常成熟、利润率非常低的产品，比如家用电器等消费类电器，或者大量应用的通用设备等。 RAM、PHY等FPGA产品适用于设计规模适中的产品，需要快速占领市场的产品，或者需要灵活特性设计的产品，如PDH、2.5G以下的SDH设备，以及大部分接口转换芯片。当然为什么用gpu而不是cpu挖矿，具体使用哪个产品来设计，需要设计师充分考虑自己的产品定位来决定。

两者正在相互融合

最明显的是FPGA已经集成到处理器中，可编程ASIC也开始出现。随着 SoC 成为主流，两者之间的界限变得不那么明显了。

4.4 测试台

以任何语言编写的程序或模块用于在仿真期间执行和验证硬件模型的功能正确性。 Verilog 主要用于硬件建模（仿真），该语言包含用于格式化、读取、存储、动态分配、比较和写入仿真数据的各种资源，包括输入激励和输出结果。

Testbench主要组件如下：

Schedule 语句：指定所有延迟的时间单位模块：它定义了测试文件的顶层模块。测试文件的顶层模块通常没有输入和输出。端口、测试是直接监控内部信号（例如寄存器和网络）的活动内部信号：它将激励信号驱动到 UUT 并监控 UUT 的响应，信号驱动和监控 UUT 实例化激励生成：编写语句以创建激励和阻止响应监控对比：自检语句，可上报数值、错误和警告

（参考：Testbench写技巧、FPGA中testbench写技巧、Testbench写点、怎么写testbench）

FPGA 验证工程师职责：

1、负责FPGA验证平台的搭建和维护； 2、FPGARTL代码编写、调试与仿真；3、FPGA时序约束文件编写及综合实现；4、负责FPGA验证平台的相关调试与测试；5、 FPGA验证相关文件的编写。

5.linux面试/shell脚本编程

Linux 面试详情

Linux经典面试题及答案

常用的 Linux 命令（用于面试/工作）

20 条 Linux 面试常用命令

70个经典shell脚本面试题及答案