一、并行程序设计中的消息传递机制(论文文献综述)
王岩[1](2020)在《面向水声对抗仿真系统的多核DSP并行程序设计》文中指出本文依托水下战场对抗态势,设计一水声对抗仿真系统平台,一方面为我方声纳在复杂水下环境中,对我方声纳设备整体性能在对抗条件下的应用能力提供科学评估;另一方面,为创新性水声对抗器材研制和水声对抗技术研发提供需求分析、方案推演、技术路线科学性评价;此外,为对抗器材在不同作战环境中的科学部署与使用、对抗效能分析和作战指挥决策提供科学的理论支持和性能评价。水声对抗仿真系统硬件平台采用第三代标准信号处理装备。搭载40片TI公司TMS320C6678高性能DSP芯片,提供标准化高速数据通信接口。同时借助Re Works实时操作系统的底层开放性,针对水声对抗仿真系统的算法结构特征,对DSP内资源调配方式进行定制化设计。之后采用模块化编程模式将系统分为综合阵声纳、拖曳阵声纳、浮标声纳、水下目标模拟等多个计算模块,各模块可单独运行。同时提供外部信号输入接口和战术指挥接口,验证对抗器材影响效果,和战术合理性。在各模块内部综合考虑水声对抗仿真系统算法的计算流程、数据吞吐以及平台适应性,从处理频段、接收阵元、扫描角度等多个并行要素入手,编写高速稳健的并行程序。最后,考虑到动态场景下的算法切换,实现了水声对抗仿真系统的动态重构。水声对抗仿真系统充分发挥硬件平台性能,在编程上实现模块与模块之间、模块内部的算法流程之间以及芯片内部的功能单元之间的同步和异步并行处理。在系统功能上综合考虑目标源特征、信道介质特性及声传播影响等多种因素,从探测态势、目标源级、目标辐射噪声和回波时、频、空特征和目标运动特征等多角度动态模拟对抗器材和被干扰声纳之间的博弈过程。
袁良,张云泉,白雪瑞,张广婷[2](2020)在《并行程序设计语言中局部性机制的研究》文中指出大规模并行应用程序的性能优化和并行化的关键瓶颈之一在于多核CPU中越来越深和越来越复杂的存储层次。文中系统地分析和总结了当前主要多核CPU和并行程序设计语言中的局部性设计方法,提出了两种局部性,即横向局部性和纵向局部性,从这两种局部性的视角深入分析了当前的主要并行程序设计语言的局部性设计机制,进一步总结对比了其优缺点,并指出了新一代并行程序设计语言应具有的特点,重点提出了新语言应同时综合考虑两种局部性支持的设计机制的研究观点。
汤雄超[3](2019)在《并行程序性能故障的检测与规避》文中进行了进一步梳理在并行程序已广泛应用于各行各业的当代社会,保障并行程序的高效运行尤为重要。然而,系统软硬件故障和共享资源争抢等因素会导致并行程序出现性能故障,造成大量资源浪费,甚至带来无法估量的损失。因此,如何检测与规避并行程序的性能故障已成为亟待解决的重要问题。尽管国内外已有相关研究,但现有工作仍存在诸多不足,集中体现在:检测性能故障时,引入的性能开销过大,检测结果不易解读;规避性能故障时,对程序特征和系统特性的考虑不够全面。为更好地解决并行程序性能故障的检测与规避这一问题,本文研究如何低开销地在线检测性能故障并给出直观易读的检测结果,以及如何根据程序特征和系统特性进行针对性的性能故障规避。具体而言,本文的主要创新成果包括:(1)提出了利用并行程序源代码中的负载不变代码段进行性能故障在线检测的技术VSENSOR。VSENSOR通过编译器技术自动识别重复执行且各次执行时负载量不变的代码段,并将其视作并行程序内部的性能基准测试程序,从而利用并行程序的源代码进行性能故障检测,而不需要依赖外部测试程序。VSENSOR引入的运行时性能开销低于4%,平均为1.99%。(2)提出了可用于生产环境的轻量级性能故障在线检测技术VAPRO。VAPRO利用外部函数调用将程序运行过程切片,并通过硬件性能计数器和函数调用参数等运行时信息分析各切片的负载和性能。VAPRO不依赖外部测试程序,也不需要分析或修改源代码或可执行文件,实用性较强,可用于生产环境中的CESM等复杂的并行程序。VAPRO引入的性能开销低于10%,平均为2.38%。(3)提出了基于差异化资源调度的性能故障规避技术UBERUN。UBERUN首先分析并行程序对于缓存容量和内存带宽这两种共享资源的需求差异,接着通过分散共享的进程分布模式规避程序间或程序内的进程对此类共享资源的争抢。与不考虑资源争抢的调度方式相比,UBERUN将并行程序的性能平均提升了 16.2%,将系统整体吞吐率提升了 5.4%。(4)提出了利用显式核间消息传递机制规避互斥锁争抢相关性能故障的技术PLOCK。PLOCK是针对显式核间消息传递这一体系结构新特性设计的线程互斥锁。PLOCK针对核间通信机制进行优化,与基础的核间通信互斥锁方案相比,通信量减少67%,吞吐率提升284%,延迟缩短95%。PLOCK避免了互斥锁竞争引起的缓存和内存争抢,其吞吐率是基于内存的互斥锁的27.37倍。
洪扬[4](2019)在《可扩展共享内存系统的关键技术研究》文中研究指明随着大数据技术的普及,各种领域的应用对于计算资源的需求与日俱增。以Map Reduce、图计算、深度学习等应用为代表的大规模内存计算代表着最新的应用发展方向。然而随着半导体工艺发展的放缓,应用已经无法从处理器的更新换代中持续获得可扩展的性能提升,基于多处理器技术硬件平台已经成为主流。共享内存的抽象是设计运行于多处理器之上的并行应用的基础。小至多核处理器和众核处理器,大至分布式的集群,共享内存系统在各个层次的多处理器环境中都有重要的应用。共享内存系统的设计目标是高可扩展性,即通过增加处理器的数量,应用的性能可以获得相匹配的提升。目前多处理器系统有两种基本的形式:1.单机多处理器上的共享内存系统在一台计算机中集成复数的处理器单元,典型代表是多核系统(Multi-core)和众核系统(Many-core);2.分布式多处理器上的共享内存系统突破了单机多核系统的限制,使用计算机网络把多台计算机连结起来构成一个松耦合的分布式系统,可以很容易通过增加节点机器数量实现水平扩展。然而,在多处理器系统上实现高可扩展性的共享内存抽象存在着一些共同的挑战。首要的挑战是高效地维护共享数据访问的一致性。多个处理器同时访问共享内存时,不可避免地会发生对同一份数据的访问,包括加载和修改。共享内存系统必须保证多个处理器看到的数据是一致的,否则并行程序将无法正确运行。然而维护数据一致性会影响共享内存系统的可扩展性。如果系统保证的一致性越强,则软件的正确性越容易得到保证,但可扩展性越受限;反之,则共享访存具有较高自由度,系统可扩展性也较高,但是软件的正确性也越难保证。其次,实现高效的线程同步也是提高系统可扩展性的挑战之一。线程同步对于协同完成一项任务是必不可少的。并行应用通常使用线程同步机制来控制对于共享数据的访问。然而各种线程同步机制都会引入不可忽视的性能开销,这种开销的增加意味着程序代码中不可并行部分的增加,从而制约可扩展性。最后,共享内存多处理器系统的易用性与性能的取舍也是重要因素之一。并行程序的复杂性以及操作系统调度的不确定性对程序员设计和实现正确的并行应用程序提出了巨大挑战。为了简化编程难度,方便调试和除错,共享内存系统往往需要在内存一致性强弱、数据同步的效率以及编译器和编程语言的支持等层面做权衡取舍。本文的研究工作通过分析传统并行应用和新兴大数据应用,理解应用程序的访存特点和模式,结合现有硬件特性和接口,分析应用的性能瓶颈和可扩展性的制约因素。针对新型大数据应用和新的硬件特性,本文从单机和分布式的共享内存多处理器两个角度,围绕提高应用可扩展性的目的,探索硬件机制、软件系统的架构以及软硬件结合的接口的设计。本文的主要研究内容分为以下三个部分:1.通过分析保证顺序一致性的软硬件方案,研究总结产生违背顺序一致性错误的根本原因,并探索现有的内存屏障机制的内在缺陷。现有的针对内存屏障优化方案往往过于复杂或者依然有优化空间,甚至可能而引入额外性能开销。因此本工作不使用传统的内存屏障机制,而是提出了一种全新的软硬件结合的方案,通过简单的编译器分析技术找出潜在导致违反顺序一致性错误的共享访存并做标记,设计扩展硬件单元在执行访存指令时动态地检测违反顺序一致性的险情,并延迟相关指令的执行,来主动避免错误的发生。通过对线程同步算法和真实并行基准测试的实验,本文实现的系统可以将同步算法的性能提高10%,并将SPLASH-2和PARSEC中因内存屏障导致的开销从42%降至3%。2.通过分析大数据应用的特征,总结大规模内存计算的访存特点和同步模式。本文发现,新兴的大规模内存计算往往具有同步粒度粗、访存时空局部性较好、包含一定同步语义等特点。在此基础上,本文重新思考了传统分布式共享内存的设计,并结合当下处理器性能和计算机网络性能的特点,重新审视分布式共享内存系统的设计。本工作基于IVY的分布式共享内存协议,针对访存特征和硬件特性提出了4项优化方案。这些优化减少了缺页处理的次数,降低了TLB刷新和网络请求的处理开销,并提出一种混合的一致性模型以允许程序员针对特定模式的共享访存使用自定义的数据同步方式,避免了顺序一致性模型的固有缺陷。实验结果表明本工作提出的优化最多可以将图分析算法的性能提升9.25倍,并且显着提升应用的可扩展性。3.通过研究高速网络提供的RDMA通信原语,分析单边原语与双边原语的不同特点,探索底层原语的实现原理和使用的最佳实践。在此基础上,本文分析了分布式共享内存协议中操作之间的相互依赖关系和协议操作开销的主要来源,认为传统的基于消息传递的协议实现会引入性能开销,并探索了协议操作与RDMA原语相结合的可能性。本文提出了一个基于RDMA原语的分布式共享内存协议,根据不同的应用场景使用适合的RDMA原语,并且提出延迟TLB刷新、重叠RDMA请求和基于RDMA的同步原语等优化。实验表明,结合单边和双边原语实现的分布式共享内存协议相比可以减少42%的协议处理时间,并且比之前的工作具有更好的可扩展性。
唐玉华[5](2018)在《面向图搜索的并行计算机体系结构关键技术研究与实现》文中提出随着云计算、移动互联网和物联网等新一代信息技术的创新与普及,人类已经进入大数据时代,我国正在推进实施大数据国家战略。图搜索问题作为大数据应用的典型代表,已成为国际上测评面向大数据计算机能力Graph 500排名的标准测试。大数据应用与传统计算密集型应用存在显着不同,面向大数据应用特征的并行计算机系统结构研究仍处于起步阶段。本文结合国家自然基金重点项目“面向大数据的高时效并行计算机系统结构与技术”和高性能计算国家重点实验室项目“面向大数据处理的并行计算机系统关键技术”,面向图搜索大数据典型应用,针对大数据处理的并行计算机系统结构设计问题展开了系统的研究,包括并行计算机理、宏体系结构、微体系结构及并行计算机原型系统,主要工作与创新点如下:1.提出了面向图搜索的并行计算机性能量化模型(第二章)本文针对图搜索应用的数据驱动、全局同步、随机访问等特征,综合数据规模、并行度、存储访问、通信延迟等因素,采用理论分析与实验验证相结合的办法,建立了计算、访存和通信的综合量化性能模型,可为面向大数据的并行计算机系统设计提供有效指导。2.设计了面向图搜索的可扩展异构并行计算机体系结构(第三章)本文面向图搜索应用特征,设计了通用CPU结合基于FPGA流处理器的可扩展异构并行体系结构,节点内主机与流处理器通过PCIE总线连接,采用主从工作模式;节点间主机通过以太网实现控制连通,而流处理器之间则通过高速InfiniBand网络实现数据连接。设计了硬件支持全局编址的分布式共享存储访问、全局线程同步等技术,可有效缓解图搜索类大数据应用的随机访问和全局同步等问题。3.设计了面向图搜索的向量交叉多线程流处理器体系结构(第四章)本文面向图搜索应用特征,设计了面向图搜索的向量交叉多线程流处理器体系结构,提出了流处理执行机制及其指令集,建立了显式控制数据流动、捕获数据时空局部性的LRF-SRF-MEM三级存储框架,设计了基于5级流水线的向量交叉多线程流处理核,可有效加速图搜索类大数据应用的微处理器并行执行效率。4.设计实现了面向图搜索的流处理器芯片和异构并行计算机原型系统(第五章)本文基于Xilinx VC709开发板采用Verilog语言设计实现了流处理器原型,该原型拥有一个Virtex-7 XC7VX690T-2FFG1761CFPGA芯片,提供2片4GB的SODIMM内存条、8通道PCI-E接口,流处理加速器主频达200MHz;将该开发板与拥有通用微处理器芯片的主机相结合构成一个异构节点,并以此为基础构建了拥有8节点的异构并行计算机原型系统。实验结果验证了论文所提出宏、微体系结构及相关技术的有效性。
廖坤[6](2015)在《基于FT-C6XX多核DSP的MPI移植实现与优化》文中提出FT-C6XX多核DSP(Digital Signal Processor)是由国防科学技术大学计算机学院微电子所自主研发的一款高性能多核数字信号处理器,该芯片主要应用于高新能计算领域。为FT-C6XX多核DSP开发多核并行编程环境对该芯片的应用推广有很大益处,是该项目目前较为重要的工作之一。本文结合FT-C6XX多核DSP的体系结构特征,将MPI(Message Passing Interface)并行编程环境移植到FT-C6XX多核DSP平台上,并对多核间通信方式进行了优化,测试结果表明了本文移植工作的正确性与优化工作的有效性。本文主要的研究内容及贡献包括以下四个方面:(1)总结了基于MPI并行编程环境开发FT-C6XX多核应用程序的方法:主要是将一个串行程序MPI并行化,具体步骤为:分解任务,分配任务,协调进程,进程映射到处理器这几步。(2)基于FT-C6XX体系结构移植实现了MPI并行编程环境:首先移植编译相关工具链:二进制工具集binutils、GCC编译器、u Clibc库生成FT-C6XX多核DSP的交叉编译环境;然后从通信模块、同步模块两个方面将MPI并行编程环境移植到FT-C6XX多核DSP平台上;最后编译生成FT-C6XX多核DSP平台支持的MPI可执行代码。(3)对FT-C6XX的MPI通信性能进行了优化:主要是针对共享内存消息传递方法管理以及长消息传递两个问题,采用消息队列和单拷贝的DMA技术分别对其进行优化。(4)对FT-C6XX的MPI并行编程环境进行测试:通过三个测试用例,π值计算cpi.c、矩阵乘法matrix.c、快速傅里叶变换fft.c验证了移植工作的正确性;通过测试快速傅里叶变换fft.c在优化前后的程序性能,表明优化后程序性能得了10%左右的提升。
周旭[7](2013)在《面向多核/众核体系结构的确定性并行关键技术研究》文中研究指明如今多核已经逐渐取代单核成为当今CPU的主流,未来CPU可能集成更多的核,进入众核时代。然而,随着并行度的增加,并行程序的开发和维护成本也在相应增加。在并行程序中,由于数据竞争、同步竞争、消息竞争等因素的影响,程序在给定的输入下多次运行可能会产生不同的结果,这就是并行程序的不确定性。不确定性是并行程序的一种基本属性,它导致并行程序的缺陷不能充分暴露且不可复现,进而使得并行程序在开发、调试、测试、入侵检测、容错等领域都要比其串行版本要困难得多。为了解决这个问题,近些年学术界提出了确定性并行技术。确定性并行技术的目标是使并行程序在给定的输入下运行,总能得到相同的执行路径和输出结果。这样就可以将并行程序的复杂性简化到和串行程序一样的水平,因此会极大地降低并行程序的开发和维护成本。然而,目前的确定性并行技术还存在着很多问题。例如硬件支持的确定性并行系统存在着移植性问题,并且目前没有真实的硬件实现。纯软件实现的确定性并行系统开销十分巨大。此外,确定性并行系统在可扩展性、稳定性、确定性等方面都存在着不同程度的问题。本文的目的是面向多核/众核体系结构,研究与之适应的确定性并行技术,实现高效可用的确定性并行运行时系统。为此,本文分别针对进程级并行和线程级并行两级并行模式,进行了如下三个方面的研究(主要研究成果):1.全并行的确定性控制技术针对目前线程级确定性并行系统存在的并行度低下的问题,我们研究了全并行的确定性控制技术。该技术解决了一个关键技术问题,即在不弱化确定性目标和内存一致性的前提下,如何最大限度地开发确定性并行系统的并行度。为此,我们引入了确定性同步点,通过在同步点中利用内存拥有权交换技术代替串行执行技术来解决访存冲突,消除不确定性,从而在不牺牲确定性和内存一致性的前提下提升了系统并行度。在此基础上,我们还根据线程之间的通信频率来动态地调节所插入的同步点密度。这样我们就可以平衡同步点的开销和同步点开发的并行度所获得的性能提升。基于这个技术,我们设计和实现了纯软件的FPDet确定性系统。实验表明,和同类的确定性系统DMP(同样保持强确定性和顺序一致性)相比,FPDet系统性能提升了约40%。2.确定性消息传递技术确定性消息传递技术研究面向的是进程级并行,解决多个进程协同运行时的不确定问题。消息传递模型如MPI是进程级并行中普遍使用的一种同步和通信方法。针对MPI模型中存在的混杂消息传递和异步消息传递操作所引起不确定性问题,我们通过引入逻辑时钟,利用确定性消息等待技术和确定性消息映射技术解决上述问题,并利用缓冲机制和死锁检测机制来缓解和消除死锁,实现了进程级并行的确定性控制。我们实现了DMPI确定性消息传递运行时系统,在NPB测试程序集上的实验表明,DMPI系统性能损失只有大约14%。3.无全局同步的确定性并行技术目前强确定性系统无一例外使用全局同步来消除不确定性,然而全局同步会带来正确性、性能和可扩展性等方面的问题。为了解决这个问题,我们提出了一种新的内存一致性模型DLRC(Deterministic Lazy Release Consistency)。DLRC模型将线程内存修改对于其他线程的可见性推迟到线程同步时,并保证线程能看到一个内存修改当且仅当该内存修改依据同步所引起的happens-before时序关系发生在线程当前执行的指令之前。DLRC模型能够限制数据竞争,使得数据竞争的结果依赖于happens-before关系,即同步语句的顺序。同时DLRC仅仅利用了程序自身定义的同步,而不引入额外的全局同步。在此DLRC模型的基础之上,我们利用弱确定性技术消除同步语句竞争,实现了一个无全局同步的强确定性系统RFDet。实验表明,和目前最快的纯软件确定性系统DThreads相比,RFDet性能提升了近一倍。目前的确定性技术依然是学术界的研究热点,并且技术逐渐走向成熟和实用。我们的研究同时支持进程级并行和线程级并行两级并行,实现了一套高效的面向多核/众核体系结构的确定性解决方案。实验表明,本文提出的这些技术和方法是有效的,通过这些技术和方法,我们将确定性并行技术的研究向前推进了一步,使得确定性并行系统的性能和可用性有了很大程度的提高。
崔娇[8](2013)在《并行随机行走算法设计及其在IC电源噪声分析中的应用》文中提出随机行走算法是一个广泛应用于工程应用领域的经典统计算法。随着科技的不断发展,工程研究中的问题规模和复杂度越来越大,如何高效利用随机行走算法是人们面临的一个新问题。面对求解问题复杂度不断增加、处理数据不断增大的事实,迫切需要新的技术或方法促使随机行走算法能够胜任这些新的挑战。并行计算是提高算法执行效率的有效途径之一。程序设计者把具有并行特征的串行算法并行化实现,并运行在高效的并行系统中,从而提高算法的执行效率。因此,可以利用并行计算技术来提高随机行走算法的执行效率本文主要研究并行随机行走算法的设计和应用技术。首先,研究了随机行走算法的基本理论,介绍了并行计算的主要方法,通过分析随机行走算法的可并行性特征,提出了基于MPI的并行随机行走算法。接着,对基于MPI的并行随机行走算法的设计思路和算法流程进行了详细的分析。最后,将设计好的并行随机行走算法应用于电路分析领域,对大规模集成电路的电源噪声进行计算分析。本文提出的并行随机行走算法基于主-从模式进行设计,并通过MPI实现进程间的通信,采用C语言编程实现,并在IBM Blade HS22刀片服务器上进行并行算法的性能测试。通过串行随机行走算法与并行随机行走算法的对比实验,证明并行技术能够有效的提高随机行走算法的执行效率。
张志明[9](2012)在《Linux机群环境下并行蚁群优化算法的设计与实现》文中进行了进一步梳理蚁群优化算法是一种新的模拟进化算法,具有正反馈、元启发式与分布式计算相结合的特点,其中正反馈有助于算法更快地发现较好解,元启发式特征有助于算法更容易地发现较好解,分布式计算则是有利于实现蚂蚁种群的并行寻优。此外,近年来随着计算机技术尤其是高性能微型计算机和高速网络的出现,一种廉价且高性能的并行机群环境逐渐成为并行计算领域的研究热点,这类计算机可以为用户提供低价高效的高性能计算环境和快速、灵活、可靠的计算服务。鉴于蚁群优化算法的分布式特性,本文在构建Linux机群环境下设计并实现了并行蚁群优化算法,并将该算法应用于旅行商问题。本文的主要工作和研究成果如下:(1)在研究分析现有蚁群优化算法和邻域搜索算法的基础上,利用邻域搜索算法对蚁群优化算法产生的初始解进行二次寻优,既能够发挥蚁群优化算法较强收敛性的特征,又能够使邻域搜索算法提高初始解的质量,从而指导后续蚂蚁的寻优过程。(2)通过对现有机群软硬件环境的调研和分析,确定了机群系统的选型,研究并分析了多种并行编程环境,建立了基于Linux的机群系统和基于MPICH的并行编程环境。(3)在Linux机群环境下,按照蚂蚁个体在多个处理器上均匀分布的思想,设计并实现了并行蚁群优化算法,对蚂蚁系统优化算法和蚁群系统优化算法,以及添加邻域搜索的蚂蚁系统优化算法和蚁群系统优化算法进行对比测试,并对加速比等性能指标进行了实例分析。
徐祯[10](2010)在《面向并行程序设计的可视化建模语言体系及支撑系统研究》文中研究说明近年来,高性能并行计算机随着多核处理器的应用已取得了迅速发展和推广应用,然而其硬件架构的日益复杂也同时对并行应用程序和软件的设计与开发技术提出了更艰巨的挑战。为有效降低并行应用程序的设计与开发难度以及提高开发效率,本论文基于高抽象层次和可视化的程序建模思想开展了并行应用程序可视化建模语言及支撑系统的研究工作。本论文首先研究了可视化建模语言体系,提出了一种面向并行程序设计的可视化建模语言规范,定义和设计了语言规范的三个组成部分——语素(或字母表)、语法规范和语义。该语言规范提供了通用的语素表示法、基于形式化文法的语法描述和语义定义。完成了可视化建模语言的语言元素核心集合的设计和定义,采用上下文无关的可视化文法——位置文法理论完成了对语言语法的形式化定义和表示,为可视化建模方法提供了强有力的语言支持。设计并实现了一个实验对FFT并行算法模型进行语法验证,实验结果验证了提出的形式化文法进行模型语法验证的可行性和有效性。为了支持提出的可视化建模语言,研究了可视化建模语言的支撑系统,提出了一种图形模型驱动的并行程序开发方案,在建模阶段由建模支撑系统提供模型编辑和模型验证的方法和系统支持,在模型转换阶段由基于模型解析引擎的模型转换支撑系统提供图形模型至源代码的转换方法和系统支持,以此保证并行程序开发过程中源代码框架的自动生成。实现了可视化建模语言的支撑系统平台ParDT和一种异构环境下的消息传递库,并以矩阵乘算法和SWLAG算法作为应用实例进行了实例验证。实例研究结果表明,该支撑系统能够在保证图形模型正确性和生成代码框架正确性的前提下有效降低算法的设计和开发难度。针对更为复杂的多级混合并行计算环境,研究了多级混合并行计算环境下的可视化建模系统,提出了一种可充分利用多级混合架构下各层次架构并行性的层级式建模思想以及基于此思想的分层建模方案,设计了任务配置层、任务分配层和算法实现层三个可视化建模层次的建模规范。基于该方案设计和实现了面向多级混合并行计算环境的可视化并行程序建模系统e-ParaModel,通过运行实例和建模范例验证了分层建模方案的可行性和有效性。
二、并行程序设计中的消息传递机制(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、并行程序设计中的消息传递机制(论文提纲范文)
(1)面向水声对抗仿真系统的多核DSP并行程序设计(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题研究的目的意义 |
1.2 国内外研究历史和现状 |
1.2.1 水声对抗的国内外发展现状 |
1.2.2 多核DSP发展综述 |
1.3 论文工作安排 |
第2章 水声对抗仿真系统整体设计 |
2.1 水声对抗仿真系统设计需求 |
2.2 战场环境模块设计 |
2.2.1 射线声学原理 |
2.2.2 混响 |
2.2.3 声场模型建立 |
2.3 目标信号模块设计 |
2.4 声纳模块设计 |
2.4.1 阵元级信号生成 |
2.4.2 CBF波束形成 |
2.4.3 MVDR波束形成 |
2.4.4 STMV波束形成 |
2.4.5 LOFAR和 DEMON谱分析 |
2.4.6 DIFAR浮标 |
2.5 水声对抗仿真系统计算量分析 |
2.6 本章小结 |
第3章 三代机平台下DSP资源调度设计 |
3.1 三代机平台和ReWorks操作系统 |
3.1.1 ReWorks实时操作系统 |
3.1.2 三代机硬件平台 |
3.2 流水线结构CPU的中断响应 |
3.3 DSP对 DDR3 的快速访问方法研究 |
3.3.1 EDMA3大数据交互技术 |
3.3.2 基于缓存的DDR3快速访问研究 |
3.3.3 Cache一致性问题 |
3.4 面向竞态条件下的同步机制 |
3.4.1 基于共享内存的同步方式 |
3.4.2 基于IPC的SGN同步 |
3.5 DSP之间的块数据通信 |
3.6 本章小结 |
第4章 水声对抗仿真系统并行算法开发 |
4.1 模块化编程 |
4.2 水声对抗仿真系统程序优化 |
4.2.1 三角函数查数法 |
4.2.2 针对复杂加乘运算的汇编语言应用 |
4.3 水声对抗仿真系统程序结构设计 |
4.3.1 并行程序设计理念 |
4.3.2 信号生成模块并行程序设计 |
4.3.3 综合阵声纳模块并行程序设计 |
4.3.4 拖曳阵声纳模块并行程序设计 |
4.3.5 浮标声纳模块并行程序设计 |
4.4 水声对抗仿真系统联机调试 |
4.4.1 水声对抗仿真系统功能测试 |
4.4.2 水声对抗仿真系统并行性能测试 |
4.4.3 水声对抗仿真系统稳定性测试 |
4.5 本章小结 |
第5章 动态重构下水声对抗仿真系统设计 |
5.1 多核DSP的启动和复位 |
5.1.1 多核DSP的自动启动 |
5.1.2 多核DSP的复位技术 |
5.2 水声对抗仿真系统的动态重构设计与实现 |
5.3 本章小结 |
结论 |
参考文献 |
致谢 |
(2)并行程序设计语言中局部性机制的研究(论文提纲范文)
1 引言 |
2 并行处理器体系结构和程序设计语言的发展趋势 |
2.1 并行处理器体系结构的发展趋势 |
2.2 并行程序设计语言的发展趋势 |
2.3 横向局部性和纵向局部性 |
3 并行程序设计语言及其局部性 |
3.1 基于线程模型的Pthreads |
3.2 基于共享存储模型的OpenMP |
3.3 基于消息传递模型的MPI |
3.4 基于数据并行模型的HPF |
3.5 基于划分的全局地址空间模型的PGAS |
3.5.1 CAF |
3.5.2 Titanium |
3.5.3 UPC |
3.5.4 PGAS语言的局部性 |
3.6 以高生产率为目标的HPCS |
3.6.1 ZPL |
3.6.2 Chapel |
3.6.3 X10 |
3.6.4 HPCS语言的局部性 |
3.7 GPU和流处理器 |
3.7.1 StreamC/KernelC |
3.7.2 Brook和AMD Brook+ |
3.7.3 CUDA |
3.7.4 OpenCL |
3.7.5 流编程模型的局部性 |
3.8 CELL |
3.8.1 IBM Cell SDK |
3.8.2 Cellgen |
3.8.3 Sequoia |
3.8.4 Cell编程模型的局部性 |
4 并行程序语言设计中的横向局部性和纵向局部性 |
4.1 横向局部性 |
4.2 纵向局部性 |
4.3 两种局部性的综合 |
(3)并行程序性能故障的检测与规避(论文提纲范文)
摘要 |
Abstract |
主要符号对照表 |
第1章 引言 |
1.1 研究背景与意义 |
1.2 并行程序性能故障的来源和变化趋势 |
1.2.1 系统部件故障导致程序性能故障 |
1.2.2 共享资源争抢导致程序性能故障 |
1.2.3 性能故障问题日益严重 |
1.3 检测与规避并行程序性能故障的主要挑战 |
1.4 本文的主要贡献 |
1.5 本文的主要内容与组织结构 |
第2章 相关工作 |
2.1 性能故障的分析与检测 |
2.1.1 性能故障来源分析 |
2.1.2 系统噪声 |
2.1.3 利用性能模型检测程序性能故障 |
2.1.4 利用程序日志检测程序性能故障 |
2.1.5 开发者引起的程序故障检测 |
2.1.6 利用PMU分析程序 |
2.1.7 程序结构分析 |
2.2 多个并行程序间的资源共享与性能故障规避 |
2.2.1 批处理作业的资源共享 |
2.2.2 考虑服务质量(QoS)的资源共享 |
2.2.3 获取并行程序的资源需求 |
2.2.4 并行程序资源需求的差异 |
2.3 单个程序内的线程同步优化与性能故障规避 |
2.3.1 基于共享内存的互斥锁 |
2.3.2 临界区任务委托 |
2.3.3 新型体系结构上的锁和委托 |
2.3.4 其他线程同步优化机制 |
第3章 VSENSOR: 基于源代码分析的性能故障在线检测技术 |
3.1 本章概述 |
3.2 整体架构 |
3.3 编译期间识别探针代码段 |
3.3.1 探针代码段的定义 |
3.3.2 过程内分析 |
3.3.3 过程间分析 |
3.3.4 多进程分析 |
3.3.5 并行程序的完整分析 |
3.4 探针代码段的插桩 |
3.5 运行时性能故障检测算法 |
3.5.1 数据平滑 |
3.5.2 性能归一化 |
3.5.3 基于历史信息的性能比较 |
3.5.4 多进程分析 |
3.5.5 性能故障报告 |
3.6 实验评估 |
3.6.1 实验设计 |
3.6.2 正确性验证与性能开销 |
3.6.3 探针代码段的分布 |
3.6.4 性能故障注入实验 |
3.6.5 案例研究 |
3.7 本章小结 |
第4章 VAPRO: 基于运行状态分析的性能故障在线检测技术 |
4.1 本章概述 |
4.2 整体设计 |
4.3 程序结构分析 |
4.4 程序负载推断 |
4.4.1 计算负载推断 |
4.4.2 通信负载推断 |
4.5 性能故障检测 |
4.5.1 负载聚类算法 |
4.5.2 同类负载的性能比较 |
4.5.3 跨进程分析与在线分析 |
4.6 实验评估 |
4.6.1 实验设计 |
4.6.2 性能开销 |
4.6.3 检测覆盖率 |
4.6.4 案例研究 |
4.7 本章小结 |
第5章 UBERUN: 基于差异化资源调度规避进程间资源争抢 |
5.1 本章概述 |
5.2 并行程序的资源争抢与需求差异 |
5.2.1 分散放置进程后的性能变化 |
5.2.2 内存带宽争抢 |
5.2.3 末级缓存容量争抢 |
5.2.4 处理器频率 |
5.2.5 网络通信 |
5.3 系统概览 |
5.3.1 问题定义 |
5.3.2 相关术语 |
5.3.3 整体方案与系统整体架构 |
5.4 系统设计 |
5.4.1 程序性能数据采集 |
5.4.2 单程序进程分散 |
5.4.3 确定分散系数后的资源需求估计 |
5.4.4 作业调度与资源分配 |
5.5 系统实现 |
5.5.1 原型系统实现细节 |
5.5.2 生产环境实现需求 |
5.6 实验评估 |
5.6.1 实验设计 |
5.6.2 整体性能 |
5.6.3 宜分散作业比例的影响 |
5.6.4 大规模集群的模拟分析 |
5.7 本章小结 |
第6章 PLOCK: 基于显式核间通信规避互斥锁相关资源争抢 |
6.1 本章概述 |
6.2 背景介绍 |
6.2.1 SW26010处理器的显式核间通信机制 |
6.2.2 EMP互斥锁的工作原理 |
6.3 设计与优化 |
6.3.1 锁的链式传递 |
6.3.2 锁服务器分层结构 |
6.3.3 PLOCK的设计 |
6.4 面向SW26010处理器的实现 |
6.5 实验评估与讨论 |
6.5.1 实验设计 |
6.5.2 基础测试 |
6.5.3 案例研究 |
6.5.4 改进方向 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 本文工作总结 |
7.2 进一步研究方向 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(4)可扩展共享内存系统的关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 论文研究背景 |
1.2 国内外相关研究 |
1.2.1 大规模内存计算应用 |
1.2.2 内存一致性模型 |
1.2.3 线程间同步 |
1.2.4 编译器和运行时支持 |
1.3 论文的研究内容和主要贡献 |
1.4 论文的结构安排 |
第二章 硬件技术背景与性能分析 |
2.1 多核同步可扩展性问题 |
2.1.1 线程同步的性能测试与分析 |
2.1.2 Fence机制的性能测试与分析 |
2.2 RDMA技术与性能分析 |
2.2.1 RDMA技术背景 |
2.2.2 RDMA的性能测试与分析 |
第三章 无内存屏障的多核同步机制设计 |
3.1 研究概述 |
3.2 研究背景 |
3.2.1 违反顺序一致性的情形 |
3.2.2 写缓冲与内存屏障指令 |
3.2.3 Fence的缺陷 |
3.2.4 相关工作 |
3.3 系统概述 |
3.3.1 Sync-Order的语义 |
3.3.2 Sync-Order的正确性 |
3.4 降低冲突检测开销 |
3.4.1 识别sync-var |
3.4.2 无数据竞争的程序 |
3.5 体系结构扩展 |
3.5.1 流水线的扩展 |
3.5.2 硬件模块的设计 |
3.5.3 写操作之间的冲突 |
3.6 实验结果与分析 |
3.6.1 性能开销 |
3.6.2 Sync-Order的性能数据 |
3.6.3 可扩展性 |
3.7 本章小结 |
第四章 基于消息传递的分布式共享内存系统 |
4.1 研究概述 |
4.2 相关工作 |
4.3 研究动机 |
4.4 系统概述 |
4.4.1 顺序一致性的协议 |
4.4.2 NUMA抽象 |
4.4.3 内存冲突检测 |
4.4.4 分布式的目录 |
4.5 降低协议开销的优化设计 |
4.5.1 预测性页缺失 |
4.5.2 批量翻译缓存失效 |
4.5.3 轮询的消息处理 |
4.5.4 协议旁路操作 |
4.6 实验结果与分析 |
4.6.1 实验方法 |
4.6.2 优化效果 |
4.6.3 可扩展性 |
4.7 本章小结 |
第五章 基于RDMA的分布式共享内存系统 |
5.1 研究概述 |
5.2 相关工作 |
5.3 基于RDMA的分布式共享内存协议 |
5.3.1 协议操作 |
5.3.2 RDMA的接口选择和使用 |
5.3.3 延迟本地TLB刷新 |
5.3.4 重叠RDMA请求 |
5.3.5 基于RDMA的线程同步原语 |
5.4 实验结果与分析 |
5.4.1 页缺失的处理时间 |
5.4.2 基于RDMA的同步机制 |
5.4.3 可扩展性 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
攻读学位期间参与的项目 |
(5)面向图搜索的并行计算机体系结构关键技术研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 相关研究 |
1.2.1 面向大数据的并行计算特征分析 |
1.2.2 并行计算模型研究 |
1.2.3 并行编程模型研究 |
1.2.4 面向图搜索的计算机体系结构研究 |
1.2.5 面向图搜索的并行计算瓶颈研究 |
1.3 研究内容 |
1.3.1 面向图搜索的并行计算机理研究 |
1.3.2 面向图搜索的异构并行计算机体系结构设计 |
1.3.3 面向图搜索的并行流处理器体系结构设计 |
1.3.4 面向图搜索的并行计算机原型系统实现 |
1.4 主要创新 |
1.5 论文组织 |
第二章 面向图搜索的并行计算机理研究 |
2.1 影响图搜索并行性能模型的结构因素研究 |
2.1.1 BFS算法分析 |
2.1.2 构建面向图搜索并行性能模型的结构因素分析 |
2.2 面向图搜索的的并行性能模型及其分析 |
2.2.1 算法性能分析及建模 |
2.2.2 算法性能模型拟合及分析 |
2.2.3 两种通信机制下算法性能对比 |
2.3 面向图搜索的可扩展度量模型及其分析 |
2.3.1 传统可扩展度量模型及分析 |
2.3.2 可扩展度量模型及分析 |
2.4 本章小结 |
第三章 面向图搜索的异构并行计算机体系结构设计 |
3.1 面向图搜索的异构并行计算机体系结构设计 |
3.2 面向图搜索的可扩展分布共享存储体系结构设计 |
3.2.1 面向图搜索的访存瓶颈分析 |
3.2.2 全局统一编址的存储结构设计 |
3.3 面向图搜索的可扩展互连通信体系结构设计 |
3.3.1 基于Infini Band的低延迟子网通信机制设计 |
3.3.2 全局同步机制设计 |
3.4 本章小结 |
第四章 面向图搜索的并行流处理器体系结构设计 |
4.1 向量交叉多线程流处理器体系结构设计 |
4.2 流处理器指令集体系结构设计 |
4.3 基于向量交叉多线程流执行机制的流水线设计 |
4.3.1 基于向量交叉多线程流执行机制的GE-Core流水线 |
4.3.2 GE-Core中的各流水段设计 |
4.3.3 GE-Core中的核心功能部件设计 |
4.4 流处理器存储层次结构设计 |
4.4.1 流寄存器文件——SRF |
4.4.2 片内共享便笺存储器——SPM |
4.4.3 局部寄存器文件——LRF |
4.4.4 主存 |
4.4.5 数据传送接口 |
4.5 流处理器数据通路及其控制器设计 |
4.5.1 访存数据通路的设计 |
4.5.2 访存数据通路的优化 |
4.5.3 访存数据通路的原子操作 |
4.6 本章小结 |
第五章 面向图搜索的并行计算机原型系统实现 |
5.1 并行计算机原型系统设计与实现 |
5.2 单节点原型系统测试与分析 |
5.2.1 访问SRF数据通路的测试 |
5.2.2 访存数据通路的测试 |
5.2.3 多级存储层次结构的访存性能测试 |
5.3 多节点原型系统测试与分析 |
5.3.1 全局统一编址共享存储体系结构的性能测试 |
5.3.2 多节点系统的加速比测试 |
5.4 本章小结 |
第六章 结论与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的研究成果 |
附录 A 流处理器指令集 |
A.1 数据传送类指令 |
A.2 算术运算类指令 |
A.3 逻辑运算类指令 |
A.4 转移控制类指令 |
A.5 同步控制类指令 |
(6)基于FT-C6XX多核DSP的MPI移植实现与优化(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 多核技术的发展及挑战 |
1.1.2 课题来源 |
1.2 国内外相关研究 |
1.2.1 共享变量模型 |
1.2.2 数据并行模型 |
1.2.3 消息传递模型 |
1.2.3.1 MPI现有的实现 |
1.2.3.2 MPI研究热点 |
1.3 论文主要工作 |
1.4 论文组织结构 |
第二章 MPI程序设计与性能评估 |
2.1 MPI并行程序设计方法 |
2.1.1 MPI并行程序设计步骤 |
2.1.2 矩阵乘法MPI设计实例 |
2.2 MPI并行程序性能分析 |
2.2.1 执行时间 |
2.2.2 加速比与效率 |
2.3 MPI并行程序开销分析 |
2.4 本章小结 |
第三章 基于FT-C6XX多核DSP的MPI移植实现 |
3.1 实验平台、开发调试环境介绍以及调试步骤分析 |
3.1.1 实验平台、开发调试环境介绍 |
3.1.2 在FT-C6XX多核DSP上调试MPI程序步骤分析 |
3.2 MPICH总体结构 |
3.2.1 MPI接口实现层 |
3.2.2 MPI抽象设备层 |
3.2.3 MPI通道接口层 |
3.3 移植过程分析及移植难点 |
3.3.1 移植实现过程分析 |
3.3.2 MPI移植难点分析 |
3.4 binutils二进制工具集移植 |
3.4.1 BFD库的移植 |
3.4.2 汇编器GNU AS移植 |
3.4.3 链接器GNU LD移植 |
3.5 GCC编译器移植 |
3.5.1 ftc6xx.h文件 |
3.5.2 ftc6xx.c文件 |
3.5.3 ftc6xx.md文件 |
3.6 uclibc库的移植 |
3.7 MPI的通信模块移植实现 |
3.7.1 基于FT-C6XX多核DSP的MPI核间共享内存实现 |
3.7.1.1 共享内存初始化 |
3.7.1.2 共享内存动态申请 |
3.7.1.3 共享内存动态释放 |
3.7.2 基于FT-C6XX多核DSP的MPI消息队列实现 |
3.7.2.1 消息队列创建与释放 |
3.7.2.2 消息队列的初始化 |
3.7.2.3 消息队列管理 |
3.7.3 基于共享内存SM的消息传递方法 |
3.8 多核通信同步方式的移植实现 |
3.8.1 基于核间中断管理的同步方式 |
3.8.2 基于核间共享信号量的同步方式 |
3.8.2.1 信号量管理的工作原理 |
3.8.2.2 创建/删除一个信号量 |
3.8.3 基于栅栏的核间任务同步方式 |
3.8.3.1 在FT-C6XX多核DSP上设计栅栏 |
3.8.3.2 栅栏的初始化 |
3.9 MPI的配置及编译 |
3.10 本章小结 |
第四章 FT-C6XX的MPI进程间通信性能优化 |
4.1 基于共享内存的消息队列的消息传递方法及其优化方法 |
4.1.1 基于共享内存的消息队列的消息传递方法 |
4.1.2 使用lock_free_queue对消息传递方法进行优化 |
4.1.3 Fastbox的旁路队列机制 |
4.1.4“影子指针”的使用 |
4.2 单拷贝技术的应用 |
4.3 FT-C6XX多核DSP上基于MPI的DMA消息传递方法 |
4.3.1 直接使用DMA搬移方式的消息传递方法 |
4.3.2 基于nemesis通道的LMT接口的DMA消息传递方法 |
4.4 本章小结 |
第五章 基于FT-C6XX多核DSP的MPI程序性能测试 |
5.1 用数值积分法计算圆周率π |
5.1.1 计算圆周率π的MPI并行算法 |
5.1.2 π值计算MPI并行程序测试结果及分析 |
5.2 矩阵运算并行计算 |
5.2.1 矩阵乘法算法分析 |
5.2.2 矩阵乘法MPI并行程序测试及分析 |
5.3 fft快速傅里叶变换算法 |
5.3.1 对MPI进程间通信性能优化前fft.c程序测试及分析 |
5.3.2 对MPI进程间通信性能优化后fft.c程序测试及分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(7)面向多核/众核体系结构的确定性并行关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 多核/众核的并行发展趋势 |
1.1.2 并行的不确定性问题 |
1.1.3 确定性并行技术 |
1.2 研究内容及贡献 |
1.3 文章结构 |
第二章 相关研究 |
2.1 确定性运行时技术 |
2.1.1 DMP系统 |
2.1.2 Kendo算法 |
2.1.3 CoreDet和RCDC |
2.1.4 Grace和DThreads |
2.1.5 输入稳定性系统 |
2.2 其他确定性并行技术 |
2.2.1 硬件确定性技术 |
2.2.2 确定性编程语言 |
2.2.3 确定性操作系统 |
2.2.4 确定性算法 |
2.2.5 确定性编程模型 |
2.3 记录-回放技术 |
2.4 确定性并行系统评价 |
第三章 全并行的确定性控制技术 |
3.1 FPDet系统设计 |
3.1.1 总体设计 |
3.1.2 FPDet技术细节 |
3.1.3 并行度分析 |
3.2 自适应的轮长度调节机制 |
3.3 FPDet实现技术 |
3.3.1 编译插桩 |
3.3.2 运行时库 |
3.4 评测 |
3.4.1 实验方法 |
3.4.2 确定性 |
3.4.3 执行时间 |
3.4.4 可扩展性 |
3.4.5 性能稳定性 |
3.5 讨论 |
3.6 本章小结 |
第四章 确定性消息传递技术 |
4.1 MPI的不确定性因素 |
4.1.1 异步消息传递 |
4.1.2 混杂消息接收 |
4.1.3 其他不确定因素 |
4.2 确定性消息传递技术 |
4.2.1 总体设计 |
4.2.2 逻辑时钟 |
4.2.3 确定性消息等待 |
4.2.4 确定性消息映射 |
4.3 优化 |
4.3.1 性能优化 |
4.3.2 死锁优化 |
4.4 评测 |
4.4.1 实验方法 |
4.4.2 性能 |
4.4.3 内存开销 |
4.4.4 可扩展性 |
4.5 本章小结 |
第五章 无全局同步的确定性并行技术 |
5.1 全局同步问题 |
5.2 设计思想 |
5.3 DLRC模型 |
5.3.1 正确性 |
5.3.2 兼容性 |
5.4 DLRC模型的软件实现 |
5.4.1 内存空间设计 |
5.4.2 时序关系描述 |
5.4.3 执行切片 |
5.4.4 内存修改传播 |
5.5 确定性同步顺序 |
5.5.1 逻辑时钟 |
5.5.2 确定性加锁算法 |
5.6 RFDet实现细节和优化 |
5.6.1 同步语句实现 |
5.6.2 内存修改监控 |
5.6.3 动态内存分配 |
5.6.4 垃圾收集 |
5.6.5 优化技术 |
5.7 评测 |
5.7.1 实验方法 |
5.7.2 确定性 |
5.7.3 性能 |
5.7.4 可扩展性 |
5.7.5 兼容性 |
5.7.6 稳定性和可移植性 |
5.8 讨论 |
5.9 本章小结 |
第六章 结论与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(8)并行随机行走算法设计及其在IC电源噪声分析中的应用(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1. 选题背景与意义 |
1.2. 国内外研究现状 |
1.3. 本文的主要工作及贡献 |
1.4. 本文的组织结构 |
第二章 随机行走算法 |
2.1. 随机行走问题描述 |
2.2. 随机行走问题解决策略 |
2.3. 随机行走过程与电路网络分析的等效性 |
2.4. 串行随机行走算法的设计与实现 |
2.4.1. 数据结构 |
2.4.2. 算法流程 |
2.4.3. 验证实验 |
2.5. 本章小结 |
第三章 并行计算 |
3.1. 并行计算概述 |
3.2. 并行计算机存储模式 |
3.3. 并行计算性能评价标准 |
3.3.1. 并行执行时间 |
3.3.2. 加速比 |
3.3.3. 效率 |
3.3.4. 可扩展性和可移植性 |
3.4. MPI消息传递机制 |
3.4.1. MPI概述 |
3.4.2. MPI基本函数 |
3.4.3. MPI并行程序设计基本模式 |
3.5. 本章小结 |
第四章 并行随机行走算法设计 |
4.1. 引言 |
4.2. 随机行走算法的并行化特征分析 |
4.3. 并行随机行走算法的设计与实现 |
4.3.1. 随机行走算法并行思路 |
4.3.2. 并行随机行走算法流程图 |
4.3.3. 并行随机行走算法的时间复杂度分析 |
4.4. 实验结果与分析 |
4.4.1. 处理器可扩展性 |
4.4.2. 数据可扩展性 |
4.4.3. 加速比评测实验 |
4.5. 本章小结 |
第五章 IC电源网格噪声分析 |
5.1. 引言 |
5.2. 并行随机行走算法进行IC电源噪声分析的优点 |
5.3. 电源网格模型简化 |
5.4. 实验分析 |
5.5. 本章小结 |
总结与展望 |
本文总结 |
本文研究的未来展望 |
参考文献 |
在学校期间的研究成果以及发表的学术论文 |
致谢 |
(9)Linux机群环境下并行蚁群优化算法的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 蚁群优化算法的研究现状 |
1.2.2 并行处理技术的发展 |
1.2.3 并行蚁群优化算法的研究现状 |
1.3 研究内容及论文结构 |
第二章 蚁群优化算法概述 |
2.1 蚁群优化算法简介 |
2.1.1 蚁群优化算法的概念 |
2.1.2 蚁群优化算法的模型特征 |
2.1.3 蚁群优化算法优缺点 |
2.2 邻域搜索算法 |
2.2.1 邻域搜索算法概述 |
2.2.2 邻域搜索算法流程 |
2.3 蚁群优化算法中常用术语 |
2.4 本章小结 |
第三章 并行机群系统及 MPI 并行程序设计 |
3.1 机群系统概述 |
3.2 典型机群系统 |
3.2.1 工作站机群系统 |
3.2.2 Beowulf 机群系统 |
3.3 机群环境下并行编程模式 |
3.3.1 数据并行 |
3.3.2 消息传递 |
3.3.3 共享存储 |
3.4 MPI 并行程序设计概述 |
3.4.1 MPI 概述 |
3.4.2 MPI 基本数据类型及主要函数 |
3.4.3 MPI 程序通信模式 |
3.4.4 MPI 并行程序设计模式 |
3.5 本章小结 |
第四章 并行 LINUX 机群系统设计与实现 |
4.0 机群系统总体结构设计 |
4.1 硬件环境 |
4.2 软件环境 |
4.2.1 操作系统 |
4.2.2 NFS(Network File System)和 SSH(Secure Shell) |
4.2.3 并行计算环境 MPICH |
4.3 本章小结 |
第五章 基于 MPI 的并行蚁群优化算法实现 |
5.1 并行蚁群优化算法性能指标 |
5.2 并行蚁群优化算法设计 |
5.2.1 并行算法设计 |
5.2.2 并行蚁群优化算法常用并行策略 |
5.3 并行蚁群优化算法描述及流程图 |
5.3.1 算法描述 |
5.3.2 并行蚁群优化算法流程图 |
5.4 实验结果及分析 |
5.5 本章小结 |
第六章 结论与展望 |
6.1 主要结论 |
6.2 研究展望 |
参考文献 |
附录 |
攻读硕士学位期间发表的论文 |
致谢 |
(10)面向并行程序设计的可视化建模语言体系及支撑系统研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状和发展趋势 |
1.3 主要工作和贡献 |
1.4 本论文的组织结构 |
第二章 相关工作介绍 |
2.1 并行计算硬件环境 |
2.2 并行应用程序设计文本语言与开发环境 |
2.2.1 并行程序设计文本语言 |
2.2.2 开发环境 |
2.3 面向并行程序设计的可视化语言和开发环境 |
2.4 小结 |
第三章 可视化建模语言体系研究 |
3.1 问题定义与可视化建模语言 |
3.2 面向并行应用程序设计的可视化建模语言规范 |
3.2.1 可视化建模语言的语素 |
3.2.2 可视化建模语言的语法规范及形式化 |
3.2.3 可视化建模语言的语义 |
3.3 可视化建模语言的研究和设计 |
3.3.1 基于并发式编程范式的语言设计 |
3.3.2 基于消息传递编程范式的语言设计 |
3.4 实例验证 |
3.4.1 实验对象 |
3.4.2 实验方案设计及实施 |
3.4.3 实验总结及讨论 |
3.5 小结 |
第四章 可视化建模语言支撑系统研究 |
4.1 可视化建模语言支撑系统功能架构 |
4.1.1 图形模型驱动的并行程序开发方案 |
4.1.2 可视化建模语言支撑系统的定义和功能架构 |
4.2 建模支撑系统研究 |
4.2.1 图形模型编辑 |
4.2.2 图形模型验证 |
4.3 模型转换支撑系统研究 |
4.3.1 图形模型的数据结构 |
4.3.2 图形模型至源代码的模型转换 |
4.4 可视化建模语言支撑系统实现 |
4.4.1 可视化建模语言支撑系统的平台实现 |
4.4.2 消息传递库的实现 |
4.5 应用实例研究 |
4.5.1 应用实例——矩阵乘算法 |
4.5.2 应用实例——SWLAG 算法 |
4.6 小结 |
第五章 多级混合并行计算环境下的可视化建模系统研究 |
5.1 多级混合并行计算环境下并行程序设计过程分析 |
5.2 层级式建模思想和分层建模方案研究 |
5.2.1 层级式建模思想 |
5.2.2 分层建模方案 |
5.3 层级式可视化建模系统研究 |
5.3.1 任务配置层 |
5.3.2 任务分配层 |
5.3.3 算法实现层 |
5.4 e-ParaModel 建模系统实现与运行实例 |
5.5 小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
四、并行程序设计中的消息传递机制(论文参考文献)
- [1]面向水声对抗仿真系统的多核DSP并行程序设计[D]. 王岩. 哈尔滨工程大学, 2020(05)
- [2]并行程序设计语言中局部性机制的研究[J]. 袁良,张云泉,白雪瑞,张广婷. 计算机科学, 2020(01)
- [3]并行程序性能故障的检测与规避[D]. 汤雄超. 清华大学, 2019(02)
- [4]可扩展共享内存系统的关键技术研究[D]. 洪扬. 上海交通大学, 2019(06)
- [5]面向图搜索的并行计算机体系结构关键技术研究与实现[D]. 唐玉华. 国防科技大学, 2018
- [6]基于FT-C6XX多核DSP的MPI移植实现与优化[D]. 廖坤. 国防科学技术大学, 2015(03)
- [7]面向多核/众核体系结构的确定性并行关键技术研究[D]. 周旭. 国防科学技术大学, 2013(01)
- [8]并行随机行走算法设计及其在IC电源噪声分析中的应用[D]. 崔娇. 西北大学, 2013(S1)
- [9]Linux机群环境下并行蚁群优化算法的设计与实现[D]. 张志明. 长安大学, 2012(08)
- [10]面向并行程序设计的可视化建模语言体系及支撑系统研究[D]. 徐祯. 天津大学, 2010(07)