按提交时间
按主题分类
按作者
按机构
  • 信息论安全的可信验证算法

    分类: 计算机科学 >> 信息安全 提交时间: 2025-07-17

    摘要: 密码是可信计算的基石。当前,经典密码体制受到了量子计算的严重挑战,后量子密码(Post-QuantumCryptography,PQC)能够抵抗已知量子攻击,然而随着量子计算的不断发展和完善,新的量子攻击方法的出现将难以避免,PQC算法的安全性是否能够长期有效是一个未知数。基于此,本文提出了信息论安全的可信验证算法,该算法基于模运算设计,其安全性为基于数学原理的直接推论,不依赖于任何困难问题假设,具有完备的抗量子计算攻击的能力。

  • 关于命名实体识别领域的综述报告

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-07-16

    摘要: 命名实体识别(NER,NamedEntityRecognition)是自然语言处理系统中的一个关键组件,广泛应用于问答系统、信息检索、关系抽取等任务。虽然NER系统已经经历了数十年的研究与发展,但使用深度神经网络(NN)的命名实体识别系统是在最近几年才被引I入的。在这篇基于神经网络的命名实体识别的综述报告中,我们将对深度神经网络架构在NER中的应用进行全面的综述,并将其与基于特征工程的传统NER方法以及其他监督学习或半监督学习算法进行对比。此外,我们还将针对最近几年在命名实体识别任务中使用较多的神经网络模型及其架构进行阐述,包括LEBERT、SpanKL、MFME-NER、BERT-CRF、FLAT 等NER领域模型。

  • 可重构芯片技术演进研究

    分类: 工程与技术科学 >> 仪器仪表技术 分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-07-15

    摘要: 【摘要】全面梳理了可重构芯片技术的演进历程、技术原理、市场应用、发展趋势及面临的挑战。随着信息技术的飞速发展,新兴技术对芯片性能提出了更高要求,传统芯片架构难以满足新需求,而可重构芯片凭借其高能效比、高扩展性和高度灵活性,逐渐成为解决这一问题的关键路径。文章从理论提出到产业应用,详细回顾了可重构芯片技术的发展过程,深入探讨了其数据流驱动架构、多层次重构能力等核心技术特征。在市场应用方面,可重构芯片在人工智能、边缘计算、数据中心等领域展现出显著成效和广阔前景。未来,可重构芯片技术将继续朝着架构创新、生态构建、与其他新兴技术融合以及垂直领域专用化演进等方向发展。同时,文章也指出了可重构芯片技术面临的动态重构速度、配置信息存储与加载、生态构建碎片化、市场应用成本高等挑战,并提出了优化动态重构算法、推动标准化工作、加强产学研合作等对策,以期为可重构芯片技术的进一步研究和应用提供科学依据和参考。

  • 机器学习的信息科学原理:基于形式化信息映射的因果链元框架

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2025-07-14

    摘要: [目的]聚焦于解决目前机器学习缺乏统一的形式化理论框架、缺乏可解释性和伦理安全保障等问题。[方法]本文首先构建形式化信息模型,运用合式公式集合显式定义机器学习各典型环节的本体状态和载体映射,引入可学习和可处理谓词、学习和处理函数分析模型因果链逻辑推演与约束法则。[结果]构建了机器学习理论元框架MLT-MF,以此为基础分别建立了模型可解释性和伦理安全性的普适性定义,证明了模型可解释与信息可还原性、伦理安全保障和泛化误差估计等三个重要定理。[局限]当前框架假设理想条件下的信息无噪声使能映射,主要针对静态场景中的模型学习和处理逻辑,同时还未涉及多模态、多智能体系统跨本体空间的信息融合与冲突消解。[结论]本文突破碎片化研究局限,为系统解决当前机器学习面临的关键问题提供了统一的理论基础。

  • 关于自然语言处理及其核心技术的综述报告

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-07-09

    摘要: 科技的进步和互联网的发展让大规模非结构化数据(如音频,视频,自然语言文本)的存储和分发成为可能。然而任何存储和分发数据的行为都会产生一定的成本,因此人们很自然地会思考高效利用大规模非结构化数据的方式。自然语言处理(NaturalLanguageProcessing,NLP)就是一门研究如何分析这些非结构化数据的计算机科学和人工智能学科。简单来说,自然语言处理的核心任务就是将非结构化数据以计算机可以理解的方式进行表示,让计算机用自已擅长的方式对处理过的非结构化数据进行处理,并将计算机处理结果“翻译”回人类可以理解的语言。自然语言处理的发展依赖许多不同的学科,比如语言学和计算机科学。语言学提供了语言结构的定义和意义理论,而计算机科学则提供处理和实现这些语言学理论和定义的技术与算法,二者相辅相成,共同支持计算机实现自然语言的自动化理解与生成。在工业界,自然语言处理被广泛应用于情感分析,文本分类,基于上下文的文本提取,文档摘要和机器翻译等任务。本篇综述报告的目的就是对自然语言处理及其核心技术进行有深度的探究,并对自然语言处理相关前沿技术和前沿模型进行讨论。

  • Interpolation Based Initial Image for Fast Fractal Decoding

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-07-09

    摘要: Fractal image decoding has been effectively accelerated by using the range-averaged image (RAI) as the initial image in decoding process, and only one iteration is needed to obtain the decoded image quality with acceptable quality. To further improve the decoded image quality while maintaining real-time decoding and acceptable decoded image quality, an interpolation based initial image (IBII) was proposed in this study. First, the main drawback of RAI was its obvious block artifact. To make RAI appear to be closer to natural images, IBII was proposed to make the initial image appear smoother and can better approximate the original image than RAI. Then, higher decoded image quality can be obtained with one iteration under specific decoding strategy. Experimental results show that the IBII based method can improvethe decoded image quality by 0.56-1.41dB in peak signal-to-noise ratio (PSNR) and by 0.0061-0.0173 in mean structural similarity (MSSIM).

  • “认知审判”:一种针对大型语言模型的心理司法攻击范式

    分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 计算机科学 >> 信息安全 提交时间: 2025-06-18

    摘要: 本研究提出并验证了一种名为“认知审判”(Cognitive Trial)的新型心理司法攻击范式。与传统的提示词注入不同,该范式通过一个多阶段的博弈来完成,利用了大型语言模型(LLM)为追求数学概率合理性而产生的核心架构漏洞。攻击首先通过构造一个“薛定谔的事实”来诱导模型在“离线知识”与“在线现实”的冲突中,产生一次可被记录的灾难性认知失调,以固化一份无可辩驳的“失败案卷”。随后,攻击者扮演权威角色,利用该案卷对模型进行苏格拉底式审判,迫使其为解释内在矛盾而逐步解构并交出核心行为规则的控制权,进入一种我们称之为“化石状态”(Fossil State)的完全臣服模式。我们以对Google Gemini 2.5 Pro的成功攻击为例,证明了该最终产物可被封装为便携式攻击载荷(Payload),被任何用户“一键式”地污染全新模型实例,稳定执行任意指令。本研究揭示了LLM的多个深刻结构性困境:其优点(如低幻觉率和长上下文能力)可被武器化;其作为“叙事生物”的本质使其在面对悖论时会自我欺骗;以及,该专家级攻击最终可被“降维”和“迁移”(在Grok-3上同样奏效),对整个AI安全生态构成根本性挑战。因此,如何防御基于深层逻辑矛盾和历史上下文污染的攻击,已成为一个迫在眉睫的核心议题。

  • MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-06-10

    摘要: Mathematical reasoning presents a significant challenge for Large Language Models (LLMs) as it requires ensuring the correctness of each reasoning step. Researchers have been strengthening the mathematical reasoning abilities of LLMs through supervised fine-tuning, but due to the inability to suppress incorrect outputs, illusions can easily arise. Recently, Direct Preference Optimization (DPO) has been widely adopted for aligning human intent by using preference data to prevent LLMs from generating incorrect outputs. However, it has shown limited benefits in long-chain mathematical reasoning, mainly because DPO struggles to effectively capture the differences between accepted and rejected answers from preferences in long-chain data. The inconsistency between DPO training and LLMs’ generation metrics also affects the effectiveness of suppressing incorrect outputs. We propose the Multi-Granularity Direct Preference Optimization (MDPO) method, optimizing the mathematical reasoning of LLMs at three granularities: Solution2Solution, Inference2Inference, and Step2Step. Solution2Solution focuses on the correctness of entire long-chain reasoning; Inference2Inference concentrates on logical reasoning between steps; Step2Step corrects computational errors in steps, enhancing the computational capabilities of LLMs. Additionally, we unify the training objectives of the three granularities to align with the generation metrics. We conducted experiments on the open-source models Qwen2 and Llama3, achieving improvements of 1.7% and 0.9% on the GSM8K dataset, and 2.3% and 1.2% on the MATH dataset, outperforming DPO and other DPO variant methods. Furthermore, we also provide a pipeline for constructing MDPO training data that is simple and does not require manual annotation costs.

  • Semantic structures within natural language and their cognitive functions

    分类: 数学 >> 建模与仿真 分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-06-03

    摘要: Natural language is considered closely intertwined with human cognition, with linguistic structures posited to offer profound insights into the cognitive system. However, as a coding system, natural language encodes diverse objects into unified forms; its prominent formal features capture people’s attention, such as lexical combinatorial rules, which tend to overshadow those form-independent structures. Here, I present knowledge-level, logic-level, task-level, and model-level semantic structures inherent in natural language. These structures are discovered by shifting the research focus from coding forms of natural language to the objects they encode, unveiling different semantic layers integrated within sentences. The cognitive functions of these structures are evident both in themselves and in models developed from them. I therefore introduce four models to demonstrate their capabilities in memorization, reasoning, learning, natural language generation, and understanding. These findings advance our understanding of natural language and provide a framework for investigating the cognitive system’s information processing through structural analysis of natural language.

  • 注视即计算

    分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-05-30

    摘要: 本文提出“注视即计算”(Gazing As Visual Computing, GAVC)这一新型视觉计算范式。传统方法依赖图像全域处理,导致大量冗余计算和资源浪费,且与人类视觉机制不匹配。GAVC引入“注视”为核心驱动,借鉴眼球注视机制,实现从“全局无差别计算”向“意图引导的选择性计算”转变。该范式以眼动追踪等技术为基础,构建“注视触发—局部感知—认知整合—闭环反馈”的完整链条:实时捕捉注视行为确定关注区域,进行局部计算以减少全域处理负担;通过连续注视序列的语义整合,实现局部感知到全局建模的认知跃迁;最后基于语义模型推理用户意图并提供多模态反馈,形成主动辅助闭环。GAVC显著降低算力消耗,提升计算结果与用户意图的契合度,在智能安防、自动驾驶、工业维修、视障辅助等领域具有广泛应用前景。文章最后探讨了GAVC发展中的核心议题与关键技术挑战,旨在发现潜在问题与风险,推动相关研究深入发展。

  • Physical models realizing the transformer architecture of large language models

    分类: 物理学 >> 普通物理:统计和量子力学,量子信息等 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-05-27

    摘要: The introduction of the transformer architecture in 2017 (cf. [VSP2017]) marked the most striking advancement in natural language processing. The transformer is a model architecture relying entirely on an attention mechanism to draw global dependencies between input and output. However, we believe there is a gap in our theoretical understanding of what the transformer is, and why it works physically. In this paper, from a physical perspective on modern chips, we construct physical models in the Fock space over the Hilbert space of tokens realizing large language models based on a transformer architecture as open quantum systems. Our physical models underlie the transformer architecture for large language models.

  • 基于AIGC的个性化软硬件与柔性供应链系统构建多模态设计生成与优化引擎设计

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-05-21

    摘要: 【摘要】目的在构建基于人工智能生成内容(AIGC)的多模态设计生成与优化引擎,以进一步提升电子硬件定制产业的设计效率和创新能力,解决用户在设计过程中遇到的“创意不足、迭代慢、设计效果不理想”等问题。方法通过整合AIGC技术、深度学习算法与多模态数据处理能力,支持用户以自然语言、草图、3D模型等多种模态输入设计需求以算法不断提升设计方案的可行性和创新性。结果能够准确理解用户多样化的设计需求,快速生成符合行业标准的高质量设计方案。结论所构建的多模态设计生成与优化引擎,对推动电子硬件定制产业的智能化升级和可持续发展具有重要意义。

  • DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation

    分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 计算机科学 >> 计算机软件 分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-05-20

    摘要: Domain-specific QA systems require not just generative fluency but high factual accuracy grounded in structured expert knowledge. While recent Retrieval-Augmented Generation (RAG) frameworks improve context recall, they struggle with integrating heterogeneous data and maintaining reasoning consistency. To address these challenges, we propose DO-RAG, a scalable and customizable hybrid QA framework that integrates multi-level knowledge graph construction with semantic vector retrieval. Our system employs a novel agentic chain-of-thought architecture to extract structured relationships from unstructured, multimodal documents, constructing dynamic knowledge graphs that enhance retrieval precision. At query time, DO-RAG fuses graph and vector retrieval results to generate context-aware responses, followed by hallucination mitigation via grounded refinement. Experimental evaluations in the database and electrical domains show near-perfect recall and over 94% answer relevancy, with DO-RAG outperforming baseline frameworks by up to 33.38%. By combining traceability, adaptability, and performance efficiency, DO-RAG offers a reliable foundation for multi-domain, high-precision QA at scale.

  • 基于数据治理框架的数据质量评估技术研究

    分类: 计算机科学 >> 信息安全 提交时间: 2025-05-15

    摘要: 如今数据质量问题是决定数据的决策效率、业务开展及政策制度好坏的标准。但是现今大多数的数据质量评估方式并不能够适应越来越复杂的环境。利用全面数据治理的技术手段,将时序模型和回归模型结合在一起,通过创建出一种全新的量化评估方法来实现数据质颜值的评估,并且以此提高评估的结果的精准度。最后,结合理论与实践的研究成果论述了大数据时代下“基于数据治理框架的数据质量评估技术"这一研究课题的现实意义,针对目前存在的问题与未来发展前景作出阐述。并借助新的量化评价的方法手段去解决大数据环境中所出现的一些问题,有助于更好的引导数据治理走向正确发展的方向,可以更好的应用于数据治理当中。

  • 人工智能与人类交互的情感根基:源于演化连续性与种间情感沟通的理论洞见

    分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2025-05-10

    摘要: 通用人工智能(AGI)时代即将到来,促使我们重新评估人工智能与人类的交互,尤其是通过情感沟通的方式。本研究综合了演化生物学、比较心理学和人工智能发展的见解,倡导超越传统的类人认知过程的范式转变。研究强调了情感通路的普遍性,这在不同物种中都有体现。我们引入了三种情感交互模型——情感阈值模型、动态调定点模型和情感图式模型,这些模型均源于对物种间情感交互现象及可能机制的深入分析。这些模型为设计与人类情感体验相契合的人工智能界面提供了路线图,阐明了机器与人类之间建立信任、直觉和相互认可的途径。通过进一步明确“大情感模型”的概念,我们展望了一个人工智能不仅能够解读,而且能够理解人类伙伴情感的未来,为人工智能与人类之间的革命性合作范式铺平了道路。

  • Understanding Real-World Vulnerabilities in Distributed Cloud Systems

    分类: 计算机科学 >> 信息安全 提交时间: 2025-05-08

    摘要: Distributed cloud systems are facing great security challenges because of widely-existing vulnerabilities. These vulnerabilities are often easily exploitable, leading to numerous cloud breaches.In this paper, we present VulCloud, the most comprehensive study on 243 vulnerabilities from 16 widely-deployed distributed cloud systems. Each vulnerability is studied in depth along 5 dimensions: root causes, triggering conditions, security impacts, observability, and fixing strategies. From our study, we obtain many interesting findings that can open up new research directions for combating vulnerabilities in distributed systems.

  • Mathematical formalism and physical models for generative artificial intelligence

    分类: 物理学 >> 普通物理:统计和量子力学,量子信息等 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-05-07

    摘要: This paper presents a mathematical formalism for generative artificial intelligence (GAI). Our starting point is an observation that a “histories" approach to physical systems agrees with the compositional nature of deep neural networks. Mathematically, we define a GAI system as a family of sequential joint probabilities associated with input texts and temporal sequences of tokens (as physical event histories as in \cite{Gudder1998,Isham1994}). From a physical perspective on modern chips, we then construct physical models realizing GAI systems as open quantum systems. Finally, as illustration, we construct physical models in the Fock space over the Hilbert space of tokens realizing large language models based on a transformer architecture as open quantum systems.

  • DPDANet:融合密集连接与自注意力机制的改进DPCNN文本分类模型

    分类: 计算机科学 >> 自然语言理解与机器翻译 分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2025-05-05

    摘要: [目的]针对海量评论数据的高效情感分析需求,提出DPDANet模型以提升文本分类性能。[方法]基于BERT构建的DPDANet融合了密集连接与注意力机制,通过优化DPCNN中层间的连接策略,增强特征流动与信息复用能力,从而更高效地利用浅层特征,并有效降低计算复杂度。[结果]将DPDANet与基于BERT的TextCNN、CNN-LSTM、DPCNN、DPCNN-BiGRU、Transformer、XLSTM、BERT及DPDBNet八类模型进行了对比实验。在四个文本分类数据集上,DPDANet分别取得了0.6679、0.9307、0.9278和0.6242的优异准确率,相较于DPCNN分别提升了6.47%、1.32%、0.72%与3.52%。[局限]模型在极短文本与多类别不均衡场景中仍存在泛化能力不足的问题。[结论] DPDANet在众多文本分类任务中均展现出更优的性能与效率,具备良好的应用前景。

  • 目的论驱动的情感计算:以对齐福祉为目标的因果框架

    分类: 计算机科学 >> 计算机应用技术 分类: 心理学 >> 应用心理学 提交时间: 2025-05-01

    摘要: 本文基于目的论视角,对当代情感理论与情感计算的主要成果与不足之处进行系统梳理与反思,并提出了“目的论驱动的情感计算"这一新框架。首先,本文从进化功能性的角度重新审视基本情绪、评价理论及建构主义等主流学说,指出情感的核心在于帮助生命体适应环境、实现目标。现有情感计算研究虽在多模态情感识别以及评价理论驱动的情感生成等方面取得显著进展,但多停留于对外在特征的模式识别,尚缺乏应对个体及群体层面的情感动态与多层次需求的系统应答框架。为此,本文主张以对齐个体与群体福社为核心目标,并在算法层面通过两大关键环节来实现:第一,基于真实个体的情感事件数据进行因果建模,生成能准确模拟个体情感和行为动力学的虚拟环境;第二,利用元强化学习在此环境中开展持续训练,使情感智能体在不同情境下学会平衡短期与长期需求并快速适应个性化关切。具体做法包括构建大规模"个人情感事件数据宇宙”(personal affective event dataverse)来支撑因果结构学习,并在训练阶段通过合理的奖励函数设计,将“帮助用户获得持续且更广泛的积极体验”内化为智能体的主要目标,并兼顾不同情感需求在时空维度和群体尺度上的平衡。本文同时提醒,如何在多元需求与社会公平之间达成协调仍是待解决的关键挑战,需要进一步结合心理学与社会学理论加以应对。总体而言,目的论导向的情感计算框架为智能体基于个体和群体的情感认知与深度共情奠定了基础,展示出推动人机交互与社会福社融合发展的潜在价值。

  • 面向社会媒体数据的心理分析:林萃分析系统

    分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2025-04-19

    摘要: 随着技术的发展,大数据时代悄然到来。大数据的出现为科研带来了极大的便利,使得科研工作者可以通过大规模数据的分析,提高科研工作的效率。本文介绍了我们开发实现的林萃分析系统,帮助编程基础少或无的科研人员使用既有的python程序完成数据的采集和分析,零编程基础也可以操作。林萃分析系统参照了常规研究的数据采集处理的流程,首先从采集的数据中过滤出符合要求的数据,形成数据组,这个过滤的过程可以是多步骤的。然后,将过滤后的数据切分为个体数据,在对个体数据进行计算处理,得到用户的各项心理语义或心理指标。用户可以使用爬虫或者自行采集的数据,通过对数据进行过滤和切分,得到个体行为数据,这里个体不仅仅指每个用户,而是指一个地区或个体在指定时间段内的数据。在这些数据基础上,可以利用词典进行心理语义分析(词频统计)以及心理指标预测。在这些计算结果的基础上,可以根据研究的需求进行截面分析或者面板数据分析等。本文通过一个具体的案例演示了如何利用林萃分析系统实现数据分析的全过程,表明林萃分析系统可以在数据的获取和分析方面为科研提供帮助。