分类: 数学 >> 建模与仿真 分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2025-06-03
摘要: Natural language is considered closely intertwined with human cognition, with linguistic structures posited to offer profound insights into the cognitive system. However, as a coding system, natural language encodes diverse objects into unified forms; its prominent formal features capture people’s attention, such as lexical combinatorial rules, which tend to overshadow those form-independent structures. Here, I present knowledge-level, logic-level, task-level, and model-level semantic structures inherent in natural language. These structures are discovered by shifting the research focus from coding forms of natural language to the objects they encode, unveiling different semantic layers integrated within sentences. The cognitive functions of these structures are evident both in themselves and in models developed from them. I therefore introduce four models to demonstrate their capabilities in memorization, reasoning, learning, natural language generation, and understanding. These findings advance our understanding of natural language and provide a framework for investigating the cognitive system’s information processing through structural analysis of natural language.
分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2025-03-07
摘要: 本文基于对现有AI理论框架的质疑,提出将“Al”概念分为表意AI(LAl,LogographicAl)与表音 Al(PAl,Phonographic Al)。现有 Al理论建立在表音文字基础上,导致表意文字(如汉字)被迫接受殖民妥协,无法释放其先天优势。本文提出表意AI的新理论框架,引入形根(M-Root,Morpho-Root)、形构熵(Morpho-Structural Entropy)、汉字熵场(HEF,HanziEntropy Field)等核心概念,揭示了表意文字在信息密度、文化适应性与认知效率上的优势。表意AI不仅抵抗了表音AI的语言霸权,更为全球AI格局中的“中文降维打击”奠定基础。本文主张文字多样性即智能多样性,提出形音并行算法与芯片设计,推动表意AI与表音AI的互补,实现文明的量子跃迁。
分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2024-06-05
摘要: 目的 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。 方法 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法 NeuroAlign:将平行句对嵌入至同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。 结果 BUCC2018 平行文本挖掘任务中 F1 值可提升 0.5-0.8;CCMT2021 低资源语言神经机器翻译中 BLEU 值可提升 0.1-10.9;句对齐评分可接近人工评分。 局限 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索研究。 结论 可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。
分类: 计算机科学 >> 计算机软件 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-04-21
摘要: 此幻灯片从背景、动机、方法、效果、展望和致谢六方面讲述了《引导大语言模型生成计算机可解析内容》的研究。全文请参考:https://arxiv.org/abs/2404.05499
分类: 计算机科学 >> 计算机软件 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-04-07
摘要: 大语言模型 (Large Language Models, LLMs) 能够从大量语料的上下文中学习到模式,其包括词语之间的关系、句子的结构甚至更复杂的语义和语用信息。然而,让预训练语言模型生成结构化、严格遵循约定的内容仍然是一项挑战。本文提出了一种引导LLMs生成计算机高可用内容的方案,无需微调和额外的神经网络推理,通过提前约定的上下文无关文法 (Context-Free Grammar, CFG) 引入基于协程的内容生成约束机制,在自回归模型Transformer的解码阶段引导模型采样正确的词元,以构成符合程序约定的形式语言。这将有效地提升LLMs生成目标数据结构、类型或指令的稳定性和一致性,降低应用开发和集成的难度。本文作者先通过“匹配括号对”实验验证了GPT-2和Gemma等模型在生成DSL长度分别大于36和282时错误率就达到了95%,说明了当前LLMs在特定DSL生成上的性能问题。本文作者还提出了基于协程的DSL生成框架YieldLang,并使用LLMs在多个任务数据集上进行了实验,包括JSON、Mermaid流图和函数调用表达式生成等任务。这些实验表明本文的方法相比基准,其准确率提升到了原来的109%到1160%,并且在最好的情况下能够将LLMs生成JSON的采样次数降低到基准的约16.5%,这将有效地提高LLMs生成内容对计算机程序的可用性。
分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2024-01-11
摘要: 以GPT系列为代表的大规模预训练语言模型的快速发展,深刻改变了自然语言处理领域的科研与工程范式,对医疗、教育、司法、金融等相关领域产生了深远影响。同时,这也为语言本身的研究带来了一些新的可能性。本文从歧义分析出发,简要评估GPT4、百川2、ChatGLM3等模型对以歧义为代表的复杂语言现象的理解和分析能力。实验结果表明,GPT4可以融合歧义消解和句法分析等方法,有效感知和理解复杂的语言现象。对于百川2,我们可以通过提示词工程引导其对语言现象进行深入思考,在不进行参数优化时,提升其分析能力。此外,通过监测大模型在处理不同语言现象时的内部特征与神经元活动,可以直观展现语言现象与大模型之间的关系。实验结果表明,大语言模型可以辅助人类更好地理解语言的本质,揭示语言现象深层次规律,从而为语言学研究提供新的思路。