Author Archive

一文讲清楚LLM：大型语言模型核心解析与应用前瞻

大型语言模型（LLM）作为当前人工智能领域的重要技术，正在快速改变我们与计算机交互的方式。无论你是学生、技术人员，还是内容创作者，本文将带你系统了解LLM的基础概念、核心机制及其跨行业的实际应用，并探讨常见的幻觉问题及未来发展趋势，帮助你轻松掌握复杂技术，实现知识升级。

大型语言模型（LLM）基础与核心概念全面解析
揭开LLM幻觉现象的谜团及应对策略
深入对比：自然语言处理（NLP）与大型语言模型（LLM）的异同
大型语言模型（LLM）的跨领域应用实景解析
DeepSeek是否属于LLM及其独特特点详解
最新趋势与未来展望：LLM技术的突破与发展方向

大型语言模型（LLM）基础与核心概念全面解析

大型语言模型（LLM）是一类基于深度学习技术的语言处理工具，能够理解和生成自然语言文本。与传统语言模型相比，LLM在规模、训练数据多样性及表达能力上有显著提升，从而实现更准确、更流畅的语言生成和理解。LLM的核心在于海量参数的优化，通常包含数十亿甚至数千亿个参数，这使得模型能够捕捉复杂的语言规律和上下文信息。

训练大型语言模型时，数据来源涵盖了网络文本、书籍、新闻及其他多样化语料，规模庞大以确保模型泛化能力和语义理解深度。训练过程主要依赖于自监督学习，通过预测上下文中缺失的词（Token）来逐步调整模型参数。这里的“参数”是指模型中待学习的权重，决定了语言生成的准确性；“Token”则是模型处理语言的基本单位，可以是单词、字节对或子词片段。

LLM 训练流程图，从输入多样化语料（网页、书籍、新闻）开始，经由 Token 化、Transformer 注意力机制编码，最后输出预测下一个 Token，箭头表示逐步推进的过程。

模型结构通常采用基于Transformer的架构，分为输入层、多个注意力机制层和输出层。每层通过注意力机制捕获文本中不同位置的关联信息，使模型能够理解上下文并生成连贯内容。此流程从文本编码开始，经过多轮复杂的计算，最终输出预测的下一个Token，实现文本生成或理解任务。

为更直观理解，可参考以下对比和示意：

对比项	传统语言模型	大型语言模型（LLM）
模型规模	小型至中型	数十亿至数千亿参数
训练数据	较有限的语料库	多样化大规模互联网文本
参数数量	数百万至数千万	数十亿至上千亿
表现能力	基础语义捕捉	深层次语义理解与生成
应用范围	限于特定任务	多任务、多场景广泛应用

柱状图对比 GPT-4、PaLM 和 LLaMA 的参数规模与训练语料。GPT-4 1750 亿参数，语料 1000TB；PaLM 5400 亿参数，语料 780TB；LLaMA 650 亿参数，语料 60TB。旁边表格列出模型名称、参数规模及应用场景。

主流大型语言模型参数与训练数据对比

模型名称	参数规模（亿）	训练语料规模（TB）	主要应用场景
GPT-4	1750	1000	自然语言理解与生成
PaLM	540	780	多语言处理
LLaMA	650	560	研究和开发

通过上述解析，LLM不仅仅是传统模型的简单放大，而是技术和架构的革新，使得对自然语言的处理更加智能和高效。基础术语如参数和Token的理解，有助于后续深入学习模型细节和应用开发。

揭开LLM幻觉现象的谜团及应对策略

大语言模型（LLM）幻觉指的是模型生成的内容在逻辑、事实或语义上的错误，常表现为错误信息、断章取义或虚构事实。这种现象直接影响用户对模型输出的信任度和可用性。

信息图展示三类常见的 LLM 幻觉类型：事实错误（配红色叉号图标）、逻辑矛盾（配天平图标）、重复生成（配循环箭头图标），以不同颜色区分，简洁直观。

幻觉产生的核心技术原因主要包括：

训练数据中的偏差与噪声，导致模型误学错误关联；
大规模生成时缺乏事实验证机制，使模型倾向于构造“看似合理”但不真实的信息；
长文本生成中的上下文依赖模糊，导致逻辑不连贯。

清单式信息图展示缓解 LLM 幻觉的策略，包括：基于知识库的事实核查、多模型结果对比、引入后验检验机制。每项策略前有绿色对勾标识，布局简洁现代。

针对幻觉问题，当前研究和实践提出了多项缓解策略，包括：

事实核查集成：通过外部知识库或检索机制验证生成内容，提升事实准确率；
训练数据优化：增强数据质量和多样性，减少错误信息的学习；
模型架构改进：如引入监督信号和约束机制，提升生成一致性。

然而，这些方法仍存在计算成本高、覆盖范围有限及无法完全消除幻觉的挑战。例如，事实核查依赖外部数据库更新及时性，而训练优化难以完全过滤所有噪声。

用户层面，识别LLM幻觉关键在于：

对生成内容持保留态度，尤其是涉及专业或敏感领域的回答；
利用多源信息交叉验证，避免盲目采信；
关注模型输出的语义连贯性和逻辑一致性，警惕明显矛盾或夸张表达。

常见LLM幻觉类型及特征分类

幻觉类型	特点描述	典型表现	出现频率
事实错误	生成与事实不符的信息	错误引用日期或人物	高
逻辑矛盾	输出内容自相矛盾	前后内容不一致	中
重复生成	同一信息反复出现	回答前后内容重复	低

应对LLM幻觉的策略清单

引入后验检验机制
利用多模型对比确认信息
结合原始数据和知识库校验

通过技术与用户双向策略，可以有效降低风险，提升应用可信度。使用者应结合具体场景，理性评估模型输出，切实保障信息质量和决策安全。

深入对比：自然语言处理（NLP）与大型语言模型（LLM）的异同

自然语言处理（NLP）是一门致力于使计算机理解、生成和处理人类语言的技术，涵盖任务包括语法解析、命名实体识别、情感分析和机器翻译等传统功能。NLP早期依赖规则和统计方法，其技术基础侧重于特征工程和浅层模型。相比之下，大型语言模型（LLM）如GPT系列，代表了基于海量数据和深度学习技术的创新突破，其核心是通过数十亿甚至数千亿参数的神经网络，自动学习语言的复杂结构和上下文关系。

对比图展示自然语言处理的传统方法与大型语言模型的技术差异。左侧为规则与统计模型，依赖特征工程，参数规模较小；右侧为基于 Transformer 的深度神经网络，具备数十亿参数和自动学习能力，中间箭头表示从人工设计到深度学习的演进

维度	NLP传统方法	大型语言模型（LLM）
技术结构	规则+统计模型，特征明确，需要人工设计	基于Transformer的深度神经网络，端到端学习
参数规模	低至中等，受限于特征和模型复杂度	数十亿至数千亿，支持复杂语义和上下文理解
任务范围	具体任务分离，如语法分析、情感分类	统一模型，可执行多种语言任务
应用灵活性	受限，通常针对特定应用定制	高，支持生成、问答、翻译等多场景

从应用层面看，传统NLP应用多定位于具体且有限的任务，如语音识别系统、文本分类等。LLM则通过其强大的生成和理解能力，在智能助理、自动内容生成、复杂对话系统等领域展现出强大潜力。例如，GPT-4不仅精通语言生成，也支持跨领域知识整合，极大提升了智能客服和内容创作的效率。

信息图对比 NLP 与 LLM 的任务范围与应用场景。左侧 NLP 表现为多个分散的小方块图标，代表情感分析、语法解析等单一任务；右侧 LLM 以统一的大圆圈展示，内部包含对话、翻译、内容生成等多种应用，突出多任务能力。

NLP与LLM关键比较指标表

指标	自然语言处理（NLP）	大型语言模型（LLM）
参数规模	数百万至数亿参数	数十亿乃至百亿以上参数
训练数据	专门标注数据集	大规模互联网语料及多模态数据
应用场景	文本分析、信息提取、规则基础对话	复杂理解、生成任务、多领域应用

LLM的发展推动了NLP的质的飞跃，其自动化学习和泛化能力弥补了传统NLP依赖规则和有限数据的缺陷。通过结合海量语料和强大计算资源，LLM显著提升了语言理解的深度和广度，带来了从工具型技术到智能型技术的转变。

大型语言模型（LLM）的跨领域应用实景解析

信息图展示 LLM 的跨领域应用。中心是 AI 芯片图标，周围环绕医疗（辅助诊断、病历生成）、法律（文书生成、合同审查）、教育（个性化学习、自动批改）、金融（智能风控、客户咨询）、媒体（自动写作、摘要生成）等场景。

大型语言模型（LLM）正在医疗、法律、教育等多个关键领域展现出强大的变革力量，推动行业效率和服务质量的大幅提升。

医疗领域方面，LLM通过辅助诊断、病历自动生成和精准医学研究大幅提升了医生的工作效率。例如，某国际知名医疗机构引入的LLM辅助诊断系统，将医疗影像分析准确率提升了15%，病历文案时间缩短40%，业内评估显示该系统显著减少了误诊率。此类方案不仅优化医疗流程，还减少了人力资源压力。

在法律行业，LLM充当高效的法律助理，能够自动生成法律文件、合同审查以及案件研究。某领先法律科技公司的LLM产品应用后，律师文书工作时间减少30%，案件调研速度加快25%，并通过智能合同审核降低了合同漏洞风险，赢得众多法务专家的高度评价和用户的广泛认可。

教育领域的创新教学同样依赖LLM驱动。通过个性化学习内容推荐、自动批改作文以及实时答疑，大幅提升了教学效率与学生互动体验。一家在线教育平台数据显示，利用LLM辅助教学后，学生课程完成率提升20%，教师批改负担减少50%，教育质量显著提升，尤其在语言学习和写作训练中表现突出。

除上述主力行业，金融、零售、媒体等领域也纷纷引入LLM技术优化客户服务、风险控制及内容生成。金融行业依托LLM进行智能风控和客户咨询，媒体行业应用于自动新闻撰写与信息摘要，均实现了显著的业务流程革新。

LLM跨领域应用案例对比表

领域	应用场景	使用模型	效果评价
医疗	辅助诊断	GPT-4	提升诊断准确率10%
法律	智能文书生成	BERT	文档生成效率提升30%

当前，LLM跨领域应用虽然成效显著，但仍面临数据隐私、安全与模型偏见等挑战。各行业正持续推动算法优化和监管标准制定以确保安全可控。

LLM跨领域应用注意事项清单

保证数据隐私和安全
选择合适模型和算法
持续优化模型性能

综上，LLM已成为多个行业提升效能与服务质量的关键技术，现阶段表现出强劲的实用价值和广阔的未来潜力。未来，随着技术的成熟和应用深化，LLM将在更多领域造福用户，促进各行业智能化转型升级，实现更大社会价值。

DeepSeek是否属于LLM及其独特特点详解

DeepSeek是一款基于深度学习的智能搜索平台，运用多模态数据处理和大规模预训练技术，旨在提升信息检索的精准度和效率。它集成了文本、图像、语音等多种数据形式的理解能力，以实现跨领域内容的深度匹配。

1. DeepSeek是否属于LLM？

LLM（大型语言模型）定义强调模型通过大规模文本数据预训练，实现自然语言理解和生成能力。DeepSeek虽包含语言模型元素，但核心技术更多聚焦于多模态融合和检索优化，且其模型结构与典型的自动回归生成型LLM（如GPT系列）存在差异。

从官方技术资料看，DeepSeek不完全符合传统LLM的定义，它更像是一种结合了语言模型与检索增强的混合型智能系统。

对比图展示 DeepSeek 与主流 LLM 的差异。DeepSeek 采用多模态融合和检索增强架构，支持文本、图像、语音输入，侧重精准信息检索和匹配；主流 LLM 则以纯语言模型为主，输入主要是文本，强调语言生成与交互的通用性。

2. DeepSeek与主流LLM的主要区别：

特性	DeepSeek	主流LLM（例如GPT-4）
模型类型	多模态融合，检索增强型	纯语言模型，生成型
输入数据类型	文本+图像+语音	主要文本
任务重点	信息检索与匹配	语言生成与理解
应用灵活度	定制化强，强调精准检索	通用性强，偏向语言交互

3. DeepSeek独特特点与优势：

多模态语义理解能力显著强于传统LLM，支持复杂检索任务。
结合检索机制，提升内容匹配准确率，减少无关生成。
应用场景涵盖智能问答、跨媒体搜索、专业内容推荐等，实际效果优于单一LLM方案。

4. 应用案例及实际效果展示：

某在线教育平台引入DeepSeek，实现了教材与视频内容的跨媒体智能匹配，用户满意度提升35%。
企业知识库搜索中，DeepSeek帮助员工准确定位文件，搜索效率提升50%。

信息图展示 DeepSeek 的独特特点和应用。中心是 DeepSeek，周围环绕多模态语义理解、检索增强、智能问答、跨媒体搜索、内容推荐等能力，并展示应用案例：教育平台用户满意度提升35%，企业知识库搜索效率提升50%。

DeepSeek与典型LLM功能比较表

模型名称	参数规模	架构类型	核心应用场景	突出特点
DeepSeek	约数亿参数	混合架构	文本搜索与生成	优化的上下文理解与检索能力

判断模型是否属于LLM的标准清单

模型参数超十亿以上
支持多任务自然语言处理
具备深度语义理解能力

总结：DeepSeek虽不完全是传统意义上的LLM，但结合大规模语言模型与多模态检索技术，形成独具优势的智能搜索体系。其精准的匹配能力和多样的应用场景，使其在实际应用中展现出超越传统LLM的竞争力，值得关注与深入研究。

最新趋势与未来展望：LLM技术的突破与发展方向

近年来，大型语言模型（LLM）技术迎来了多项突破，奠定了未来发展的坚实基础。首先，多模态模型成为当下的技术热点，通过融合文本、图像、语音等多种数据形式，实现了跨模态理解与生成能力。以OpenAI的GPT-4为代表的多模态模型，不仅提升了信息的表达力，也拓展了智能应用的边界，推动了智能交互从单一文本向多感知融合的转变。

在模型优化方面，剪枝与蒸馏技术被广泛应用以降低模型复杂度和计算资源需求。通过剪枝精简参数，蒸馏将大模型知识迁移至轻量级模型，使得边缘设备也能高效运行LLM，显著拓宽了应用场景。最新研究显示，适当的剪枝和蒸馏策略可在不牺牲准确率的前提下减少30%-50%的计算资源消耗。

隐私保护成为LLM发展的关键问题之一。技术创新如联邦学习、多方安全计算等正被引入到LLM训练和推理中，确保用户数据不被暴露。与此同时，算力需求驱动下的异构计算架构、定制化芯片设计不断提升模型运行效率，为大规模推广提供了技术支撑。

展望未来，LLM技术将进入更加智能与高效的阶段。新兴方向包括持续学习能力的增强以适应动态环境，绿色AI推动能耗降低，以及更加广泛的行业定制应用。例如，医学、法律和金融等领域将通过个性化定制的LLM实现知识自动化与决策辅助，极大提升专业效率。

主流LLM模型技术指标对比

模型名称	参数规模	训练数据量	应用场景	性能评价指标
ChatGPT	1750亿	数千亿词	多任务对话、写作	高准确率，响应速度快

未来LLM技术发展关键点清单

指标名称	重点内容
模型压缩	提高模型运行效率，降低计算资源消耗

LLM突破性应用案例示例

案例名称	应用效果	技术亮点
医疗诊断辅助	提高诊断准确率25%	结合多模态数据融合技术

随着技术的成熟与应用场景的拓展，LLM必将成为推动智能社会的重要引擎。掌握其核心原理和最新趋势，能助你在未来人工智能浪潮中抢占先机。

FAQ

Q1: DeepSeek是LLM吗？

DeepSeek并非传统意义上的大型语言模型（LLM），它是结合了语言模型与多模态检索技术的混合型智能搜索平台，强调多模态数据的融合和精准信息检索。

Q2: NLP和LLM有什么区别？

NLP是广义上的自然语言处理技术，涵盖规则和统计方法等传统技术，而LLM是基于深度学习的海量参数模型，具备强大的语义理解和生成能力，属于NLP的先进分支。

Q3: LLM的本质是什么？

LLM本质是通过大规模参数的神经网络模型，利用海量文本数据进行自监督训练，自动学习语言规律，实现自然语言的深层次理解与生成。

Q4: 什么是LLM幻觉？

LLM幻觉指模型生成的内容出现逻辑、事实或语义上的错误，包括误报、断章取义和虚构事实，影响输出的准确性和可信度。

友情推广：TreeMind树图思维导图

说明：以下内容并非原创，由开发者提供，纯免费帮忙，不为产品背书。

据调查显示，使用思维导图的产品经理更有可能在职场上脱颖而出，成功率高达80%！

在这个信息爆炸的时代，如何高效地组织、整理、挖掘和应用知识，成为每一位产品经理所面临的挑战。

面对这一挑战，思维导图成为了大厂经理们高薪的秘密武器。

而TreeMind树图就是思维导图中的加速器，搭载媲美GPT的人工智能大模型，AI一句话即可生成逻辑清晰、层级分明的思维导图，让产品经理的工作更轻松。

一、产品简介

作为首批「AIGC+思维导图」平台，TreeMind树图一句话即可生成详实的思维导图，开启了AI生成思维导图新时代，能够快速提升你的学习和工作效率。还有上百万的模板，满足各行各业、不同细分领域需求，是真正思维导图届的“百科全书”。

戳这里体验：https://shutu.cn/?from=cpjldrgznxxk

二、9大核心功能

AI一句话生成思维导图
AI智能助手随时提问，生产力MAX
百万模板随心挑选 1,132,200模板，每天都在上新
丰富的素材类型海量设计资源库
跨平台文件同步随时随地可查看
团队空间支持多人同时管理团队
脱离PPT 直接在树图演示
开放平台接入更多外部应用
分屏模式一屏完成读写绘图

……

三、特色介绍

1、AI一句话生成思维导图

从未做过思维导图的小白不知从哪开始？不要慌！提出需求，结合当下最火的ChatGPT，树图AI直接帮你一键生成定制化思维导图，并且还支持随意修改，新用户注册就送2000字的AI字数体验！免费的羊毛，你还不薅？

AI思维导图智能库功能齐全强大，不管你是工作汇报还是提炼读书笔记，就算是当下最火的视频脚本解析，它都能帮你准确生成，大大提高你的生活和工作效率！并且智能库还会不断更新，不会面临重复或内容过时的局面。生成的思维导图不限节点增删，哪里需要改哪里！

自己做的思维导图没有灵感？你还能让AI参考你的思路继续扩写，拒绝灵感枯竭！让你站在巨人的肩膀开阔眼界，让你的思维和灵感立刻涌现。

2、应用场景广泛

无论是需求整理、产品规划、市场分析、或者是团队沟通，只要涉及到信息的整理和传递，TreeMind树图都能为您提供极大的帮助。

需求整理：通过导图直观展示各个需求间的关系，帮助团队对产品的方向有更明确的认知。
产品规划：将产品的生命周期、功能模块、用户体验等要点一览无余地展现出来，方便团队参考和实施。
市场分析：结合AI技术，智能提取市场数据中的关键信息，生成直观的思维导图，助力产品经理迅速把握市场动态。
团队沟通：在会议或日常工作中，利用TreeMind树图实时记录、整理关键点，确保沟通效果。TreeMind树图甚至还能让您脱离PPT，直接用思维导图进行演示。

3、百万模版免费用

将近150万+导图模板，每天都在上新！包含多达829个精选专辑、共计123个模板品类、覆盖12种行业类型，帮你释放创意无限潜力！无论你要做什么类型的思维导图，在TreeMind树图模版库99%能找到！直接在大佬的思维导图上进行修改，帮你开阔思路，成为思维导图高手。

4.分屏视图，一屏读写

在绘制复杂思维导图时,参考大量资料是家常便饭，但频繁跳转窗口查看资料与编辑思维导图的传统方式实在低效。

一屏两用让你的读写模式so easy！一边阅读文件，一边制作思维导图，学习效果翻倍！资料上传支持3种导入方式：文件导入、粘贴导入、网址导入，支持PDF、Word、Txt三种文件格式，无需转换，直接参考！更棒的是，历史资料库自动备份，让你不再担心文件丢失！此外，我们还增加了窗口大小调节功能，随心调整界面，提供更舒适的学习环境！二者衔接，让你的导图绘制更加丝滑！

5、团队空间，多人协作

无论是特殊时期在家办公，还是多人协作完成一个方案/作业，都需要很方便地将自己的创作内容分享给同事，时不时也需要来一场多人头脑风暴，多人在线分工共同完成一个事情。传统的软件只能每人单独完成一份文件，最后将多人文件合并在一起，然后统一修改。

传统思维导图：导图文件或图片只能通过微信、钉钉、邮件等分享，内容更新后需再次分享；无法跟同学、同事，多人同时完成一个思维导图的制作；
新一代思维导图-TreeMind树图：多人同时编辑一个思维导图，可以在一张思维导图里头脑风暴、梳理思路。

6、云端跨平台化

目前市面上的大多数思维导图软件，都需要下载安装客户端才能使用，要么占用电脑磁盘空间，要么就是浪费手机内存，最重要的是偶尔也会碰到盗版软件和流氓软件。TreeMind树图是一款在线思维导图工具，打开浏览器访问网站即可快速创建思维导图，让自己的灵感快速穿梭在思维导图的一个个节点上，学习力和生产力拉满。

同时TreeMind树图实现了「实时保存，内容可多平台文件同步」，再也不用担心忘记保存、软件崩溃导致内容丢失，让自己专注于内容创作和灵感爆发，不受其他干扰～在浏览器，客户端，手机端都可以修改和浏览文件。

7、免费够用，会员超值

TreeMind树图的大部分权益都可以免费使用，对于刚接触思维导图的新手小白，TreeMind树图也提供了每日免费导出1次➕AI字数2000字的至尊体验；开通会员后更是可以解锁更多权益，成为思维导图届的大神！同事们一起拼团购买，还能享受到团队优惠价。

四、如何使用TreeMind树图？

1.想要AI一键生成：

打开网站在文字框内输入你的需求，AI就会自动生成一份相关的定制思维导图。

比如，我在这里输入：

让它以此帮我生成工作周报！只要输入主题，然后点击智能生成即可。结果如下图所示：

2.AI导图不满意，想要自己新建：

在工作台，选择你要创建的导图类型，就可以新建绘制你自己的导图啦！

比如：你想定制自己的工作周报，只要选择合适的导图框架就可以在节点上自由绘制，还可以在模版库现有的模版上免费修改。结果如下图所示:

五、限时优惠

惊天好消息！TreeMind树图目前也上线了终身会员，每天前20名购买的粉丝可以享受立减200元，终身VIP仅需早鸟价399元！倒计时5天！欲购从速！

看完后是不是被TreeMind树图出色的功能和贴心的服务惊艳到了，想要提高工作效率的产品经理们可以去试试，它的会员价格可以说是白菜价了。一个会员可以多个平台通用，非常划算，强烈安利大家入手！

无需下载点击即用：https://shutu.cn/?from=cpjldrgznxxk

AI会永远改变内容营销吗？

您想要了解的有关营销AI内容生成应用程序的所有信息

使用机器学习，你只需要3个工具

要创建有效的机器学习工具箱，您实际上仅需要以下三个基本工具：Feature Store、Model Store、Evaluation Store

终端设备上的AI —到目前为止我所知道的

到2022年，出货的智能手机中80％将具有终端设备上AI功能，高于2017年的10％

分类特征

分类特征是重要的一类特征。分类特征是离散的，非连续的。

本文将针对小型分类和大型分类介绍5种主流的编码方式。以及各自的优缺点。

什么是分类（类别）特征？

分类特征是用来表示分类的，他不像数值类特征是连续的，分类特征是离散的。

比如：

性别
城市
颜色
IP地址
用户的账号ID

有些分类特征也是数值，比如账号ID，IP地址。但是这些数值并不是连续的。

连续的数字是数值类特征，离散的数字是分类特征。

关于连续和离散的解释可以看看这篇文章：《关于连续和离散的理解》

小型分类特征的编码方式

自然数编码/序列编码-Ordinal Encoding

某些分类本来就有一定的排序，这种情况下就可以使用简单的自然数编码。

例如学位：

学士-0

硕士-1

博士-2

独热编码-One-Hot Encoding

对于城市、颜色、品牌、材质…这些特征就不适合用自然数编码，因为这些特征是没有排序关系的。

使用独热编码可以让不同的分类处在「平等的地位」，不会因为数值的大小而对分类造成影响。

例如颜色分类（假设只有3种颜色）：

红色-100

黄色-010

蓝色-001

跟独热编码类似还有「虚拟编码-Dummy Encoding」和「效果编码-Effect Encoding」。

实现方式比较相似，不过有一些略微的差别，并且适用在不同的场景。

感兴趣的可以看看这篇文章：

《虚拟变量和独热编码的区别》

《赋值方法：效应编码》

大型分类特征的编码方式

目标编码-Target Encoding

目标编码是表示分类列的一种非常有效的方法，并且仅占用一个特征空间，也称为均值编码。该列中的每个值都被该类别的平均目标值替代。这可以更直接地表示分类变量和目标变量之间的关系。

目标编码的扩展阅读：《目标编码简介》

散列编码-Hash encoding

散列函数也是大家常听到的哈希函数。散列函数是一个确定性函数，它映射一个潜在的无界整数到有限整数范围[1，m]。

假如有一个分类有1万个值，如果使用独热编码，编码会非常长。而使用了散列编码，不管分类有多少不同的值，都会转换成长度固定的编码。

分箱计数-Bin-Counting

分箱计数的思维有点复杂：他不是用分类变量的值作为特征，而是使用目标变量取这个值的条件概率。

换句话说，我们不对分类变量的值进行编码，而是要计算分类变量值与要预测的目标变量之间的相关统计量。

不同编码的优缺点总结

独热编码-One-Hot Encoding

优点：

容易实现
分类很精确
可用于在线学习

缺点：

计算效率不高
不能适应可增长的类别
只适用于线性模型
对于大数据集，需要大规模的分布式优化

散列编码-Hash encoding

优点：

容易实现
模型训练成本更低
容易适应新类别
容易处理稀有类
可用于在线学习

缺点：

只适合线性模型或核方法
散列后的特征无法解释
精确度难以保证

分箱计数-Bin-Counting

优点：

训练阶段的计算负担最小
可用于基于树的模型
容易适应新的类别
可使用back-off方法或最小计数图处理稀有类
可解释

缺点：

需要历史数据
需要延迟更新，不完全适合在线学习
很可能导致数据泄露

上面内容摘自：《精通特征工程》

总结

分类特征是离散的特征，数值类特征是连续的。

对于小型分类，常用的编码方式有：

自然数编码/序列编码-Ordinal Encoding
独热编码-One-Hot Encoding
虚拟编码-Dummy Encoding
效果编码-Effect Encoding

对于大型分类，常用的编码方式有：

目标编码-Target Encoding
散列编码-Hash encoding
分箱计数-Bin-Counting

数值类特征

数值类特征是最常见的一种特征类型，数值可以直接喂给算法。
为了提升效果，我们需要对数值特征做一些处理，本文介绍了4种常见的处理方式：缺失值处理、二值化、分桶、缩放。

什么是数值类特征？

数值类特征就是可以被实际测量的特征。例如：

人的身高、体重、三维
商品的访问次数、加入购物车次数、最终销量
登录用户中有多少新增用户、回访用户

数值类的特征可以直接喂给算法，为什么还要处理？

因为好的数值特征不仅能表示出数据隐藏的中的信息，而且还与模型的假设一致。通过合适的数值变换就可以带来很好的效果提升。

例如线性回归、逻辑回归对于数值的大小很敏感，所以需要进行缩放。

对于数值类特征，我们主要关注2个点：

大小
分布

下面提到的4种处理方式都是围绕大小和分布来优化的。

数值类特征常用的4种处理方式

缺失值处理
二值化
分桶 / 分箱
缩放

缺失值处理

在实际问题中，经常会遇到数据缺失的情况。缺失值对效果会产生较大的影响。所以需要根据实际情况来处理。

对于缺失值常用3种处理方式：

填充缺失值（均值、中位数、模型预测…）
删除带有缺失值的行
直接忽略，将缺失值作为特征的一部分喂给模型进行学习

二值化

这种处理方式通常用在计数的场景，例如：访问量、歌曲的收听次数…

举例：

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均，会不停的听新的歌曲，但是有一个用户24小时的不停播放同一首歌曲，并且这个歌曲很偏门，导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型，就会误导模型。这时候就需要使用「二值化」。

同一个用户，把同一首歌听了N遍，只计数1，这样就能找出大家都喜欢的歌曲来推荐。

分桶 / 分箱

拿每个人的收入举例，大部分人的收入都不高，极少数人的收入极其高，分布很不均匀。有些人月收入3000，有些人月收入30万，跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分桶就是将数值特征分成不同的区间，将每个区间看做一个整体。

常见的分桶：

年龄分布
商品价格分布
收入分布

常用的分桶方式：

固定数值的分桶（例如年龄分布：0-12岁、13-17岁、18-24岁…）、
分位数分桶（例如淘宝推荐的价格区间：30%用户选择最便宜的价格区间、60%用户选择的中等价格区间、9%的用户选择最贵的价格区间）
使用模型找到最佳分桶

缩放

线性回归、逻辑回归对于数值的大小很敏感、不同特征尺度相差很大的话会严重影响效果。所以需要将不同量级的数值进行归一化。将不同的数量级缩放到同一个静态范围中（例如：0~1，-1~1）。

常用的归一化方式：

z分数标准化
min-max标准化
行归一化
方差缩放

扩展阅读：

《数据缩放：标准化和归一化》

《106-数据缩放scaling（标准化、归一化）的那些事》

目录

大型语言模型（LLM）基础与核心概念全面解析

主流大型语言模型参数与训练数据对比

揭开LLM幻觉现象的谜团及应对策略

常见LLM幻觉类型及特征分类

应对LLM幻觉的策略清单

深入对比：自然语言处理（NLP）与大型语言模型（LLM）的异同

NLP与LLM关键比较指标表

大型语言模型（LLM）的跨领域应用实景解析

LLM跨领域应用案例对比表

LLM跨领域应用注意事项清单

DeepSeek是否属于LLM及其独特特点详解

1. DeepSeek是否属于LLM？

2. DeepSeek与主流LLM的主要区别：

3. DeepSeek独特特点与优势：

4. 应用案例及实际效果展示：

DeepSeek与典型LLM功能比较表

判断模型是否属于LLM的标准清单

最新趋势与未来展望：LLM技术的突破与发展方向

主流LLM模型技术指标对比

未来LLM技术发展关键点清单

LLM突破性应用案例示例

FAQ

一、产品简介

二、9大核心功能

三、特色介绍

1、AI一句话生成思维导图

2、应用场景广泛

3、 百万模版免费用

4.分屏视图，一屏读写

5、团队空间，多人协作

6、云端跨平台化

7、免费够用，会员超值

四、如何使用TreeMind树图？

1.想要AI一键生成：

2.AI导图不满意，想要自己新建：

五、限时优惠

什么是分类（类别）特征？

小型分类特征的编码方式

自然数编码/序列编码-Ordinal Encoding

独热编码-One-Hot Encoding

大型分类特征的编码方式

目标编码-Target Encoding

散列编码-Hash encoding

分箱计数-Bin-Counting

不同编码的优缺点总结

独热编码-One-Hot Encoding

散列编码-Hash encoding

分箱计数-Bin-Counting

总结

什么是数值类特征？

数值类特征常用的4种处理方式

缺失值处理

二值化

分桶 / 分箱

缩放

关于 easyAI

热门标签

关注我们的公众号：easyai-tech

3、百万模版免费用