Author Archive

一文讲清楚LLM:大型语言模型核心解析与应用前瞻

大型语言模型(LLM)作为当前人工智能领域的重要技术,正在快速改变我们与计算机交互的方式。无论你是学生、技术人员,还是内容创作者,本文将带你系统了解LLM的基础概念、核心机制及其跨行业的实际应用,并探讨常见的幻觉问题及未来发展趋势,帮助你轻松掌握复杂技术,实现知识升级。

目录

  • 大型语言模型(LLM)基础与核心概念全面解析
  • 揭开LLM幻觉现象的谜团及应对策略
  • 深入对比:自然语言处理(NLP)与大型语言模型(LLM)的异同
  • 大型语言模型(LLM)的跨领域应用实景解析
  • DeepSeek是否属于LLM及其独特特点详解
  • 最新趋势与未来展望:LLM技术的突破与发展方向

大型语言模型(LLM)基础与核心概念全面解析

大型语言模型(LLM)是一类基于深度学习技术的语言处理工具,能够理解和生成自然语言文本。与传统语言模型相比,LLM在规模、训练数据多样性及表达能力上有显著提升,从而实现更准确、更流畅的语言生成和理解。LLM的核心在于海量参数的优化,通常包含数十亿甚至数千亿个参数,这使得模型能够捕捉复杂的语言规律和上下文信息。

传统语言模型VS大预言模型LLM

训练大型语言模型时,数据来源涵盖了网络文本、书籍、新闻及其他多样化语料,规模庞大以确保模型泛化能力和语义理解深度。训练过程主要依赖于自监督学习,通过预测上下文中缺失的词(Token)来逐步调整模型参数。这里的“参数”是指模型中待学习的权重,决定了语言生成的准确性;“Token”则是模型处理语言的基本单位,可以是单词、字节对或子词片段。

LLM 训练流程图,从输入多样化语料(网页、书籍、新闻)开始,经由 Token 化、Transformer 注意力机制编码,最后输出预测下一个 Token,箭头表示逐步推进的过程。

模型结构通常采用基于Transformer的架构,分为输入层、多个注意力机制层和输出层。每层通过注意力机制捕获文本中不同位置的关联信息,使模型能够理解上下文并生成连贯内容。此流程从文本编码开始,经过多轮复杂的计算,最终输出预测的下一个Token,实现文本生成或理解任务。

为更直观理解,可参考以下对比和示意:

对比项传统语言模型大型语言模型(LLM)
模型规模小型至中型数十亿至数千亿参数
训练数据较有限的语料库多样化大规模互联网文本
参数数量数百万至数千万数十亿至上千亿
表现能力基础语义捕捉深层次语义理解与生成
应用范围限于特定任务多任务、多场景广泛应用
柱状图对比 GPT-4、PaLM 和 LLaMA 的参数规模与训练语料。GPT-4 1750 亿参数,语料 1000TB;PaLM 5400 亿参数,语料 780TB;LLaMA 650 亿参数,语料 60TB。旁边表格列出模型名称、参数规模及应用场景。

主流大型语言模型参数与训练数据对比

模型名称参数规模(亿)训练语料规模(TB)主要应用场景
GPT-417501000自然语言理解与生成
PaLM540780多语言处理
LLaMA650560研究和开发

通过上述解析,LLM不仅仅是传统模型的简单放大,而是技术和架构的革新,使得对自然语言的处理更加智能和高效。基础术语如参数和Token的理解,有助于后续深入学习模型细节和应用开发。


揭开LLM幻觉现象的谜团及应对策略

大语言模型(LLM)幻觉指的是模型生成的内容在逻辑、事实或语义上的错误,常表现为错误信息、断章取义或虚构事实。这种现象直接影响用户对模型输出的信任度和可用性。

信息图展示三类常见的 LLM 幻觉类型:事实错误(配红色叉号图标)、逻辑矛盾(配天平图标)、重复生成(配循环箭头图标),以不同颜色区分,简洁直观。

幻觉产生的核心技术原因主要包括:

  1. 训练数据中的偏差与噪声,导致模型误学错误关联;
  2. 大规模生成时缺乏事实验证机制,使模型倾向于构造“看似合理”但不真实的信息;
  3. 长文本生成中的上下文依赖模糊,导致逻辑不连贯。
清单式信息图展示缓解 LLM 幻觉的策略,包括:基于知识库的事实核查、多模型结果对比、引入后验检验机制。每项策略前有绿色对勾标识,布局简洁现代。

针对幻觉问题,当前研究和实践提出了多项缓解策略,包括:

  • 事实核查集成:通过外部知识库或检索机制验证生成内容,提升事实准确率;
  • 训练数据优化:增强数据质量和多样性,减少错误信息的学习;
  • 模型架构改进:如引入监督信号和约束机制,提升生成一致性。

然而,这些方法仍存在计算成本高、覆盖范围有限及无法完全消除幻觉的挑战。例如,事实核查依赖外部数据库更新及时性,而训练优化难以完全过滤所有噪声。

用户层面,识别LLM幻觉关键在于:

  • 对生成内容持保留态度,尤其是涉及专业或敏感领域的回答;
  • 利用多源信息交叉验证,避免盲目采信;
  • 关注模型输出的语义连贯性和逻辑一致性,警惕明显矛盾或夸张表达。

常见LLM幻觉类型及特征分类

幻觉类型特点描述典型表现出现频率
事实错误生成与事实不符的信息错误引用日期或人物
逻辑矛盾输出内容自相矛盾前后内容不一致
重复生成同一信息反复出现回答前后内容重复

应对LLM幻觉的策略清单

  • 引入后验检验机制
  • 利用多模型对比确认信息
  • 结合原始数据和知识库校验

通过技术与用户双向策略,可以有效降低风险,提升应用可信度。使用者应结合具体场景,理性评估模型输出,切实保障信息质量和决策安全。


深入对比:自然语言处理(NLP)与大型语言模型(LLM)的异同

自然语言处理(NLP)是一门致力于使计算机理解、生成和处理人类语言的技术,涵盖任务包括语法解析、命名实体识别、情感分析和机器翻译等传统功能。NLP早期依赖规则和统计方法,其技术基础侧重于特征工程和浅层模型。相比之下,大型语言模型(LLM)如GPT系列,代表了基于海量数据和深度学习技术的创新突破,其核心是通过数十亿甚至数千亿参数的神经网络,自动学习语言的复杂结构和上下文关系。

对比图展示自然语言处理的传统方法与大型语言模型的技术差异。左侧为规则与统计模型,依赖特征工程,参数规模较小;右侧为基于 Transformer 的深度神经网络,具备数十亿参数和自动学习能力,中间箭头表示从人工设计到深度学习的演进
维度NLP传统方法大型语言模型(LLM)
技术结构规则+统计模型,特征明确,需要人工设计基于Transformer的深度神经网络,端到端学习
参数规模低至中等,受限于特征和模型复杂度数十亿至数千亿,支持复杂语义和上下文理解
任务范围具体任务分离,如语法分析、情感分类统一模型,可执行多种语言任务
应用灵活性受限,通常针对特定应用定制高,支持生成、问答、翻译等多场景

从应用层面看,传统NLP应用多定位于具体且有限的任务,如语音识别系统、文本分类等。LLM则通过其强大的生成和理解能力,在智能助理、自动内容生成、复杂对话系统等领域展现出强大潜力。例如,GPT-4不仅精通语言生成,也支持跨领域知识整合,极大提升了智能客服和内容创作的效率。

信息图对比 NLP 与 LLM 的任务范围与应用场景。左侧 NLP 表现为多个分散的小方块图标,代表情感分析、语法解析等单一任务;右侧 LLM 以统一的大圆圈展示,内部包含对话、翻译、内容生成等多种应用,突出多任务能力。

NLP与LLM关键比较指标表

指标自然语言处理(NLP)大型语言模型(LLM)
参数规模数百万至数亿参数数十亿乃至百亿以上参数
训练数据专门标注数据集大规模互联网语料及多模态数据
应用场景文本分析、信息提取、规则基础对话复杂理解、生成任务、多领域应用

LLM的发展推动了NLP的质的飞跃,其自动化学习和泛化能力弥补了传统NLP依赖规则和有限数据的缺陷。通过结合海量语料和强大计算资源,LLM显著提升了语言理解的深度和广度,带来了从工具型技术到智能型技术的转变。


大型语言模型(LLM)的跨领域应用实景解析

信息图展示 LLM 的跨领域应用。中心是 AI 芯片图标,周围环绕医疗(辅助诊断、病历生成)、法律(文书生成、合同审查)、教育(个性化学习、自动批改)、金融(智能风控、客户咨询)、媒体(自动写作、摘要生成)等场景。

大型语言模型(LLM)正在医疗、法律、教育等多个关键领域展现出强大的变革力量,推动行业效率和服务质量的大幅提升。

医疗领域方面,LLM通过辅助诊断、病历自动生成和精准医学研究大幅提升了医生的工作效率。例如,某国际知名医疗机构引入的LLM辅助诊断系统,将医疗影像分析准确率提升了15%,病历文案时间缩短40%,业内评估显示该系统显著减少了误诊率。此类方案不仅优化医疗流程,还减少了人力资源压力。

在法律行业,LLM充当高效的法律助理,能够自动生成法律文件、合同审查以及案件研究。某领先法律科技公司的LLM产品应用后,律师文书工作时间减少30%,案件调研速度加快25%,并通过智能合同审核降低了合同漏洞风险,赢得众多法务专家的高度评价和用户的广泛认可。

教育领域的创新教学同样依赖LLM驱动。通过个性化学习内容推荐、自动批改作文以及实时答疑,大幅提升了教学效率与学生互动体验。一家在线教育平台数据显示,利用LLM辅助教学后,学生课程完成率提升20%,教师批改负担减少50%,教育质量显著提升,尤其在语言学习和写作训练中表现突出。

除上述主力行业,金融、零售、媒体等领域也纷纷引入LLM技术优化客户服务、风险控制及内容生成。金融行业依托LLM进行智能风控和客户咨询,媒体行业应用于自动新闻撰写与信息摘要,均实现了显著的业务流程革新。

LLM跨领域应用案例对比表

领域应用场景使用模型效果评价
医疗辅助诊断GPT-4提升诊断准确率10%
法律智能文书生成BERT文档生成效率提升30%

当前,LLM跨领域应用虽然成效显著,但仍面临数据隐私、安全与模型偏见等挑战。各行业正持续推动算法优化和监管标准制定以确保安全可控。

LLM跨领域应用注意事项清单

  • 保证数据隐私和安全
  • 选择合适模型和算法
  • 持续优化模型性能

综上,LLM已成为多个行业提升效能与服务质量的关键技术,现阶段表现出强劲的实用价值和广阔的未来潜力。未来,随着技术的成熟和应用深化,LLM将在更多领域造福用户,促进各行业智能化转型升级,实现更大社会价值。


DeepSeek是否属于LLM及其独特特点详解

DeepSeek是一款基于深度学习的智能搜索平台,运用多模态数据处理和大规模预训练技术,旨在提升信息检索的精准度和效率。它集成了文本、图像、语音等多种数据形式的理解能力,以实现跨领域内容的深度匹配。

1. DeepSeek是否属于LLM?

LLM(大型语言模型)定义强调模型通过大规模文本数据预训练,实现自然语言理解和生成能力。DeepSeek虽包含语言模型元素,但核心技术更多聚焦于多模态融合和检索优化,且其模型结构与典型的自动回归生成型LLM(如GPT系列)存在差异。

从官方技术资料看,DeepSeek不完全符合传统LLM的定义,它更像是一种结合了语言模型与检索增强的混合型智能系统。

对比图展示 DeepSeek 与主流 LLM 的差异。DeepSeek 采用多模态融合和检索增强架构,支持文本、图像、语音输入,侧重精准信息检索和匹配;主流 LLM 则以纯语言模型为主,输入主要是文本,强调语言生成与交互的通用性。

2. DeepSeek与主流LLM的主要区别:

特性DeepSeek主流LLM(例如GPT-4)
模型类型多模态融合,检索增强型纯语言模型,生成型
输入数据类型文本+图像+语音主要文本
任务重点信息检索与匹配语言生成与理解
应用灵活度定制化强,强调精准检索通用性强,偏向语言交互

3. DeepSeek独特特点与优势:

  • 多模态语义理解能力显著强于传统LLM,支持复杂检索任务。
  • 结合检索机制,提升内容匹配准确率,减少无关生成。
  • 应用场景涵盖智能问答、跨媒体搜索、专业内容推荐等,实际效果优于单一LLM方案。

4. 应用案例及实际效果展示:

  • 某在线教育平台引入DeepSeek,实现了教材与视频内容的跨媒体智能匹配,用户满意度提升35%。
  • 企业知识库搜索中,DeepSeek帮助员工准确定位文件,搜索效率提升50%。
信息图展示 DeepSeek 的独特特点和应用。中心是 DeepSeek,周围环绕多模态语义理解、检索增强、智能问答、跨媒体搜索、内容推荐等能力,并展示应用案例:教育平台用户满意度提升35%,企业知识库搜索效率提升50%。

DeepSeek与典型LLM功能比较表

模型名称参数规模架构类型核心应用场景突出特点
DeepSeek约数亿参数混合架构文本搜索与生成优化的上下文理解与检索能力

判断模型是否属于LLM的标准清单

  • 模型参数超十亿以上
  • 支持多任务自然语言处理
  • 具备深度语义理解能力

总结:DeepSeek虽不完全是传统意义上的LLM,但结合大规模语言模型与多模态检索技术,形成独具优势的智能搜索体系。其精准的匹配能力和多样的应用场景,使其在实际应用中展现出超越传统LLM的竞争力,值得关注与深入研究。


最新趋势与未来展望:LLM技术的突破与发展方向

近年来,大型语言模型(LLM)技术迎来了多项突破,奠定了未来发展的坚实基础。首先,多模态模型成为当下的技术热点,通过融合文本、图像、语音等多种数据形式,实现了跨模态理解与生成能力。以OpenAI的GPT-4为代表的多模态模型,不仅提升了信息的表达力,也拓展了智能应用的边界,推动了智能交互从单一文本向多感知融合的转变。

在模型优化方面,剪枝与蒸馏技术被广泛应用以降低模型复杂度和计算资源需求。通过剪枝精简参数,蒸馏将大模型知识迁移至轻量级模型,使得边缘设备也能高效运行LLM,显著拓宽了应用场景。最新研究显示,适当的剪枝和蒸馏策略可在不牺牲准确率的前提下减少30%-50%的计算资源消耗。

隐私保护成为LLM发展的关键问题之一。技术创新如联邦学习、多方安全计算等正被引入到LLM训练和推理中,确保用户数据不被暴露。与此同时,算力需求驱动下的异构计算架构、定制化芯片设计不断提升模型运行效率,为大规模推广提供了技术支撑。

展望未来,LLM技术将进入更加智能与高效的阶段。新兴方向包括持续学习能力的增强以适应动态环境,绿色AI推动能耗降低,以及更加广泛的行业定制应用。例如,医学、法律和金融等领域将通过个性化定制的LLM实现知识自动化与决策辅助,极大提升专业效率。

主流LLM模型技术指标对比

模型名称参数规模训练数据量应用场景性能评价指标
ChatGPT1750亿数千亿词多任务对话、写作高准确率,响应速度快

未来LLM技术发展关键点清单

指标名称重点内容
模型压缩提高模型运行效率,降低计算资源消耗

LLM突破性应用案例示例

案例名称应用效果技术亮点
医疗诊断辅助提高诊断准确率25%结合多模态数据融合技术

随着技术的成熟与应用场景的拓展,LLM必将成为推动智能社会的重要引擎。掌握其核心原理和最新趋势,能助你在未来人工智能浪潮中抢占先机。


FAQ

Q1: DeepSeek是LLM吗?

DeepSeek并非传统意义上的大型语言模型(LLM),它是结合了语言模型与多模态检索技术的混合型智能搜索平台,强调多模态数据的融合和精准信息检索。

Q2: NLP和LLM有什么区别?

NLP是广义上的自然语言处理技术,涵盖规则和统计方法等传统技术,而LLM是基于深度学习的海量参数模型,具备强大的语义理解和生成能力,属于NLP的先进分支。

Q3: LLM的本质是什么?

LLM本质是通过大规模参数的神经网络模型,利用海量文本数据进行自监督训练,自动学习语言规律,实现自然语言的深层次理解与生成。

Q4: 什么是LLM幻觉?

LLM幻觉指模型生成的内容出现逻辑、事实或语义上的错误,包括误报、断章取义和虚构事实,影响输出的准确性和可信度。

友情推广:TreeMind树图思维导图

说明:以下内容并非原创,由开发者提供,纯免费帮忙,不为产品背书。

据调查显示,使用思维导图的产品经理更有可能在职场上脱颖而出,成功率高达80%!

在这个信息爆炸的时代,如何高效地组织、整理、挖掘和应用知识,成为每一位产品经理所面临的挑战。

面对这一挑战,思维导图成为了大厂经理们高薪的秘密武器。

而TreeMind树图就是思维导图中的加速器,搭载媲美GPT的人工智能大模型,AI一句话即可生成逻辑清晰、层级分明的思维导图,让产品经理的工作更轻松。

一、产品简介

作为首批「AIGC+思维导图」平台,TreeMind树图一句话即可生成详实的思维导图,开启了AI生成思维导图新时代,能够快速提升你的学习和工作效率。还有上百万的模板,满足各行各业、不同细分领域需求,是真正思维导图届的“百科全书”。

戳这里体验:https://shutu.cn/?from=cpjldrgznxxk

二、9大核心功能

  • AI一句话生成思维导图
  • AI智能助手随时提问,生产力MAX
  • 百万模板随心挑选 1,132,200模板,每天都在上新
  • 丰富的素材类型 海量设计资源库
  • 跨平台文件同步 随时随地可查看
  • 团队空间 支持多人同时管理团队
  • 脱离PPT 直接在树图演示
  • 开放平台 接入更多外部应用
  • 分屏模式 一屏完成读写绘图

……

三、特色介绍

1、AI一句话生成思维导图

从未做过思维导图的小白不知从哪开始?不要慌!提出需求,结合当下最火的ChatGPT,树图AI直接帮你一键生成定制化思维导图,并且还支持随意修改,新用户注册就送2000字的AI字数体验!免费的羊毛,你还不薅?

AI思维导图智能库功能齐全强大,不管你是工作汇报还是提炼读书笔记,就算是当下最火的视频脚本解析,它都能帮你准确生成,大大提高你的生活和工作效率!并且智能库还会不断更新,不会面临重复或内容过时的局面。生成的思维导图不限节点增删,哪里需要改哪里!

自己做的思维导图没有灵感?你还能让AI参考你的思路继续扩写,拒绝灵感枯竭!让你站在巨人的肩膀开阔眼界,让你的思维和灵感立刻涌现。

2、应用场景广泛

无论是需求整理、产品规划、市场分析、或者是团队沟通,只要涉及到信息的整理和传递,TreeMind树图都能为您提供极大的帮助。

  • 需求整理:通过导图直观展示各个需求间的关系,帮助团队对产品的方向有更明确的认知。
  • 产品规划:将产品的生命周期、功能模块、用户体验等要点一览无余地展现出来,方便团队参考和实施。
  • 市场分析:结合AI技术,智能提取市场数据中的关键信息,生成直观的思维导图,助力产品经理迅速把握市场动态。
  • 团队沟通:在会议或日常工作中,利用TreeMind树图实时记录、整理关键点,确保沟通效果。TreeMind树图甚至还能让您脱离PPT,直接用思维导图进行演示。

3、 百万模版免费用

将近150万+导图模板,每天都在上新!包含多达829个精选专辑、共计123个模板品类、覆盖12种行业类型,帮你释放创意无限潜力!无论你要做什么类型的思维导图,在TreeMind树图模版库99%能找到!直接在大佬的思维导图上进行修改,帮你开阔思路,成为思维导图高手。

4.分屏视图,一屏读写

在绘制复杂思维导图时,参考大量资料是家常便饭,但频繁跳转窗口查看资料与编辑思维导图的传统方式实在低效。

一屏两用让你的读写模式so easy!一边阅读文件,一边制作思维导图,学习效果翻倍!资料上传支持3种导入方式:文件导入、粘贴导入、网址导入,支持PDF、Word、Txt三种文件格式,无需转换,直接参考!更棒的是,历史资料库自动备份,让你不再担心文件丢失!此外,我们还增加了窗口大小调节功能,随心调整界面,提供更舒适的学习环境!二者衔接,让你的导图绘制更加丝滑!

5、团队空间,多人协作

无论是特殊时期在家办公,还是多人协作完成一个方案/作业,都需要很方便地将自己的创作内容分享给同事,时不时也需要来一场多人头脑风暴,多人在线分工共同完成一个事情。传统的软件只能每人单独完成一份文件,最后将多人文件合并在一起,然后统一修改。

  • 传统思维导图:导图文件或图片只能通过微信、钉钉、邮件等分享,内容更新后需再次分享;无法跟同学、同事,多人同时完成一个思维导图的制作;
  • 新一代思维导图-TreeMind树图:多人同时编辑一个思维导图,可以在一张思维导图里头脑风暴、梳理思路。

6、云端跨平台化

目前市面上的大多数思维导图软件,都需要下载安装客户端才能使用,要么占用电脑磁盘空间,要么就是浪费手机内存,最重要的是偶尔也会碰到盗版软件和流氓软件。TreeMind树图是一款在线思维导图工具,打开浏览器访问网站即可快速创建思维导图,让自己的灵感快速穿梭在思维导图的一个个节点上,学习力和生产力拉满。

同时TreeMind树图实现了「实时保存,内容可多平台文件同步」,再也不用担心忘记保存、软件崩溃导致内容丢失,让自己专注于内容创作和灵感爆发,不受其他干扰~在浏览器,客户端,手机端都可以修改和浏览文件。

7、免费够用,会员超值

TreeMind树图的大部分权益都可以免费使用,对于刚接触思维导图的新手小白,TreeMind树图也提供了每日免费导出1次➕AI字数2000字的至尊体验;开通会员后更是可以解锁更多权益,成为思维导图届的大神!同事们一起拼团购买,还能享受到团队优惠价。

四、如何使用TreeMind树图?

1.想要AI一键生成:

打开网站在文字框内输入你的需求,AI就会自动生成一份相关的定制思维导图。

比如,我在这里输入:

让它以此帮我生成工作周报!只要输入主题,然后点击智能生成即可。结果如下图所示:

2.AI导图不满意,想要自己新建:

在工作台,选择你要创建的导图类型,就可以新建绘制你自己的导图啦!

比如:你想定制自己的工作周报,只要选择合适的导图框架就可以在节点上自由绘制,还可以在模版库现有的模版上免费修改。结果如下图所示:

五、限时优惠

惊天好消息!TreeMind树图目前也上线了终身会员,每天前20名购买的粉丝可以享受立减200元,终身VIP仅需早鸟价399元!倒计时5天!欲购从速!

看完后是不是被TreeMind树图出色的功能和贴心的服务惊艳到了,想要提高工作效率的产品经理们可以去试试,它的会员价格可以说是白菜价了。一个会员可以多个平台通用,非常划算,强烈安利大家入手

无需下载点击即用https://shutu.cn/?from=cpjldrgznxxk

分类特征

https://easyai.tech/wp-content/uploads/2022/08/39995-2021-03-30-typefeature.png

分类特征是重要的一类特征。分类特征是离散的,非连续的。

本文将针对小型分类和大型分类介绍5种主流的编码方式。以及各自的优缺点。

 

什么是分类(类别)特征?

分类特征是用来表示分类的,他不像数值类特征是连续的,分类特征是离散的。

比如:

  • 性别
  • 城市
  • 颜色
  • IP地址
  • 用户的账号ID

https://easyai.tech/wp-content/uploads/2022/08/d2797-2021-03-30-lisan.png

有些分类特征也是数值,比如账号ID,IP地址。但是这些数值并不是连续的。

连续的数字是数值类特征,离散的数字是分类特征。

关于连续和离散的解释可以看看这篇文章:《关于连续和离散的理解

小型分类特征的编码方式

https://easyai.tech/wp-content/uploads/2022/08/5345c-2021-03-30-small-data.png

自然数编码/序列编码-Ordinal Encoding

某些分类本来就有一定的排序,这种情况下就可以使用简单的自然数编码。

例如学位:

学士-0

硕士-1

博士-2

独热编码-One-Hot Encoding

对于城市、颜色、品牌、材质…这些特征就不适合用自然数编码,因为这些特征是没有排序关系的。

使用独热编码可以让不同的分类处在「平等的地位」,不会因为数值的大小而对分类造成影响。

例如颜色分类(假设只有3种颜色):

红色-100

黄色-010

蓝色-001

跟独热编码类似还有「虚拟编码-Dummy Encoding」和「效果编码-Effect Encoding」。

实现方式比较相似,不过有一些略微的差别,并且适用在不同的场景。

感兴趣的可以看看这篇文章:

虚拟变量和独热编码的区别

赋值方法:效应编码

大型分类特征的编码方式

https://easyai.tech/wp-content/uploads/2022/08/f340a-2021-03-30-big-data.png

目标编码-Target Encoding

目标编码是表示分类列的一种非常有效的方法,并且仅占用一个特征空间,也称为均值编码。该列中的每个值都被该类别的平均目标值替代。这可以更直接地表示分类变量和目标变量之间的关系。

目标编码的扩展阅读:《目标编码简介

散列编码-Hash encoding

散列函数也是大家常听到的哈希函数。散列函数是一个确定性函数,它映射一个潜在的无界整数到有限整数范围[1,m]。

假如有一个分类有1万个值,如果使用独热编码,编码会非常长。而使用了散列编码,不管分类有多少不同的值,都会转换成长度固定的编码。

分箱计数-Bin-Counting

分箱计数的思维有点复杂:他不是用分类变量的值作为特征,而是使用目标变量取这个值的条件概率。

换句话说,我们不对分类变量的值进行编码,而是要计算分类变量值与要预测的目标变量之间的相关统计量。

不同编码的优缺点总结

独热编码-One-Hot Encoding

优点:

  1. 容易实现
  2. 分类很精确
  3. 可用于在线学习

缺点:

  1. 计算效率不高
  2. 不能适应可增长的类别
  3. 只适用于线性模型
  4. 对于大数据集,需要大规模的分布式优化

散列编码-Hash encoding

优点:

  1. 容易实现
  2. 模型训练成本更低
  3. 容易适应新类别
  4. 容易处理稀有类
  5. 可用于在线学习

缺点:

  1. 只适合线性模型或核方法
  2. 散列后的特征无法解释
  3. 精确度难以保证

分箱计数-Bin-Counting

优点:

  1. 训练阶段的计算负担最小
  2. 可用于基于树的模型
  3. 容易适应新的类别
  4. 可使用back-off方法或最小计数图处理稀有类
  5. 可解释

缺点:

  1. 需要历史数据
  2. 需要延迟更新,不完全适合在线学习
  3. 很可能导致数据泄露

上面内容摘自:《精通特征工程

总结

分类特征是离散的特征,数值类特征是连续的。

对于小型分类,常用的编码方式有:

  1. 自然数编码/序列编码-Ordinal Encoding
  2. 独热编码-One-Hot Encoding
  3. 虚拟编码-Dummy Encoding
  4. 效果编码-Effect Encoding

对于大型分类,常用的编码方式有:

  1. 目标编码-Target Encoding
  2. 散列编码-Hash encoding
  3. 分箱计数-Bin-Counting

相关文章推荐:

机器学习之类别特征处理

特征工程(四): 类别特征

数值类特征

https://easyai.tech/wp-content/uploads/2022/08/c3a87-2021-03-21-datafeature.png

数值类特征是最常见的一种特征类型,数值可以直接喂给算法。
为了提升效果,我们需要对数值特征做一些处理,本文介绍了4种常见的处理方式:缺失值处理、二值化、分桶、缩放。

什么是数值类特征?

https://easyai.tech/wp-content/uploads/2022/08/5f1f1-2021-03-21-keceliang.png

数值类特征就是可以被实际测量的特征。例如:

  • 人的身高、体重、三维
  • 商品的访问次数、加入购物车次数、最终销量
  • 登录用户中有多少新增用户、回访用户

 

数值类的特征可以直接喂给算法,为什么还要处理?

因为好的数值特征不仅能表示出数据隐藏的中的信息,而且还与模型的假设一致。通过合适的数值变换就可以带来很好的效果提升。

例如线性回归、逻辑回归对于数值的大小很敏感,所以需要进行缩放。

https://easyai.tech/wp-content/uploads/2022/08/8a714-2021-03-21-2points.png

对于数值类特征,我们主要关注2个点:

  1. 大小
  2. 分布

下面提到的4种处理方式都是围绕大小和分布来优化的。

 

数值类特征常用的4种处理方式

https://easyai.tech/wp-content/uploads/2022/08/e1ef8-2021-03-21-4method.png

  1. 缺失值处理
  2. 二值化
  3. 分桶 / 分箱
  4. 缩放

 

缺失值处理

在实际问题中,经常会遇到数据缺失的情况。缺失值对效果会产生较大的影响。所以需要根据实际情况来处理。

对于缺失值常用3种处理方式:

  1. 填充缺失值(均值、中位数、模型预测…)
  2. 删除带有缺失值的行
  3. 直接忽略,将缺失值作为特征的一部分喂给模型进行学习

 

二值化

这种处理方式通常用在计数的场景,例如:访问量、歌曲的收听次数…

举例:

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均,会不停的听新的歌曲,但是有一个用户24小时的不停播放同一首歌曲,并且这个歌曲很偏门,导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型,就会误导模型。这时候就需要使用「二值化」。

同一个用户,把同一首歌听了N遍,只计数1,这样就能找出大家都喜欢的歌曲来推荐。

 

分桶 / 分箱

拿每个人的收入举例,大部分人的收入都不高,极少数人的收入极其高,分布很不均匀。有些人月收入3000,有些人月收入30万,跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分桶就是将数值特征分成不同的区间,将每个区间看做一个整体。

常见的分桶:

  1. 年龄分布
  2. 商品价格分布
  3. 收入分布

常用的分桶方式:

  1. 固定数值的分桶(例如年龄分布:0-12岁、13-17岁、18-24岁…)、
  2. 分位数分桶(例如淘宝推荐的价格区间:30%用户选择最便宜的价格区间、60%用户选择的中等价格区间、9%的用户选择最贵的价格区间)
  3. 使用模型找到最佳分桶

https://easyai.tech/wp-content/uploads/2022/08/c2ba0-2021-03-21-taobao-fenweishu.png

 

缩放

线性回归、逻辑回归对于数值的大小很敏感、不同特征尺度相差很大的话会严重影响效果。所以需要将不同量级的数值进行归一化。将不同的数量级缩放到同一个静态范围中(例如:0~1,-1~1)。

常用的归一化方式:

  1. z分数标准化
  2. min-max标准化
  3. 行归一化
  4. 方差缩放

扩展阅读:

数据缩放:标准化和归一化

106-数据缩放scaling(标准化、归一化)的那些事