Author Archive

友情推廣:TreeMind樹圖思維導圖

說明:以下內容並非原創,由開發者提供,純免費幫忙,不為產品背書。

據調查顯示,使用思維導圖的產品經理更有可能在職場上脫穎而出,成功率高達80%!

在這個信息爆炸的時代,如何高效地組織、整理、挖掘和應用知識,成為每一位產品經理所面臨的挑戰。

面對這一挑戰,思維導圖成為了大廠經理們高薪的秘密武器。

而TreeMind樹圖就是思維導圖中的加速器,搭載媲美GPT的人工智能大模型,AI一句話即可生成邏輯清晰、層級分明的思維導圖,讓產品經理的工作更輕鬆。

一、產品簡介

作為首批「AIGC+思維導圖」平台,TreeMind樹圖一句話即可生成詳實的思維導圖,開啟了AI生成思維導圖新時代,能夠快速提升你的學習和工作效率。還有上百萬的模板,滿足各行各業、不同細分領域需求,是真正思維導圖屆的「百科全書」。

戳這裡體驗:https://shutu.cn/?from=cpjldrgznxxk

二、9大核心功能

  • AI一句話生成思維導圖
  • AI智能助手隨時提問,生產力MAX
  • 百萬模板隨心挑選 1,132,200模板,每天都在上新
  • 豐富的素材類型 海量設計資源庫
  • 跨平台文件同步 隨時隨地可查看
  • 團隊空間 支持多人同時管理團隊
  • 脫離PPT 直接在樹圖演示
  • 開放平台 接入更多外部應用
  • 分屏模式 一屏完成讀寫繪圖

……

三、特色介紹

1、AI一句話生成思維導圖

從未做過思維導圖的小白不知從哪開始?不要慌!提出需求,結合當下最火的ChatGPT,樹圖AI直接幫你一鍵生成定製化思維導圖,並且還支持隨意修改,新用戶註冊就送2000字的AI字數體驗!免費的羊毛,你還不薅?

AI思維導圖智能庫功能齊全強大,不管你是工作彙報還是提煉讀書筆記,就算是當下最火的視頻腳本解析,它都能幫你準確生成,大大提高你的生活和工作效率!並且智能庫還會不斷更新,不會面臨重複或內容過時的局面。生成的思維導圖不限節點增刪,哪裡需要改哪裡!

自己做的思維導圖沒有靈感?你還能讓AI參考你的思路繼續擴寫,拒絕靈感枯竭!讓你站在巨人的肩膀開闊眼界,讓你的思維和靈感立刻湧現。

2、應用場景廣泛

無論是需求整理、產品規劃、市場分析、或者是團隊溝通,只要涉及到信息的整理和傳遞,TreeMind樹圖都能為您提供極大的幫助。

  • 需求整理:通過導圖直觀展示各個需求間的關係,幫助團隊對產品的方向有更明確的認知。
  • 產品規劃:將產品的生命周期、功能模塊、用戶體驗等要點一覽無餘地展現出來,方便團隊參考和實施。
  • 市場分析:結合AI技術,智能提取市場數據中的關鍵信息,生成直觀的思維導圖,助力產品經理迅速把握市場動態。
  • 團隊溝通:在會議或日常工作中,利用TreeMind樹圖實時記錄、整理關鍵點,確保溝通效果。TreeMind樹圖甚至還能讓您脫離PPT,直接用思維導圖進行演示。

3、 百萬模版免費用

將近150萬+導圖模板,每天都在上新!包含多達829個精選專輯、共計123個模板品類、覆蓋12種行業類型,幫你釋放創意無限潛力!無論你要做什麼類型的思維導圖,在TreeMind樹圖模版庫99%能找到!直接在大佬的思維導圖上進行修改,幫你開闊思路,成為思維導圖高手。

4.分屏視圖,一屏讀寫

在繪製複雜思維導圖時,參考大量資料是家常便飯,但頻繁跳轉窗口查看資料與編輯思維導圖的傳統方式實在低效。

一屏兩用讓你的讀寫模式so easy!一邊閱讀文件,一邊製作思維導圖,學習效果翻倍!資料上傳支持3種導入方式:文件導入、粘貼導入、網址導入,支持PDF、Word、Txt三種文件格式,無需轉換,直接參考!更棒的是,歷史資料庫自動備份,讓你不再擔心文件丟失!此外,我們還增加了窗口大小調節功能,隨心調整界面,提供更舒適的學習環境!二者銜接,讓你的導圖繪製更加絲滑!

5、團隊空間,多人協作

無論是特殊時期在家辦公,還是多人協作完成一個方案/作業,都需要很方便地將自己的創作內容分享給同事,時不時也需要來一場多人頭腦風暴,多人在線分工共同完成一個事情。傳統的軟件只能每人單獨完成一份文件,最後將多人文件合併在一起,然後統一修改。

  • 傳統思維導圖:導圖文件或圖片只能通過微信、釘釘、郵件等分享,內容更新後需再次分享;無法跟同學、同事,多人同時完成一個思維導圖的製作;
  • 新一代思維導圖-TreeMind樹圖:多人同時編輯一個思維導圖,可以在一張思維導圖裡頭腦風暴、梳理思路。

6、雲端跨平台化

目前市面上的大多數思維導圖軟件,都需要下載安裝客戶端才能使用,要麼佔用電腦磁盤空間,要麼就是浪費手機內存,最重要的是偶爾也會碰到盜版軟件和流氓軟件。TreeMind樹圖是一款在線思維導圖工具,打開瀏覽器訪問網站即可快速創建思維導圖,讓自己的靈感快速穿梭在思維導圖的一個個節點上,學習力和生產力拉滿。

同時TreeMind樹圖實現了「實時保存,內容可多平台文件同步」,再也不用擔心忘記保存、軟件崩潰導致內容丟失,讓自己專註於內容創作和靈感爆發,不受其他干擾~在瀏覽器,客戶端,手機端都可以修改和瀏覽文件。

7、免費夠用,會員超值

TreeMind樹圖的大部分權益都可以免費使用,對於剛接觸思維導圖的新手小白,TreeMind樹圖也提供了每日免費導出1次➕AI字數2000字的至尊體驗;開通會員後更是可以解鎖更多權益,成為思維導圖屆的大神!同事們一起拼團購買,還能享受到團隊優惠價。

四、如何使用TreeMind樹圖?

1.想要AI一鍵生成:

打開網站在文字框內輸入你的需求,AI就會自動生成一份相關的定製思維導圖。

比如,我在這裡輸入:

讓它以此幫我生成工作周報!只要輸入主題,然後點擊智能生成即可。結果如下圖所示:

2.AI導圖不滿意,想要自己新建:

在工作台,選擇你要創建的導圖類型,就可以新建繪製你自己的導圖啦!

比如:你想定製自己的工作周報,只要選擇合適的導圖框架就可以在節點上自由繪製,還可以在模版庫現有的模版上免費修改。結果如下圖所示:

五、限時優惠

驚天好消息!TreeMind樹圖目前也上線了終身會員,每天前20名購買的粉絲可以享受立減200元,終身VIP僅需早鳥價399元!倒計時5天!欲購從速!

看完後是不是被TreeMind樹圖出色的功能和貼心的服務驚艷到了,想要提高工作效率的產品經理們可以去試試,它的會員價格可以說是白菜價了。一個會員可以多個平台通用,非常划算,強烈安利大家入手

無需下載點擊即用https://shutu.cn/?from=cpjldrgznxxk

分類特徵

https://easyai.tech/wp-content/uploads/2022/08/39995-2021-03-30-typefeature.png

分類特徵是重要的一類特徵。分類特徵是離散的,非連續的。

本文將針對小型分類和大型分類介紹5種主流的編碼方式。以及各自的優缺點。

 

什麼是分類(類別)特徵?

分類特徵是用來表示分類的,他不像數值類特徵是連續的,分類特徵是離散的。

比如:

  • 性別
  • 城市
  • 顏色
  • IP地址
  • 用戶的賬號ID

https://easyai.tech/wp-content/uploads/2022/08/d2797-2021-03-30-lisan.png

有些分類特徵也是數值,比如賬號ID,IP地址。但是這些數值並不是連續的。

連續的數字是數值類特徵,離散的數字是分類特徵。

關於連續和離散的解釋可以看看這篇文章:《關於連續和離散的理解

小型分類特徵的編碼方式

https://easyai.tech/wp-content/uploads/2022/08/5345c-2021-03-30-small-data.png

自然數編碼/序列編碼-Ordinal Encoding

某些分類本來就有一定的排序,這種情況下就可以使用簡單的自然數編碼。

例如學位:

學士-0

碩士-1

博士-2

獨熱編碼-One-Hot Encoding

對於城市、顏色、品牌、材質…這些特徵就不適合用自然數編碼,因為這些特徵是沒有排序關係的。

使用獨熱編碼可以讓不同的分類處在「平等的地位」,不會因為數值的大小而對分類造成影響。

例如顏色分類(假設只有3種顏色):

紅色-100

黃色-010

藍色-001

跟獨熱編碼類似還有「虛擬編碼-Dummy Encoding」和「效果編碼-Effect Encoding」。

實現方式比較相似,不過有一些略微的差別,並且適用在不同的場景。

感興趣的可以看看這篇文章:

虛擬變量和獨熱編碼的區別

賦值方法:效應編碼

大型分類特徵的編碼方式

https://easyai.tech/wp-content/uploads/2022/08/f340a-2021-03-30-big-data.png

目標編碼-Target Encoding

目標編碼是表示分類列的一種非常有效的方法,並且僅佔用一個特徵空間,也稱為均值編碼。該列中的每個值都被該類別的平均目標值替代。這可以更直接地表示分類變量和目標變量之間的關係。

目標編碼的擴展閱讀:《目標編碼簡介

散列編碼-Hash encoding

散列函數也是大家常聽到的哈希函數。散列函數是一個確定性函數,它映射一個潛在的無界整數到有限整數範圍[1,m]。

假如有一個分類有1萬個值,如果使用獨熱編碼,編碼會非常長。而使用了散列編碼,不管分類有多少不同的值,都會轉換成長度固定的編碼。

分箱計數-Bin-Counting

分箱計數的思維有點複雜:他不是用分類變量的值作為特徵,而是使用目標變量取這個值的條件概率。

換句話說,我們不對分類變量的值進行編碼,而是要計算分類變量值與要預測的目標變量之間的相關統計量。

不同編碼的優缺點總結

獨熱編碼-One-Hot Encoding

優點:

  1. 容易實現
  2. 分類很精確
  3. 可用於在線學習

缺點:

  1. 計算效率不高
  2. 不能適應可增長的類別
  3. 只適用於線性模型
  4. 對於大數據集,需要大規模的分佈式優化

散列編碼-Hash encoding

優點:

  1. 容易實現
  2. 模型訓練成本更低
  3. 容易適應新類別
  4. 容易處理稀有類
  5. 可用於在線學習

缺點:

  1. 只適合線性模型或核方法
  2. 散列後的特徵無法解釋
  3. 精確度難以保證

分箱計數-Bin-Counting

優點:

  1. 訓練階段的計算負擔最小
  2. 可用於基於樹的模型
  3. 容易適應新的類別
  4. 可使用back-off方法或最小計數圖處理稀有類
  5. 可解釋

缺點:

  1. 需要歷史數據
  2. 需要延遲更新,不完全適合在線學習
  3. 很可能導致數據泄露

上面內容摘自:《精通特徵工程

總結

分類特徵是離散的特徵,數值類特徵是連續的。

對於小型分類,常用的編碼方式有:

  1. 自然數編碼/序列編碼-Ordinal Encoding
  2. 獨熱編碼-One-Hot Encoding
  3. 虛擬編碼-Dummy Encoding
  4. 效果編碼-Effect Encoding

對於大型分類,常用的編碼方式有:

  1. 目標編碼-Target Encoding
  2. 散列編碼-Hash encoding
  3. 分箱計數-Bin-Counting

相關文章推薦:

機器學習之類別特徵處理

特徵工程(四): 類別特徵

數值類特徵

https://easyai.tech/wp-content/uploads/2022/08/c3a87-2021-03-21-datafeature.png

數值類特徵是最常見的一種特徵類型,數值可以直接餵給算法。
為了提升效果,我們需要對數值特徵做一些處理,本文介紹了4種常見的處理方式:缺失值處理、二值化、分桶、縮放。

什麼是數值類特徵?

https://easyai.tech/wp-content/uploads/2022/08/5f1f1-2021-03-21-keceliang.png

數值類特徵就是可以被實際測量的特徵。例如:

  • 人的身高、體重、三維
  • 商品的訪問次數、加入購物車次數、最終銷量
  • 登錄用戶中有多少新增用戶、回訪用戶

 

數值類的特徵可以直接餵給算法,為什麼還要處理?

因為好的數值特徵不僅能表示出數據隱藏的中的信息,而且還與模型的假設一致。通過合適的數值變換就可以帶來很好的效果提升。

例如線性回歸、邏輯回歸對於數值的大小很敏感,所以需要進行縮放。

https://easyai.tech/wp-content/uploads/2022/08/8a714-2021-03-21-2points.png

對於數值類特徵,我們主要關注2個點:

  1. 大小
  2. 分佈

下面提到的4種處理方式都是圍繞大小和分佈來優化的。

 

數值類特徵常用的4種處理方式

https://easyai.tech/wp-content/uploads/2022/08/e1ef8-2021-03-21-4method.png

  1. 缺失值處理
  2. 二值化
  3. 分桶 / 分箱
  4. 縮放

 

缺失值處理

在實際問題中,經常會遇到數據缺失的情況。缺失值對效果會產生較大的影響。所以需要根據實際情況來處理。

對於缺失值常用3種處理方式:

  1. 填充缺失值(均值、中位數、模型預測…)
  2. 刪除帶有缺失值的行
  3. 直接忽略,將缺失值作為特徵的一部分餵給模型進行學習

 

二值化

這種處理方式通常用在計數的場景,例如:訪問量、歌曲的收聽次數…

舉例:

根據用戶的聽音樂的數據來預測哪些歌曲更受歡迎。

假設大部分人聽歌都很平均,會不停的聽新的歌曲,但是有一個用戶24小時的不停播放同一首歌曲,並且這個歌曲很偏門,導致這首歌的總收聽次數特別高。如果用總收聽次數來餵給模型,就會誤導模型。這時候就需要使用「二值化」。

同一個用戶,把同一首歌聽了N遍,只計數1,這樣就能找出大家都喜歡的歌曲來推薦。

 

分桶 / 分箱

拿每個人的收入舉例,大部分人的收入都不高,極少數人的收入極其高,分佈很不均勻。有些人月收入3000,有些人月收入30萬,跨了好幾個數量級。

這種特徵對於模型很不友好。這種情況就可以使用分桶來處理。分桶就是將數值特徵分成不同的區間,將每個區間看做一個整體。

常見的分桶:

  1. 年齡分佈
  2. 商品價格分佈
  3. 收入分佈

常用的分桶方式:

  1. 固定數值的分桶(例如年齡分佈:0-12歲、13-17歲、18-24歲…)、
  2. 分位數分桶(例如淘寶推薦的價格區間:30%用戶選擇最便宜的價格區間、60%用戶選擇的中等價格區間、9%的用戶選擇最貴的價格區間)
  3. 使用模型找到最佳分桶

https://easyai.tech/wp-content/uploads/2022/08/c2ba0-2021-03-21-taobao-fenweishu.png

 

縮放

線性回歸、邏輯回歸對於數值的大小很敏感、不同特徵尺度相差很大的話會嚴重影響效果。所以需要將不同量級的數值進行歸一化。將不同的數量級縮放到同一個靜態範圍中(例如:0~1,-1~1)。

常用的歸一化方式:

  1. z分數標準化
  2. min-max標準化
  3. 行歸一化
  4. 方差縮放

擴展閱讀:

數據縮放:標準化和歸一化

106-數據縮放scaling(標準化、歸一化)的那些事

探索性數據分析 | EDA

https://easyai.tech/wp-content/uploads/2022/08/d7e01-2021-03-07-edabanner.png

探索性數據分析是拿到原始數據後,通過技術手段幫助自己更好的理解數據、提取出「好特徵」、建立初步模型的過程。

本文將介紹數據的分類方式,以及不同類型的數據如何可視化的具體方法。

什麼是探索性數據分析?

說到籃球,大家都知道身高、臂展是運動員的關鍵特徵。

那手球呢?相信大部分人都說不出來。

遇到自己不熟悉的領域,需要快速對陌生領域有一定的理解。

有2種方法來幫助我們理解陌生領域:

  1. 諮詢業內人士。資深的業內人士會傳授一些他們的經驗。
  2. 去研究一下陌生領域的數據。我們可以把手球運動員的身體數據和成績數據拿過來做分析,看看最優秀的手球運動員都有哪些特點。在沒有任何行業經驗的情況下,通過對數據的洞察,也能有一些發現。

https://easyai.tech/wp-content/uploads/2022/08/73047-2021-03-07-ask-eda.png

上面的第二條路就是:探索性數據分析 | Exploratory Data Analysis | EDA

探索性數據分析就是利用各種技術手段(大部分都是利用數據可視化)探索數據內部結構和規律的一種數據分析方法和理念。

探索性數據分析的目的是儘可能是洞察數據集、發現數據的內部結構、提取重要的特徵、檢測異常值、檢驗基本假設、建立初步的模型。

探索性數據分析的3步方法

https://easyai.tech/wp-content/uploads/2022/08/ef6ca-2021-03-08-3steps.png

探索性數據分析的過程大致分為3步:

  1. 數據分類
  2. 數據可視化
  3. 洞察數據

第一步:數據分類

當我們拿到數據後,第一步就是把這些數據進行分類,然後用不同方法來處理不同類型的數據。

數據由粗到細可以按照下面的方式來分類:

https://easyai.tech/wp-content/uploads/2022/08/24d96-2021-03-07-xifen.png

結構化數據 VS 非結構化數據

結構化數據:能夠用表格來組織的數據都算是結構化的數據。

例如:Excel里的數據、MySQL里的數據…

非結構化數據:非表格形式組織的都是。

例如:文本、圖片、視頻…

 

定量數據 VS 定性數據

定量數據:數值類型,衡量某樣東西的數量。

例如:1985

定性數據:類別,描述某樣東西的性質。

例如:80後

 

數據的4個等級

定類等級(norminal level):是數據的第一個等級,其結構最弱。只需要按照名稱來分類。

例如:血型(A,B,AB,O)、姓名、顏色

定序等級(ordinal level):定序等級在定類等級的基礎上加了自然排序,這樣我們就可以對不同數據進行比較。

例如:餐廳的評星,公司的考核等級

定距等級(interval level):定距等級一定是數值類型的,並且這些數值不僅可以用來排序,還可以用來加減。

例如:華氏度、攝氏度(溫度有負數,不可以進行乘除運算)

定比等級(ratio level):在定距等級的基礎上,加入了絕對零點,不但可以做加減的運算,還可以做乘除的運算。

例如:金錢、重量

 

第二步:數據可視化

為了更好的洞察數據,我們可以將數據可視化,從而更好的觀察數據的特點。

常用的數據可視化有下面幾種:

https://easyai.tech/wp-content/uploads/2022/08/78ba6-2021-03-07-keshihua.png

上面的4個數據等級需要對應不同的可視化方法,下面整理了一個表格,可以幫助大家更好的選擇可視化的方案。

下面是一些基礎的可視化方案,在實際應用中,會有更複雜的,組合圖表可以使用。

數據等級 屬性 描述性統計 圖表
定類 離散、無序 頻率佔比、眾數 條形圖、餅圖
定序 有序類別、比較 頻率、眾數、中位數、百分位數 條形圖、餅圖
定距 數字差別有意義 頻率、眾數、中位數、均值、標準差 條形圖、餅圖、箱線圖
定比 連續 均值、標準差 條形圖、曲線圖、餅圖、箱線圖

第三步:洞察數據

數據的可視化可以幫助我們更好的洞察數據,我們可以更高效的發現哪些數據更重要,不同數據之間可能存在的關係,哪些數據會相互影響…

之所以叫探索性數據分析,就是沒什麼固定的套路,所以這一步沒什麼好講的。

總結

探索性數據分析就是利用各種技術手段(大部分都是利用數據可視化)探索數據內部結構和規律的一種數據分析方法和理念。

探索性數據分析的過程大致分為3步:

  1. 數據分類
  2. 數據可視化
  3. 洞察數據