首頁 >動態(tài) > > 內(nèi)容頁

焦點(diǎn)簡訊:讀數(shù)據(jù)壓縮入門筆記02_二進(jìn)制和熵

2023-05-30 07:22:42 來源：博客園

(資料圖片)

1.十進(jìn)制

1.1.現(xiàn)代數(shù)學(xué)建立在十進(jìn)制計數(shù)系統(tǒng)之上

2.二進(jìn)制

2.1.二進(jìn)制計數(shù)系統(tǒng)的工作原理與十進(jìn)制計數(shù)系統(tǒng)一樣，唯一的區(qū)別是前者的基數(shù)為2，而后者的基數(shù)為10

2.2.數(shù)據(jù)壓縮所做的就是盡可能減少表示特定數(shù)據(jù)集時所需的二進(jìn)制位數(shù)量

2.3.給定任意一個整數(shù)，我們都能將它轉(zhuǎn)換為二進(jìn)制形式

3.十六進(jìn)制

3.1.用字母A來表示10，用B表示11，以此類推，用F表示15

4.信息論

4.1.一個數(shù)值所包含的信息內(nèi)容等于，為了在一個集合中唯一地確定這個數(shù)值，需要做出的二選一（是/否）決定的次數(shù)

5.二分查找

5.1.首先將數(shù)組中的數(shù)據(jù)集分成兩半，然后判斷要找的數(shù)值10比處于中間位置的樞軸值是大還是小

5.2.如果一個數(shù)組包含偶數(shù)個元素，那么真正處于中間的元素是不存在的，可以根據(jù)喜好沖中間偏左或者偏右選擇一個

6.熵

6.1.物理學(xué)中的解釋

6.1.1.一個熱力學(xué)量，表示的是一個系統(tǒng)中無法轉(zhuǎn)換為機(jī)械功的熱能的量，通常被解釋為該系統(tǒng)的無序度或隨機(jī)度

6.2.信息論中的解釋

6.2.1.對在特定的消息或語言中信息傳輸速度的一種對數(shù)度量

6.3.表示一個數(shù)所需要的最少二進(jìn)制位數(shù)

6.4.一個數(shù)所需要的二進(jìn)制位數(shù)lb(x)=(log(x)/log(2))

6.4.1.二進(jìn)制位已經(jīng)是數(shù)據(jù)的最小單位，能使用的最小的二進(jìn)制位數(shù)就是1

6.4.2.必須對這個值向上取整，也就是使用向上取整函數(shù)，即ceil（或ceiling）函數(shù)

6.5.LOG2(x)=ceil(log(x+1)/log(2))

6.6.一個集合的熵

6.6.1.H(S)=-∑pi×lb(pi)

6.7.為了使表示某個數(shù)據(jù)集所需的二進(jìn)制位數(shù)最少，數(shù)據(jù)集中的每個符號平均所需的最小二進(jìn)制位數(shù)就是熵

6.8.以一種倒排序的方式建立在數(shù)據(jù)流中每個符號出現(xiàn)概率的估算之上的

6.8.1.一個符號出現(xiàn)得越頻繁，它對整個數(shù)據(jù)集包含的信息內(nèi)容的貢獻(xiàn)就會越少

6.8.2.很長的時間里沒有什么有用的信息，真正有用的信息偶爾才會出現(xiàn)

7.數(shù)據(jù)壓縮算法的藝術(shù)

7.1.真正試圖去突破熵的限定

7.2.將數(shù)據(jù)轉(zhuǎn)換成一種熵值更小的、新的表現(xiàn)形式

8.突破熵

8.1.按照香農(nóng)對熵的定義，他只考慮了符號出現(xiàn)的概率，完全沒有考慮符號之間的排序

8.1.1.對真實數(shù)據(jù)集來說，排序是一項基本的信息，符號之間的關(guān)系同樣如此

8.2.通過利用數(shù)據(jù)集的結(jié)構(gòu)信息將其轉(zhuǎn)換為一種新的表示形式，而這種新表示形式的熵比源信息的熵小

8.2.1.[Q,U,A,R,K] 和[K,R,U,Q,A] 這兩個集合有相同的熵

8.2.2.[Q,U,A,R,K] 這個集合表示的是英語中一個有意義的單詞

8.3.增量編碼（delta coding）

8.3.1.如果相鄰的值之間高度相關(guān)，那么用增量編碼的方法可以轉(zhuǎn)換數(shù)據(jù)，使其熵變得更小

8.3.2.順序很重要

8.4.符號分組

8.4.1.用單詞作為符號，得到的熵值會更小

8.4.2.如果數(shù)據(jù)集中存在連續(xù)值組合出現(xiàn)多次的情況，就可以利用這種情況來減小熵

8.4.3.通過最佳符號分組預(yù)處理數(shù)據(jù)，會得到一個較小的熵值

8.5.排列

8.5.1.一個排列就是原來的集合打亂順序后的一個版本

8.5.2.對數(shù)直接進(jìn)行編碼時，共需要24個二進(jìn)制位，而對下標(biāo)編碼時，只需要18個二進(jìn)制位，也就是節(jié)省了大約25% 的空間

9.標(biāo)準(zhǔn)的數(shù)字長度

9.1.用最少的二進(jìn)制位數(shù)來表示一個數(shù)，在解碼相應(yīng)的二進(jìn)制字符串時會產(chǎn)生混亂（因為我們并不知道該數(shù)對應(yīng)的LOG2長度），會與硬件的執(zhí)行性能相沖突，兩者不能兼顧

9.2.折中的方案

9.2.1.用固定長度的二進(jìn)制位數(shù)來表示大小不同的整數(shù)

9.2.2.最基本的存儲單元是一個字節(jié)，由8個二進(jìn)制位組成

9.3.信息論與實際實現(xiàn)層面的差別

9.3.1.絕大多數(shù)算法使用預(yù)先設(shè)定好的固定的二進(jìn)制位長度，而不是通過LOG2函數(shù)計算出的二進(jìn)制位長度

10.柯爾莫哥洛夫復(fù)雜性

10.1.Kolmogorov complexity

10.2.以數(shù)學(xué)家安德雷?柯爾莫哥洛夫（Andrey Kolmogorov）的名字命名，以紀(jì)念他在1963年發(fā)表了這方面的第一篇論文

10.3.度量的是確定一個對象所需要的計算資源

10.3.1.為了準(zhǔn)確地生成數(shù)據(jù)，所需要的生成程序的大小

10.4.任何字符串的柯爾莫哥洛夫復(fù)雜性頂多比字符串本身的長度大幾個字節(jié)(基本上，也就是一個程序輸出字符串的每個元素）

10.5.邏輯綜合（logic synthesis）或者程序綜合（program synthesis）進(jìn)行數(shù)據(jù)壓縮的時候，柯爾莫哥洛夫復(fù)雜性就開始真正起作用了

10.5.1.本質(zhì)上它取的是數(shù)據(jù)集以及反向生成產(chǎn)生字符串的程序的二進(jìn)制位流

標(biāo)簽：

資訊

臺風(fēng)走后西太副高再度深入我國這輪高溫何時是個頭？

2022-08-05 14:51:21

一瓶茅臺酒網(wǎng)絡(luò)拍賣叫出百億天價背后網(wǎng)絡(luò)拍賣漏洞不容小覷

2022-05-20 14:40:24

河南1682個公路水路災(zāi)后重建項目全開工已完工近四成

2022-04-01 18:19:29

“自動搶紅包”軟件涉不正當(dāng)競爭騰訊公司獲賠70萬元

2022-04-01 18:19:29

黑龍江雞西：半個月兩次發(fā)現(xiàn)疑似大型貓科動物腳印

2022-04-01 18:19:28

黑龍江七星河濕地：近萬只候鳥回歸報春

2022-04-01 18:19:28

吉林市：加快隔離房源騰退提高周轉(zhuǎn)使用率

2022-04-01 18:19:28

吉林市對重點(diǎn)街區(qū)、人員開展“抗原自測+核酸單人單管”入戶采樣

2022-04-01 18:19:28

【挑戰(zhàn)365天正能量速寫畫】第122期：爸爸犧牲5年后女兒繼承警號

2022-04-01 18:19:28

退役軍人成最“淡定”外賣騎手

2022-04-01 18:19:28

精彩閱讀

視頻丨甘肅的“甜”-環(huán)球速遞

2023-05-28 09:21:00

破小案｜快偵快破民生小案，金田派出所連破3起盜竊案

2023-05-28 08:21:40

穆勒：克洛普都說緊張球員肯定也緊張，我寄希望于多特因壓力失誤全球?qū)崟r

2023-05-28 06:48:24

qq聊天整人套路表情包（qq聊天整人套路大全）

2023-05-28 05:08:31

魔游紀(jì)2：異鄉(xiāng)奇遇_關(guān)于魔游紀(jì)2：異鄉(xiāng)奇遇簡述

2023-05-28 03:40:13

河南發(fā)布地質(zhì)災(zāi)害黃色預(yù)警

2023-05-28 02:13:14

F1摩納哥大獎賽排位賽：維斯塔潘絕殺奪桿位焦點(diǎn)滾動

2023-05-27 23:48:21

宇宙未來4火星人的出現(xiàn) 全球觀察

2023-05-27 22:41:54

環(huán)球視訊！怎么確定陰虱完全好了_陰虱會長在頭發(fā)上嗎

2023-05-27 21:25:08

明天多地將出現(xiàn)大到暴雨！南方高溫，局地超40℃

2023-05-27 20:25:44

拋光膏的主要成分_拋光膏_當(dāng)前信息

2023-05-27 19:30:53

前沿?zé)狳c(diǎn)：鍵盤豎線符號怎么打豎杠怎么用鍵盤打出來

2023-05-27 18:25:48

每日焦點(diǎn)！新沂市農(nóng)牧場_關(guān)于新沂市農(nóng)牧場簡介

2023-05-27 17:25:16

非賣品廣播劇第二期喜馬拉雅_非賣品廣播劇當(dāng)前頭條

2023-05-27 16:08:47

世界看熱訊：棗莊推廣豆玉復(fù)合種植技術(shù)

2023-05-27 15:24:31

在线播放的A站本免费少妇_亚洲成在人线在线播放无码_伊人大香人妻在线播放_亚洲精华国产精华液_亚洲AV综合色区无码三区诱

焦點(diǎn)簡訊:讀數(shù)據(jù)壓縮入門筆記02_二進(jìn)制和熵

1.十進(jìn)制

1.1.現(xiàn)代數(shù)學(xué)建立在十進(jìn)制計數(shù)系統(tǒng)之上

2.二進(jìn)制

2.1.二進(jìn)制計數(shù)系統(tǒng)的工作原理與十進(jìn)制計數(shù)系統(tǒng)一樣，唯一的區(qū)別是前者的基數(shù)為2，而后者的基數(shù)為10

2.2.數(shù)據(jù)壓縮所做的就是盡可能減少表示特定數(shù)據(jù)集時所需的二進(jìn)制位數(shù)量

2.3.給定任意一個整數(shù)，我們都能將它轉(zhuǎn)換為二進(jìn)制形式

3.十六進(jìn)制

3.1.用字母A來表示10，用B表示11，以此類推，用F表示15

4.信息論

4.1.一個數(shù)值所包含的信息內(nèi)容等于，為了在一個集合中唯一地確定這個數(shù)值，需要做出的二選一（是/否）決定的次數(shù)

5.二分查找

5.1.首先將數(shù)組中的數(shù)據(jù)集分成兩半，然后判斷要找的數(shù)值10比處于中間位置的樞軸值是大還是小

5.2.如果一個數(shù)組包含偶數(shù)個元素，那么真正處于中間的元素是不存在的，可以根據(jù)喜好沖中間偏左或者偏右選擇一個

6.熵

6.1.物理學(xué)中的解釋

6.1.1.一個熱力學(xué)量，表示的是一個系統(tǒng)中無法轉(zhuǎn)換為機(jī)械功的熱能的量，通常被解釋為該系統(tǒng)的無序度或隨機(jī)度

6.2.信息論中的解釋

6.2.1.對在特定的消息或語言中信息傳輸速度的一種對數(shù)度量

6.3.表示一個數(shù)所需要的最少二進(jìn)制位數(shù)

6.4.一個數(shù)所需要的二進(jìn)制位數(shù)lb(x)=(log(x)/log(2))

6.4.1.二進(jìn)制位已經(jīng)是數(shù)據(jù)的最小單位，能使用的最小的二進(jìn)制位數(shù)就是1

6.4.2.必須對這個值向上取整，也就是使用向上取整函數(shù)，即ceil（或ceiling）函數(shù)

6.5.LOG2(x)=ceil(log(x+1)/log(2))

6.6.一個集合的熵

6.6.1.H(S)=-∑pi×lb(pi)

6.7.為了使表示某個數(shù)據(jù)集所需的二進(jìn)制位數(shù)最少，數(shù)據(jù)集中的每個符號平均所需的最小二進(jìn)制位數(shù)就是熵

6.8.以一種倒排序的方式建立在數(shù)據(jù)流中每個符號出現(xiàn)概率的估算之上的

6.8.1.一個符號出現(xiàn)得越頻繁，它對整個數(shù)據(jù)集包含的信息內(nèi)容的貢獻(xiàn)就會越少

6.8.2.很長的時間里沒有什么有用的信息，真正有用的信息偶爾才會出現(xiàn)

7.數(shù)據(jù)壓縮算法的藝術(shù)

7.1.真正試圖去突破熵的限定

7.2.將數(shù)據(jù)轉(zhuǎn)換成一種熵值更小的、新的表現(xiàn)形式

8.突破熵

8.1.按照香農(nóng)對熵的定義，他只考慮了符號出現(xiàn)的概率，完全沒有考慮符號之間的排序

8.1.1.對真實數(shù)據(jù)集來說，排序是一項基本的信息，符號之間的關(guān)系同樣如此

8.2.通過利用數(shù)據(jù)集的結(jié)構(gòu)信息將其轉(zhuǎn)換為一種新的表示形式，而這種新表示形式的熵比源信息的熵小

8.2.1.[Q,U,A,R,K] 和[K,R,U,Q,A] 這兩個集合有相同的熵

8.2.2.[Q,U,A,R,K] 這個集合表示的是英語中一個有意義的單詞

8.3.增量編碼（delta coding）

8.3.1.如果相鄰的值之間高度相關(guān)，那么用增量編碼的方法可以轉(zhuǎn)換數(shù)據(jù)，使其熵變得更小

8.3.2.順序很重要

8.4.符號分組

8.4.1.用單詞作為符號，得到的熵值會更小

8.4.2.如果數(shù)據(jù)集中存在連續(xù)值組合出現(xiàn)多次的情況，就可以利用這種情況來減小熵

8.4.3.通過最佳符號分組預(yù)處理數(shù)據(jù)，會得到一個較小的熵值

8.5.排列

8.5.1.一個排列就是原來的集合打亂順序后的一個版本

8.5.2.對數(shù)直接進(jìn)行編碼時，共需要24個二進(jìn)制位，而對下標(biāo)編碼時，只需要18個二進(jìn)制位，也就是節(jié)省了大約25% 的空間

9.標(biāo)準(zhǔn)的數(shù)字長度

9.1.用最少的二進(jìn)制位數(shù)來表示一個數(shù)，在解碼相應(yīng)的二進(jìn)制字符串時會產(chǎn)生混亂（因為我們并不知道該數(shù)對應(yīng)的LOG2長度），會與硬件的執(zhí)行性能相沖突，兩者不能兼顧

9.2.折中的方案

9.2.1.用固定長度的二進(jìn)制位數(shù)來表示大小不同的整數(shù)

9.2.2.最基本的存儲單元是一個字節(jié)，由8個二進(jìn)制位組成

9.3.信息論與實際實現(xiàn)層面的差別

9.3.1.絕大多數(shù)算法使用預(yù)先設(shè)定好的固定的二進(jìn)制位長度，而不是通過LOG2函數(shù)計算出的二進(jìn)制位長度

10.柯爾莫哥洛夫復(fù)雜性

10.1.Kolmogorov complexity

10.2.以數(shù)學(xué)家安德雷?柯爾莫哥洛夫（Andrey Kolmogorov）的名字命名，以紀(jì)念他在1963年發(fā)表了這方面的第一篇論文

10.3.度量的是確定一個對象所需要的計算資源

10.3.1.為了準(zhǔn)確地生成數(shù)據(jù)，所需要的生成程序的大小

10.4.任何字符串的柯爾莫哥洛夫復(fù)雜性頂多比字符串本身的長度大幾個字節(jié)(基本上，也就是一個程序輸出字符串的每個元素）

10.5.邏輯綜合（logic synthesis）或者程序綜合（program synthesis）進(jìn)行數(shù)據(jù)壓縮的時候，柯爾莫哥洛夫復(fù)雜性就開始真正起作用了

10.5.1.本質(zhì)上它取的是數(shù)據(jù)集以及反向生成產(chǎn)生字符串的程序的二進(jìn)制位流

臺風(fēng)走后西太副高再度深入我國 這輪高溫何時是個頭？

一瓶茅臺酒網(wǎng)絡(luò)拍賣叫出百億天價 背后網(wǎng)絡(luò)拍賣漏洞不容小覷

河南1682個公路水路災(zāi)后重建項目全開工 已完工近四成

“自動搶紅包”軟件涉不正當(dāng)競爭 騰訊公司獲賠70萬元

黑龍江雞西：半個月兩次發(fā)現(xiàn)疑似大型貓科動物腳印

黑龍江七星河濕地：近萬只候鳥回歸報春

吉林市：加快隔離房源騰退 提高周轉(zhuǎn)使用率

吉林市對重點(diǎn)街區(qū)、人員開展“抗原自測+核酸單人單管”入戶采樣

【挑戰(zhàn)365天正能量速寫畫】第122期：爸爸犧牲5年后女兒繼承警號

退役軍人成最“淡定”外賣騎手

視頻丨甘肅的“甜”-環(huán)球速遞

破小案｜快偵快破民生小案，金田派出所連破3起盜竊案

穆勒：克洛普都說緊張球員肯定也緊張，我寄希望于多特因壓力失誤 全球?qū)崟r

qq聊天整人套路表情包（qq聊天整人套路大全）

魔游紀(jì)2：異鄉(xiāng)奇遇_關(guān)于魔游紀(jì)2：異鄉(xiāng)奇遇簡述

2.3.給定任意一個整數(shù)，我們都能將它轉(zhuǎn)換為二進(jìn)制形式

3.1.用字母A來表示10，用B表示11，以此類推，用F表示15

4.1.一個數(shù)值所包含的信息內(nèi)容等于，為了在一個集合中唯一地確定這個數(shù)值，需要做出的二選一（是/否）決定的次數(shù)

5.1.首先將數(shù)組中的數(shù)據(jù)集分成兩半，然后判斷要找的數(shù)值10比處于中間位置的樞軸值是大還是小

5.2.如果一個數(shù)組包含偶數(shù)個元素，那么真正處于中間的元素是不存在的，可以根據(jù)喜好沖中間偏左或者偏右選擇一個

6.1.1.一個熱力學(xué)量，表示的是一個系統(tǒng)中無法轉(zhuǎn)換為機(jī)械功的熱能的量，通常被解釋為該系統(tǒng)的無序度或隨機(jī)度

6.4.1.二進(jìn)制位已經(jīng)是數(shù)據(jù)的最小單位，能使用的最小的二進(jìn)制位數(shù)就是1

6.4.2.必須對這個值向上取整，也就是使用向上取整函數(shù)，即ceil（或ceiling）函數(shù)

6.7.為了使表示某個數(shù)據(jù)集所需的二進(jìn)制位數(shù)最少，數(shù)據(jù)集中的每個符號平均所需的最小二進(jìn)制位數(shù)就是熵

6.8.1.一個符號出現(xiàn)得越頻繁，它對整個數(shù)據(jù)集包含的信息內(nèi)容的貢獻(xiàn)就會越少

6.8.2.很長的時間里沒有什么有用的信息，真正有用的信息偶爾才會出現(xiàn)

7.2.將數(shù)據(jù)轉(zhuǎn)換成一種熵值更小的、新的表現(xiàn)形式

8.1.按照香農(nóng)對熵的定義，他只考慮了符號出現(xiàn)的概率，完全沒有考慮符號之間的排序

8.1.1.對真實數(shù)據(jù)集來說，排序是一項基本的信息，符號之間的關(guān)系同樣如此

8.3.1.如果相鄰的值之間高度相關(guān)，那么用增量編碼的方法可以轉(zhuǎn)換數(shù)據(jù)，使其熵變得更小

8.4.1.用單詞作為符號，得到的熵值會更小

8.4.3.通過最佳符號分組預(yù)處理數(shù)據(jù)，會得到一個較小的熵值

8.5.2.對數(shù)直接進(jìn)行編碼時，共需要24個二進(jìn)制位，而對下標(biāo)編碼時，只需要18個二進(jìn)制位，也就是節(jié)省了大約25% 的空間

9.1.用最少的二進(jìn)制位數(shù)來表示一個數(shù)，在解碼相應(yīng)的二進(jìn)制字符串時會產(chǎn)生混亂（因為我們并不知道該數(shù)對應(yīng)的LOG2長度），會與硬件的執(zhí)行性能相沖突，兩者不能兼顧

9.2.2.最基本的存儲單元是一個字節(jié)，由8個二進(jìn)制位組成

9.3.1.絕大多數(shù)算法使用預(yù)先設(shè)定好的固定的二進(jìn)制位長度，而不是通過LOG2函數(shù)計算出的二進(jìn)制位長度

10.2.以數(shù)學(xué)家安德雷?柯爾莫哥洛夫（Andrey Kolmogorov）的名字命名，以紀(jì)念他在1963年發(fā)表了這方面的第一篇論文

10.3.1.為了準(zhǔn)確地生成數(shù)據(jù)，所需要的生成程序的大小

10.4.任何字符串的柯爾莫哥洛夫復(fù)雜性頂多比字符串本身的長度大幾個字節(jié)(基本上，也就是一個程序輸出字符串的每個元素）

10.5.邏輯綜合（logic synthesis）或者程序綜合（program synthesis）進(jìn)行數(shù)據(jù)壓縮的時候，柯爾莫哥洛夫復(fù)雜性就開始真正起作用了

臺風(fēng)走后西太副高再度深入我國這輪高溫何時是個頭？

一瓶茅臺酒網(wǎng)絡(luò)拍賣叫出百億天價背后網(wǎng)絡(luò)拍賣漏洞不容小覷

河南1682個公路水路災(zāi)后重建項目全開工已完工近四成

“自動搶紅包”軟件涉不正當(dāng)競爭騰訊公司獲賠70萬元

吉林市：加快隔離房源騰退提高周轉(zhuǎn)使用率

破小案｜快偵快破民生小案，金田派出所連破3起盜竊案

穆勒：克洛普都說緊張球員肯定也緊張，我寄希望于多特因壓力失誤全球?qū)崟r

F1摩納哥大獎賽排位賽：維斯塔潘絕殺奪桿位焦點(diǎn)滾動

環(huán)球視訊！怎么確定陰虱完全好了_陰虱會長在頭發(fā)上嗎

明天多地將出現(xiàn)大到暴雨！南方高溫，局地超40℃

前沿?zé)狳c(diǎn)：鍵盤豎線符號怎么打豎杠怎么用鍵盤打出來

每日焦點(diǎn)！新沂市農(nóng)牧場_關(guān)于新沂市農(nóng)牧場簡介

非賣品廣播劇第二期喜馬拉雅_非賣品廣播劇當(dāng)前頭條