Kas Ir Faila Entropija

Kas Ir Faila Entropija
Kas Ir Faila Entropija

Video: Kas Ir Faila Entropija

Video: Kas Ir Faila Entropija
Video: Информационная энтропия (видео 14) | Теория информации | Программирование 2024, Aprīlis
Anonim

Jebkurš datora fails sastāv no baitiem. Baits var iegūt vērtības no 0 līdz 255. Informācijas entropija ir statistikas parametrs, kas parāda dažu faila baitu rašanās varbūtību.

Kas ir faila entropija
Kas ir faila entropija

Jūs varat vizuāli novērtēt entropijas pakāpi, izmantojot histogrammu - to pašu baitu atkārtošanas varbūtības sadalījumu failā. Pēc faila entropijas mēs varam uzminēt, kāda veida fails atrodas mūsu priekšā, redzot tikai tā histogrammu.

Demonstrēšanai ņemsim trīs dažāda veida failus un salīdzināsim to histogrammas. Pirmais ir teksta fails (*. TXT). Tās histogramma parādīta attēlā:

гистограмма=
гистограмма=

Teksta failā ir tikai teksts. Katrs teksta raksturs tiek kodēts ar noteiktiem baitiem saskaņā ar kodēšanas tabulu. Lai gan ir daudz kodēšanas veidu, ir acīmredzams, ka burtciparu rakstzīmju ir ierobežots skaits, kas parasti ir mazāks par 255. Tāpēc pirmajā histogrammā ir aizņemti tikai daži apgabali, un daži baiti vispār nav.

Šis fails būs PDF formātā:

гистограмма=
гистограмма=

Šis fails satur visus iespējamos baitus, jo PDF tiek kodēts atšķirīgi no teksta failiem. Tajā tiek glabāta daudz pakalpojumu informācijas: formatējums, fonti, attēli utt. Bet tā histogramma parāda, ka daži baiti notiek ar aptuveni vienādu varbūtību, bet citi - daudz biežāk nekā citi. Līdz ar to histogrammas vairākkārtējie asie pārrāvumi, un kopumā tam ir diezgan "noplīsis" izskats, lai gan tas aizņem visu pieejamo platumu.

Un pēdējais fails ir saspiests 7Z formātā:

гистограмма=
гистограмма=

Šai histogrammai ir divas galvenās iezīmes: pirmkārt, visi baiti ir atrodami saspiestajā failā ar vairāk vai mazāk vienādu varbūtību (diezgan plakana augšējā mala), un, otrkārt, virs histogrammas praktiski nav brīvas vietas, kas norāda uz gandrīz pilnīgu neesamību šāda faila atlaišana. Tādējādi mēs varam secināt, ka arhivētāja algoritms kaut kādā īpašā veidā "sajauc" faila baitus, lai sasniegtu to maksimālo vienveidīgo sadalījumu.

Tādējādi entropija datorzinātnēs, tāpat kā fizikā, ir sistēmas traucējumu, šajā gadījumā failā esošo baitu sadalījuma mērs. Entropija ļauj jums spriest par faila saspiešanas pakāpi un - netieši - par tā veidu.

Ieteicams: