Citat:
djoka_l: Vidiš, to što sam linkovao je samo o ilustracija koliko ne shvataš entropiju.
Vidim, ali ti nisi rekao da ja "o" ne shvatam entropiju, nego ovo:
Citat:
djoka_l:
Ma jasno, samo sam hteo da pokažem Majoru kako problem "slučajnosti" nije baš tako jednostavan. On je na jednoj drugoj temi pretpostavio da je dovoljno da proveri koliko ima jedinica i nula u nekom fajlu, pa ako je blizu 50-50, to mu je signal da je fajl sa slučajno generisanim brojevima.
A ja to nisam pretpostavio, i to mi nije bio signal za to što kažeš, a zvuči jezivo glupo kad bi bilo ko tako nešto pretpostavljao, pa ako tvrdiš da sam ja to pretpostavljao zvuči kao da tvrdiš da sam tupav, a to nije lepo.
A što se tiče shvatanja entropije, kad već drugi citiraju von Njumena mogu i ja, pardon, Njumena i Šenona:
"I thought of calling it "information", but the word was overly used, so I decided to call it "uncertainty". [...] Von Neumann told me, "You should call it entropy, for two reasons. In the first place your uncertainty function has been used in statistical mechanics under that name, so it already has a name. In the second place, and more important,
nobody knows what entropy really is, so in a debate you will always have the advantage."
Citat:
Onako kako je Šenon razmišljao, nije brojanje bitova nego je posmatrao sistem koji se sastoji od predajnika, kanala i prijemnika.
Upravo, uglavnom o prenosu signala, nešto malo je pričao i o kompresiji.
Citat:
Ono što ga je interesovalo je, koliko se zaista podataka prenosi sa kraja na kraj i kolika je vrednost PORUKE koja je preneta (ne dela poruke nego poruke u celini).
Pa sad, ja bih rekao da je svašta nešto njega zanimalo, pogotovo što je u kasnijem periodu života uglavnom pravio igračke za decu. Da ga nisu zanimali i delovi poruke ne bi pisao o Joint entropy.
Citat:
Primer sa wikipedije na engleskom. Zamisli da kroz kanal treba da preneš vest o tome koja je dobitnička srećka na nekoj nagradnoj igri.
Štampano je milion srećki, brojevi 000000 do 999999. Ako želiš da preneseš vest da je izvučen broj 123456 treba ti, otprilike, 20 bitova informacije.
Treba od 1 do 19 bitova informacije, jer je 2^1 + 2^2 + 2^3 + .. + 2^19 = 2^20 - 2 = 1048574 pa uvođenjem različite dužine poruka bez problema saopštavamo koja je dobitna srećka sa manje od 20 bita.
Citat:
Možemo da kažemo da je entropija takvog događaja 20 bitova.
Ne možemo, to bi možda mogli da kažemo ako bi neko i predajnu i prijemnu stranu ograničio na poruke uvek iste dužine, u tom slučaju događaj bi možda mogao da ima entropiju definisanu u Šanon stilu 20 bitova, a poruka najmanje 20 bitova informacija.
Citat:
Sa druge strane, vest možeš da preneseš i tako što kažeš: nije izvučen broj 000000, broj 0000001 itd. Da bi preneo takvu vest, treba ti 999999*20 bitova, ali je i dalje vrednost takve vesti 20 bitova. Jedino što je bitno je koji je broj izvučen, a ne koji nije.
A možeš i: nije izvučen broj 000000, broj 1007040, broj 12586473, broj .. i tako bi ti trebalo 999999*20 bitova + beskonačno*x(/=20) bitova i da nikad ne preneseš poruku, pa bi vrednost takvih vesti bila 0. Ti, Šenon i wikipedija vazda zaboravite da kažete šta ste naučili prijemnu i predajnu stranu, i čime ste ih ograničili, pre nego što se odlučite za loše kodovanje da bi ilustrovali .. ne koliko je neko drugo dobro .. nego kolika je entropija poruke. U ovom slučaju rekli ste i prijemnoj i predajnoj strani da mogu da barataju samo izjavama izvučen je/nije izvučen i strogo 20 bita za broj srećke.
Ali bar imaš lep primer kompresovanja podataka koji imaju ceo spektar vrednosti od 000000 do 999999, poruka da nije izvučen nijedan od tih preostalih brojeva, veoma je lepo kompresovana vešću da je izvučena srećka 123456.
Citat:
Drugi primer: prenos preko serijske linije je nekada bio uobičajeno realizovan kao prenos sedam bitova + paritet (poruku od 8 bitova je uvek morala da ima paran ili neparan broj jedinica, pa bi se na prijemnoj strani moglo PRETPOSTAVITI da je poruka ispravna ako je paritet ispravan).
Dakle, poruka od 8 bitova ima entropiju od 7 bitova.
Ne nego 7 bita informacija, korisnog sadržaja, i jedan kontrolni bit, a da najčešće nemaju ni 7 bita entropije, ni korisnog sadržaja dokazali su već Lampel i Ziv.
Citat:
Upravo na osnovu ovih Šenonovih radova razvijeni su algoritmi za kompresiju. Iz bilo kog razloga, poruka (fajl) koji ima milion bitova u nekim slučajevima ima redundantnost. Može se predstaviti sa manje od milion bitova. Zadatak kompresionog algoritma je da otkrije redundancu i da efikasnije kodira poruku (fajl).
Nisu na osnovu Šenonovih radova, nego Lampel i Ziv uključili mozak i rekli: Ovde ima lufta koliko hoćeš. Zadatak kompresionog algoritma nije da otkrije redundancu, već da kompresuje poruku (fajl), a kako će to raditi zavisi od izvedbe, ti na primer kompresuješ na osnovu prvih 11 sekvenci bez otkrivanja bilo kakve redundance, za efikasnije kodiranje se slažem.
Citat:
Sa druge strane, fajl (poruka) koji ima slučajan sadržaj, sa vrlo velikom verovatnoćom ima milion bitova entropiju. Jeste, može da se desi da fajl budu sve nule, ali verovatnoća takvog događaja je 2-1000000
Recimo, da 2900000 od svih mogućih fajlova NE MOŽEŠ da komprimuješ, a ostale možeš. Ispada, da je verovatnoća da možeš da komprimuješ BILO KOJI fajl od milion bitova 2-100000.
Pa ako za kompresiju proglasiš nešto što fajl može da svuče na 10% od originalne vrednosti verovatno ne možeš ni tih 100000. Nego zašto navodiš taj primer sa fajlom koji ima sve nule? Šta kažeš za fajl koji ima 50% nula, dosta je to redundanse? :)
Citat:
Sada, gomila ljudi kupuje srećke, sa idejom da će baš oni da ubodu glavnu premiju. Pa, neko hoće ali ogromna većina neće.
Skoro pa totalni off topic al ajd, ako te čini srećnim, ili ako tako hoćeš da ilustruješ malu "verovatnoću da komprimuješ bilo koji fajl" :) Ču verovatnoću da komprimujem, il ću da komprimujem il neću.
Nemoj da pricas?