Big Data

Begriffe Port Woling – BIG DATA, Polemik zum Technologietrend


Der Begriff Big Data

Zum Begriff

Wiki­pe­dia defi­niert zum Begriff: “Big Data bezeich­net den Ein­satz gro­ßer Daten­men­gen aus viel­fäl­ti­gen Quel­len mit einer hohen Ver­ar­bei­tungs­ge­schwin­dig­keit zur Erzeu­gung wirt­schaft­li­chen Nutzens”.

Ich möchte Big Data wie folgt skizieren.

BIG DATA ist ein IT-Tech­no­lo­gie­trend zur Daten­ver­ar­bei­tung gigan­ti­scher Daten­vo­lu­men unter­schied­lichs­ter Art …
… bestehend aus einem Bün­del von Maß­nah­men (Tools, Tech­no­lo­gien, IT-Archi­tek­tu­ren, Soft­ware, Hardware), …
… das nicht Stich­proben, son­dern mög­lichst jeg­li­che Daten nutzt, …
… um Pro­zesse, Dinge, Vor­gänge (aus Tech­nik, Wis­sen­schaft, Gesell­schaft, Öko­no­mie, etc.) effi­zi­en­ter, trans­pa­rent und vor­her­seh­bar zu machen.

Beispiele

Nach­fol­gende vier Anwen­dungs­fälle erwähne ich hier zur Ver­deut­li­chung von BIG-DATA.

Thema Wahl­for­schung – nicht ein Wahl­trend gilt es am Vor­abend einer Wahl durch Stich­pro­ben zu ermit­teln, son­dern das Wahl­er­geb­nis im voraus (!).

Thema Nano­tech­no­lo­gie – nicht die Qua­li­tät eines Halb­lei­ters gilt es mit­tels Strah­len­phy­sik und Soft­ware zu ermit­teln, son­dern eine gewisse Quan­ti­tät wird als Mus­ter im Vor­aus erkannt und ziel­ge­rich­tet ohne Rei­bungs­ver­lust mit einem resul­tie­ren­den Maß­nah­me­plan dar­auf zugesteuert.

Thema Medi­zin – Pri­mat hat nicht mehr eine Vor­sor­ge­un­ter­su­chung, in der auf­grund mög­li­cher Vor­be­din­gun­gen (z. B. Erb­krank­heit, Stress­fak­to­ren, Umwelt) unter­sucht wird, son­dern Pri­mat wird ziel­ge­rich­te­tes Suchen und Sicher­stel­len von Mus­tern schon vor der Zeu­gung, so dass ein neu zu gebä­ren­der Mensch alle gene­ti­schen Fak­to­ren eines idea­len Men­schen in einer kon­kret zu erwar­ten­den Umwelt (bio­lo­gisch, psy­cho­lo­gisch, phy­sio­lo­gisch, etc.) zu 100% erfüllt.

Thema Pro­duk­ti­ons­pro­zesse, u. a. Energy-Sek­tor – im Wert­schöp­fungs­pro­zess wird nicht mehr auf einen pro­gnos­ti­schen Bedarf reagiert, son­dern es wer­den bei immensen, viel­fäl­tigs­ten Vor­be­din­gun­gen kau­sal und quan­ti­ta­tiv Mus­ter ermit­telt und geschaf­fen, die nach­fol­gend eine abso­lute Kon­trolle am Markt sicher­stel­len (digi­tale Wert­schöp­fung in Echtzeit).

Nutzen

BIG DATA im eige­nen LAN und WAN – außer­halb exter­ner Clouds sinn­voll ein­ge­setzt – unter Beach­tung von Anfor­de­run­gen aus Infor­ma­ti­ons­si­cher­heit und Qua­li­täts­ma­nage­ment – kann für Orga­ni­sa­tio­nen (Unter­neh­men, Ein­rich­tun­gen, Netz­werke) einen Quan­ten­sprung bei Geschäfts­ent­schei­dun­gen, erheb­li­chen Tech­no­lo­gie­sprung und wirt­schaft­li­chen Nut­zen einleiten.

BIG DATA in der CLOUD – hier geht es m. E. um einen tie­fen Hin­ter­grund, der einen Nut­zen in Frage stellt. Es geht um das nicht-pro­pa­gierte Ziel …

… gigan­ti­sche Daten­men­gen ver­schie­dens­ter Quel­len in Clouds zu bündeln, …
… dort die­ses Daten durch Mus­ter­er­ken­nung zu kanalisieren, …
… diese Clouds wie­derum in den Hän­den immer Weni­ger zu konzentrieren …
… & ggf. nicht-legi­ti­mier­ten Benut­zern (z. B. NSA) zur Ver­fü­gung zu stellen.

Polemik zum Technologietrend Big Data

Qua­li­täts­ma­nage­ment und sein Stra­te­gie­ziel Feh­ler­frei­heit sind immer mehr funk­tio­nell geprägt durch ein Trend­set­zen in allen Unter­neh­mens­pro­zes­sen. Es geht darum, neue Wege zu Wett­be­werbs­vor­tei­len, Nut­zen und Kun­den­zu­frie­den­heit zu erschlie­ßen. IT und Wert­schöp­fung in Orga­ni­sa­tio­nen sind dabei zuneh­mend und untrenn­bar ver­knüpft. Große Daten­men­gen bedür­fen neuer Tech­no­lo­gie­trends – BIG DATA steht im Focus. BIG DATA – als Pro­duk­ti­ons­fak­tor. BIG DATA – die Ter­ri­to­rien der Zukunft?

Anlie­gen von BIG DATA ist es, Geschwin­dig­keit, Effi­zi­enz, Ana­ly­se­po­ten­tial, Nut­zen und Qua­li­tät sicher­zu­stel­len bei der Ver­ar­bei­tung unstruk­tu­rier­ter, gigan­ti­scher Daten­men­gen – mög­lichst in Echt­zeit. Es soll dabei unter­schied­lichste Daten­quel­len nut­zen. BIG DATA ist u. a. in der Lage, selb­stän­dig und ohne den Fak­tor Mensch bis dato ver­bor­gene Mus­ter zu fin­den. BIG DATA ist die Ener­gie der Zukunft zur tech­no­lo­gi­schen Ver­selb­stän­di­gung. Hier tun sich nicht nur recht­li­che, son­dern vor allem ethi­sche Pro­bleme auf.

Wie? Eine Umset­zung bedarf neuer gekop­pel­ter Hard- und Soft­ware-Lösun­gen. Aktu­elle und anste­hende neue Tech­no­lo­gien, u. a. Quan­ten-Com­pu­ting, neue Algo­rith­men und sta­tis­ti­sche Ver­fah­ren, Vir­tual Rea­lity (Vir­tu­elle Tech­ni­ken), NoSQL (nicht-rela­tio­na­ler Ansatz für große Daten­ban­ken), Hadoop, wer­den das zuneh­mend mög­lich machen.

Trend: Bis 2020 wird sich das digi­tale Uni­ver­sum gegen­über 2010 fünf­zig mal ver­grö­ßern (!) auf unfass­bare 40 Zett­abyte (ZB) = 40.000.000.000.000.000.000.000 Byte. Das wären auf jeden Erd­be­woh­ner 5 Tera­byte an Daten.

Wie ver­wal­tet man diese Daten­mas­sen? Belässt man es dezen­tral bei den Usern in loka­len Netz­wer­ken – die sich wie­derum frei ver­net­zen kön­nen? Oder – schaf­fen sich Wenige eine zen­trale Daten­mas­sen-Hoheit mit­tels tech­ni­scher Lösun­gen – ver­gleich­bar mit neuer Hege­mo­nie­be­stre­bung (Neu­auf­tei­lung der Welt)?

Aktu­ell ist BIG DATA das Zau­ber­wort. Wird BIG DATA nach Vir­tua­li­sie­rung und CLOUD wie­der nur eine über die Straße getrie­bene Sau, die Geld locker machen soll? Ande­rer­seits – es stür­zen auch auf uns ein rie­sige unstruk­tu­rierte Daten­men­gen aus unter­schied­lichs­ten Quel­len (Mess­ergeb­nisse, Sen­sor­da­ten, Ent­wick­lungs­da­ten, Daten aus Beschaf­fung, Dis­tri­bu­tion und Logis­tik, Geo- und Infra­struk­tur­da­ten, Con­trol­ling-Daten, Kun­den­be­zie­hungs­da­ten, sons­tige betrieb­li­che Daten und Doku­mente unter­schied­lichs­ter Art, Instal­la­tio­nen, Netz­werke, Social Media Res­sour­ces). Es geht nicht nur um das Hier und Heute – es geht um den stra­te­gi­schen Umgang mit Daten.

Sicher­heits­be­den­ken? Die haben staat­lich beru­fene Daten­schutz­be­auf­tragte hier­zu­lande nicht. BIG DATA könne ver­fas­sungs- und daten­schutz­kon­form gestal­tet wer­den mit­tels anony­mi­sier­ter Daten­sätze und nach­träg­li­cher Iden­ti­fi­zie­rung. Im Ange­sicht von → XKeyscore schwer zu glau­ben. Fakt ist – Com­pli­ance-Aspekte, gerade zum Schutz von Ver­brau­chern und Unter­neh­men, sind hoch gesteckt. Letzt­lich ist das aber nur Maku­la­tur, solange bun­des­deut­sche Hoheit gemäß → Grund­ge­setz Arti­kel 2 Abs. 4 nicht das Vor­recht die­ses Lan­des und sei­ner gewähl­ten Regie­rung ist.

Geschäfts­nut­zen – gibt es den nur für Groß­un­ter­neh­men wie Google oder diverse Ser­vice­pro­vi­der? Wird Geschäfts­nut­zen auch für kleine mit­tel­stän­di­sche Unter­neh­men sicht­bar? Sehen auch die User ihren Nut­zen oder lie­fern sie nur die Daten?

Prak­ti­sche The­men & Ziele von BIG DATA könn­ten sein: Kom­plexe Model­lie­rung und Simu­la­tion in For­schung und Ent­wick­lung, Hoch­ska­lier­bar­keit und Visua­li­sie­rung bis in mole­ku­lare Struk­tu­ren, Opti­mie­rung der Wert­schöp­fungs­kette, Ent­wick­lung kau­sa­ler Zusam­men­hänge, Anwen­dungs­sze­na­rien, Daten­mas­sen in Echt­zeit behan­deln, pro-akti­ves Agie­ren, Siche­rung Feh­ler­frei­heit, Feh­ler­de­tek­tion vor Ein­tre­ten, Geschäfts­pro­zess-Ana­lyse-, -Model­lie­rung, -Opti­mie­rung in allen unter­neh­me­ri­schen Berei­chen. Wir kön­nen diese Kette wei­ter fort­set­zen bis hin zum Soft­ware Engi­nee­ring als der „Pro­duk­ti­ons­tech­nik des 21.Jahrhunderts“ (z. B. im Anla­gen­bau und der Nanotechnologie).

Die Soft­ware-Ent­wick­lung für BIG DATA wird ganz beson­de­ren Her­aus­for­de­run­gen und Mög­lich­kei­ten gegen­über­ste­hen. Hier wird das Pri­mat nicht mehr bei intel­li­gen­ten Algo­rith­men bestehen, son­dern bei der hohen Menge an Daten. Daten wer­den vor­der­grün­dig nicht gelei­tet – sie wer­den erforscht. Tra­di­tio­nell gab der User vor, wel­che Daten zu kana­li­sie­ren sind. Die Ent­wick­ler erstell­ten die Lösung. Der User nutzte dies und machte bei Bedarf Neu­vor­ga­ben zu Rebuilds. Der erwei­terte Ansatz mit­tels BIG DATA besteht in der Ver­fol­gung einer explo­ra­ti­ven, for­schen­den Lösung. Defi­nierte Daten­quel­len sind nach Mus­tern zu ana­ly­sie­ren mit­tels zu ent­wi­ckeln­der diver­ser BIG DATA Platt­for­men. Der User nutzt die Ergeb­nisse und ent­schei­det bei Bedarf über ergän­zende neue Datenquellen.

Unab­hän­gig von Cloud? BIG DATA sollte dabei auch im loka­len Netz­werk oder WAN mach­bar sein – ohne Cloud, als Insel­lö­sung – respek­tive freier Wahl einer wei­te­ren Ver­net­zung. Dabei wach­sen die Daten­vo­lu­men expo­nen­ti­ell wei­ter. Mit die­sen Daten­mas­sen sichern sich auch Mit­tel­stands­un­ter­neh­men zeit­nahe Ana­ly­sen. Ein­fach geschluss­fol­gert: Große Daten = große Chan­cen, Ers­ter zu sein, recht­zei­tig Trends zu erken­nen, Pro­ble­men und Lösun­gen effi­zi­ent auf die Spur zu kommen.

Daten­chaos beherrscht uns zuneh­mend. Wo haben wir unsere Daten in einer typi­schen Orga­ni­sa­tion (Firma, Ein­rich­tung, etc.)? Orte, wie loka­les Pro­fil (Archiv), Vir­tu­el­ler Ser­ver, File-Ser­ver, rela­tio­nale Daten­bank-Sys­teme, ERP-Sys­tem, CRM-Sys­tem, CMS-Sys­tem, Rela­ti­onship-Sys­tem, Enter­prise Wizard, Pro­jektmanage­ment-Sys­tem, Intra­net, Extra­net, Inter­net, Social Net­works, Mobilkom­mu­ni­ka­tion, Hun­derte von Excel-Sheets, unend­li­che Prä­sen­ta­tio­nen, tau­sende Doku­mente bzw. Memos.

Vor­ge­hen? Wie beherr­schen wir das? Unsere vie­len Daten­quel­len las­sen uns erst­mal immer die Kern­frage klä­ren – wo finde ich das Gesuchte. Die zweite Frage dann – wie kana­li­siere ich das. Am Ende steht die Frage – habe ich was über­se­hen. Vom Zeit­auf­wand reden wir nicht mehr. Eine Lösung muss wohl her.

Man könnte das Thema abtun, u. a. auf­grund aktu­el­ler Ereig­nisse (Stich­punkt NSA-Daten­wahn). Die Cloud hät­ten wir nur für Andere geschaf­fen, die unsere Res­sour­cendurch­strei­fen. BIG DATA sei nun das Werk­zeug, unsere kom­plette Daten-Welt in diese Cloud zu stellen.

Beden­kem? Abge­se­hen von mög­li­chen recht­li­chen Fra­gen (Daten­er­he­bung) gäbe es auch ethi­sche Beden­ken bei kon­kre­ten Anwen­dun­gen (Gene­tik, u. a. Genom-Sequen­zie­rung als Eutha­na­sie-Ent­schei­dung im Vor­aus). Eine unge­ahnteInno­va­tionswelle könnte wei­ter­hin die Folge sein. Würde sie auch beherrsch­bar sein? Wäre die Zivi­li­sa­tion dazu bereit? Mas­sive kol­la­te­rale Fol­gen in Öko­no­mie, Wis­sen­schaft und Gesell­schaft wür­den sich auf­tun. Wäre dem so?

BIG DATA – das Ende der wis­sen­schaft­li­chen Theo­rie? Nein, auto­ma­ti­sierte Kor­re­la­tio­nen in einer Machine-to-Machine-Com­mu­ni­ca­tion kön­nen sich als wenig „durch­dacht“ erwei­sen. Letzt­lich kön­nen sie fal­si­fi­ziert und sogar gefähr­lich für Orga­ni­sa­tio­nen und Ein­zelne wer­den. Mög­li­che ver­selbst­stän­digte Pro­zess­a­b­lei­tun­gen ohne mensch­li­che Ein­fluss­nahme, selbst in gesell­schaft­li­chen & hoheit­li­chen Pro­zes­sen, wären nicht mehr in der Welt des Sci­ence Fic­tion ange­sie­delt, son­dern im Heute.

Vision

Stell Dir vor …

… die­ser Trend könnte nur im glo­ba­len Kon­text betrach­tet und gelöst werden.

Nicht eine Zen­tra­li­sie­rung von Big-Daten in Clouds und den Hän­den weni­ger Pro­vi­der kann das Ziel sein. Das Ziel wäre eine Dezen­tra­li­sie­rung von Daten­mas­sen (ein­zel­nen Big Data Struk­tu­ren) in einer frak­tal orga­ni­sier­ten Welt (Ebene).

Es ginge um frei­wil­li­ges Bereit­stel­len in Netz­wer­ken, neue Echt­zeit-Tech­no­lo­gien zur Nut­zen gro­ßer Daten­men­gen in einem Umfeld des Teilens.

Das geschähe ana­log des Inter­nets oder einer dezen­tra­len Ener­gie­ver­sor­gung (Energy Web), wo Jeder gefor­dert und geför­dert ist, in einem Umfeld von Geben und Neh­men. Dezen­tra­li­tät bedeu­tet Nut­zen für Alle und geringe Anfäl­lig­keit für das Ganze.

Dezen­tra­li­tät eines frak­ta­len BIG DATA bedeu­tet die Mög­lich­keit von Kon­trolle, stän­di­ger Erneue­rung und Par­ti­zi­pa­tion für alle Bestand­teile – wie in einem Orga­nis­mus, wie in einem Quan­ten­pro­zess der stän­di­gen Erneuerung.

*