← Tilbage til DataLex.dk
CONCEPT

Big Data

Forstå hvad big data er, hvilke teknologier der driver det, og hvordan organisationer omsætter massive datamængder til forretningsværdi.

Hvad er big data?

Big data er et begreb for datamængder der er for store, for hurtige eller for komplekse til at blive håndteret med traditionelle databasesystemer. Det er ikke et spørgsmål om et fast antal gigabytes, men om at dataen overskrider kapaciteten af konventionelle værktøjer.

Hvor en traditionel PostgreSQL-database håndterer millioner af rækker fint, kræver big data-scenarier ofte distribuerede systemer der spreder data og beregning over hundredvis af servere. En enkelt maskine kan ikke rumme eller behandle dataen hurtigt nok.

Big data er drevet af den eksplosive vækst i digitale data. I 2025 genererer menneskeheden omkring 120 zettabytes data om året. IoT-enheder, sociale medier, e-handel og digitale tjenester producerer alle massive mængder data der indeholder potentiel forretningsværdi.

De 5 V'er i big data

1

Volume

Mængden af data. Big data handler om terabytes til petabytes – datamængder der ikke kan ligge i en enkelt database eller på en enkelt server.

Eksempel: En stor webshop genererer millioner af transaktioner dagligt. Sociale medier producerer petabytes af data per dag.

2

Velocity

Hastigheden data ankommer med. Real-time streams fra IoT-sensorer, sociale medier eller finansielle transaktioner kræver systemer der kan behandle data i det øjeblik det opstår.

Eksempel: En smart fabrik med 10.000 sensorer der sender data hvert sekund kræver real-time processing.

3

Variety

Forskellige datatyper og formater. Struktureret data (SQL-tabeller), semi-struktureret (JSON, XML) og ustruktureret data (billeder, tekst, video) skal håndteres samlet.

Eksempel: Et hospital kombinerer patientjournaler (struktureret), scanningsbilleder (ustruktureret) og IoT-data fra medicinsk udstyr.

4

Veracity

Datakvalitet og pålidelighed. Store datamængder indeholder fejl, dubletter og inkonsistenser. Big data-systemer skal kunne håndtere og rense data i stor skala.

Eksempel: Kundedata fra 5 forskellige systemer med forskellige formater for adresser, navne og telefonnumre.

5

Value

Den forretningsværdi data genererer. Rå data er værdiløst uden analyse og indsigt. Big data handler i sidste ende om at omsætte data til beslutninger.

Eksempel: Netflix analyserer seermønstre fra 230 millioner brugere for at anbefale indhold og beslutte nye produktioner.

Big data-arkitekturer

Store datamængder kræver specialiserede arkitekturer. De to mest udbredte er data lakes og data warehouses, og mange organisationer bruger begge dele i en kombineret arkitektur:

LAKE

Data Lake

Opbevarer rå data i alle formater. Data transformeres først når det skal bruges (schema-on-read). Billigt at lagre store mængder data.

+Al data i rå format
+Fleksibelt – data kan bruges på nye måder senere
-Kan blive et "data swamp" uden governance
DWH

Data Warehouse

Struktureret, renset data klar til analyse. Data transformeres ved indlæsning (schema-on-write). Optimeret til hurtige forespørgsler.

+Hurtige analytiske forespørgsler
+Konsistent, renset data
-Kræver forarbejdning via ETL

Data Lakehouse (moderne tilgang)

Kombinerer det bedste fra begge verdener: lagrer rå data som et data lake, men tilføjer struktur og query-performance som et data warehouse. Teknologier som Delta Lake og Apache Iceberg gør dette muligt direkte oven på cloud storage.

Teknologier og værktøjer

Big data-økosystemet er stort. Her er de vigtigste teknologier i de forskellige lag af en big data-arkitektur:

STORAGE Lagring

HDFS

Hadoop Distributed File System. Distribueret filsystem der spreder data over mange servere.

Cloud Storage

AWS S3, Google Cloud Storage, Azure Blob. Billig, skalerbar storage i skyen.

Apache Cassandra

Distribueret NoSQL-database designet til massive datamængder med høj tilgængelighed.

Apache HBase

Column-family database bygget oven på HDFS. Til random read/write i stor skala.

PROCESS Processing

Apache Spark

Unified analytics engine til batch og streaming. Op til 100x hurtigere end Hadoop MapReduce.

Apache Kafka

Distribueret event streaming platform. Håndterer millioner af events per sekund i real-time.

Apache Flink

Stream processing framework med lav latenstid. Ideelt til real-time analytics og event-drevet arkitektur.

Apache Airflow

Workflow orchestration til data pipelines. Definér, schedule og monitorer komplekse dataflows.

QUERY Analyse og forespørgsler

Apache Hive

SQL-interface til data i HDFS og cloud storage. Kør SQL på petabytes af data.

Presto / Trino

Distribueret SQL query engine. Forespørg data på tværs af flere kilder uden at flytte det.

ClickHouse

Column-oriented database til analytiske forespørgsler. Ekstremt hurtig til aggregeringer.

Elasticsearch

Distribueret søge- og analyseplatform. Fuld-tekst søgning i store datamængder.

Big data i praksis: Use cases

Retail

E-handel og personalisering

Analyse af kundeadfærd, købshistorik og browsing-mønstre til personlige anbefalinger. Amazon genererer 35% af sin omsætning fra anbefalinger drevet af big data.

Healthcare

Sundhedssektoren

Kombination af patientdata, genomdata og medicinsk forskning til personlig medicin og tidlig sygdomsdetektering. Kræver håndtering af struktureret og ustruktureret data under strenge compliance-krav.

Finans

Finansiel risikostyring

Real-time fraud detection ved at analysere transaktionsmønstre. Banker behandler millioner af transaktioner dagligt og skal identificere svindel inden for millisekunder.

Industri

IoT og smart manufacturing

Sensorer i produktionslinjer genererer massive datastrømme. Predictive maintenance analyserer mønstre for at forudsige udstyrsnedbrud før de sker.

Logistik

Transport og logistik

Optimering af ruter, forudsigelse af forsinkelser og kapacitetsplanlægning baseret på historisk data, vejrdata og real-time trafikdata.

Marketing

Marketing og annoncering

Analyse af kampagneperformance, kundesegmentering og attribution modelling på tværs af kanaler og millioner af datapunkter.

Databaser til big data

Traditionelle relationelle databaser kan håndtere store datamængder, men big data kræver ofte specialiserede databaser designet til distribution og skalering:

-Apache Cassandra: Ingen single point of failure. Lineær skalering ved tilføjelse af noder. Bruges af Apple, Netflix og Instagram.
-MongoDB: Built-in sharding og replikering. Fleksibel schema der tilpasser sig skiftende dataformater.
-Elasticsearch: Distribueret søgning og analytics. Kan indeksere og søge i terabytes af log- og eventdata.
-InfluxDB: Tidsseriedatabase optimeret til IoT og monitoring data. Håndterer millioner af datapunkter per sekund.
-Redis: In-memory database til caching og real-time analytics. Sub-millisekund svartider på millioner af operationer per sekund.

Udfordringer og overvejelser

Datakvalitet

Garbage in, garbage out. Jo mere data du har, jo vigtigere bliver kvalitetskontrol. Implementer data validation tidligt i pipelinen – det er langt billigere at rense data ved indlæsning end at rette fejl i downstream-systemer.

Privacy og compliance

GDPR og andre regulativer stiller krav til hvordan persondata behandles i big data-systemer. Data anonymisering, access control og audit logs er essentielle, men udfordrende at implementere i distribuerede systemer.

Omkostninger

Cloud-baserede big data-løsninger kan hurtigt blive dyre. Compute, storage og data transfer-omkostninger vokser med datamængden. Optimer tidligt: komprimer data, vælg de rigtige storage-tiers og undgå unødvendig data processing.

Kompetencer

Big data-teknologier kræver specialiseret viden. Spark, Kafka og distribuerede systemer generelt har en stejl indlæringskurve. Start med managed services (EMR, Databricks, Confluent) og byg in-house kompetencer gradvist.

Hvornår er det big data?

Der er ingen fast grænse, men overvej big data-teknologier når:

+Din data ikke længere kan ligge på en enkelt server
+Forespørgsler tager minutter eller timer i stedet for sekunder
+Du skal behandle data i real-time fra mange kilder samtidig
+Du kombinerer data i mange forskellige formater (struktureret + ustruktureret)
+Traditionel ETL ikke kan holde trit med hastigheden data ankommer med
+Du har brug for horisontal skalering i stedet for at købe en større server

Relaterede emner