De toekomst van dataopslag schuilt in microbolletjes met DNA
ArrayHet klinkt als science fiction: gegevens opslaan in DNA. Toch is het in de nabije toekomst mogelijk. Hoogleraar Tom de Greef verwacht dat het eerste DNA-datacentrum er namelijk al binnen vijf tot tien jaar staat. Gegevens worden daarbij niet in nullen en enen opgeslagen op een harde schijf, maar in de basenparen AT en CG waaruit DNA is opgebouwd. Zo’n datacentrum is dan een lab geworden, vele malen kleiner dan nu. De Greef ziet het al helemaal voor zich: in een deel van het gebouw worden nieuwe bestanden gecodeerd via DNA-synthese. In een ander deel liggen grote velden aan bolletjes: met in elk bolletje een bestand verpakt. Een robotarm haalt een bolletje eruit, leest de inhoud, en plaatst het weer terug.
We hebben het dan over synthetisch DNA. In het lab worden de basen in een bepaalde volgorde aan elkaar geplakt tot synthetisch aangemaakte DNA-strengen. De bestanden en foto’s die nu in datacentra zijn opgeslagen, worden dan in DNA opgeslagen. Vooralsnog is de techniek alleen geschikt voor archiefopslag. Het uitlezen van opgeslagen gegevens is namelijk erg duur, waardoor je de bestanden zo min mogelijk wilt raadplegen.
Grote en energieslurpende datacentra overbodig
Dataopslag in DNA biedt vele voordelen. Een bestand kan bijvoorbeeld veel compacter worden opgeslagen en ook de levensduur van de gegevens is vele malen langer. Maar het belangrijkste is misschien wel dat deze nieuwe techniek grote en energieslurpende datacentra overbodig maakt. En dat is hard nodig. “Want over drie jaar genereren we mondiaal zoveel data, dat we de helft ervan niet meer kunnen opslaan”, waarschuwt De Greef.
Samen met promovendus Bas Bögels, een groep universitaire partners en Microsoft ontwikkelde de Greef een nieuwe techniek om dataopslag met synthetisch DNA schaalbaar te maken. De resultaten zijn vandaag gepubliceerd in het journal Nature Nanotechnology. De Greef werkt bij de faculteit Biomedical Engineering en het Instituut voor Complexe Moleculaire Systemen (ICMS) aan de TU Eindhoven en is gasthoogleraar aan de Radboud Universiteit.
Schaalbaar
Het idee om DNA-strengen te gebruiken voor dataopslag kwam op in de jaren 80, maar was toen nog veel te duur en te moeilijk. Drie decennia later werd het technisch mogelijk, toen DNA-synthese voet aan de grond zette. George Church, een geneticus aan de Harvard Medical School, werkte het idee in 2011 verder uit. Inmiddels is de synthese en het uitlezen van de gegevens exponentieel goedkoper geworden, waardoor de technologie eindelijk geschikt wordt om op de markt te brengen.
De Greef keek met zijn groep de afgelopen jaren vooral naar het uitlezen van de opgeslagen gegevens. Vooralsnog is dat het grootste probleem van deze nieuwe techniek. De PCR-methode die daar nu voor wordt gebruikt, random access genaamd, is erg foutgevoelig. Je kunt daarom maar één bestand tegelijkertijd uitlezen en daarnaast gaat de datakwaliteit elke keer dat je een bestand uitleest nog teveel achteruit. Niet echt schaalbaar dus.
Dat zit zo: PCR (Polymerase Chain Reaction) maakt miljoenen kopieën van het stuk DNA dat je nodig hebt, door het toevoegen van een primer met de gewenste DNA-code. Coronatests in het lab zijn hier bijvoorbeeld op gebaseerd: zelfs een minuscule hoeveelheid coronavirusmateriaal uit je neus is detecteerbaar door het zo vaak te kopiëren. Maar als je meerdere bestanden tegelijkertijd wilt uitlezen, heb je meerdere primer-paren nodig die gelijktijdig hun werk doen. Dat zorgt voor vele fouten in het kopieerproces.
Elk bolletje bevat 1 bestand
Daar komen de bolletjes om de hoek kijken. De groep van De Greef ontwikkelde een microbolletje van eiwitten en een polymeer, waar ze vervolgens per bolletje één streng van basenparen – dus één bestand – aan vast kunnen hechten. De Greef: “Die bolletjes hebben thermische eigenschappen, die we in ons voordeel kunnen gebruiken.” Boven de 50 graden Celsius sluiten de bolletjes zichzelf af, waardoor je het PCR-proces in elk bolletje afzonderlijk kunt laten plaatsvinden. Weinig ruimte voor fouten dus. De Greef noemt het ‘thermoconfined PCR’. Tot nu toe lukt het in het lab om hiermee 25 bestanden tegelijkertijd uit te lezen zonder noemenswaardige fouten.
Microbolletjes met fluorescente labels. Foto: Tom de Greef
Verlaag je de temperatuur daarna weer, dan komen de kopieën los uit het bolletje en blijft het vast gehechte origineel zitten. Zo gaat de kwaliteit van je originele bestand niet achteruit. De Greef: “We zitten nu op een verlies van 0,3 procent na drie keer uitlezen, vergeleken met 35 procent bij de huidige methode.”
Doorzoekbaar met fluorescentie
En dat is niet het enige. De Greef maakte de bibliotheek aan gegevens ook nog makkelijker doorzoekbaar. Elk bestand krijgt namelijk een fluorescent label, elk bolletje een eigen kleur. Een apparaat kan de kleuren vervolgens herkennen en onderscheiden van elkaar. Dan zijn we weer terug bij de imaginaire robotarm aan het begin van dit verhaal, die in de toekomst het gezochte bestand netjes oppikt uit de poel aan bolletjes.
Het probleem van het uitlezen van de gegevens is daarmee opgelost. De Greef: “Het is nu nog wachten tot de kosten van DNA-synthese verder naar beneden gaan. Dan is de techniek klaar om toegepast te worden.” Hij hoopt dan ook dat Nederland binnenkort zijn eerste DNA datacentrum kan openen, een wereldprimeur.
Dit paper verscheen in het journal Nature Nanotechnology, onder de titel ‘DNA storage in thermoresponsive microcapsules for repeated random multiplexed data access’. DOI: 10.1038/s41565-023-01377-4. Industriële partners: Microsoft. Universitaire partners: University of Washington, Radboud University, University of Bristol, Shanghai Jiao Tong University. Samenwerkingsverbanden: Center for Living Technologies, Eindhoven-Wageningen-Utrecht Alliance.