2017-03-02

Betriebssystem eines Computers und Kurzfilm erfolgreich auf DNA gespeichert - Neue Codierung maximiert die Speicherkapazität von DNA-Moleküle


Von Jan Oliver Löfken

Spezieller Algorithmus schöpft Potenzial für enorme Datendichte aus – 215.000 Terabyte pro Gramm

New York (USA) - Moderne Festplatten speichern mehrere Tausend Gigabyte digitaler Daten. Und mit immer feineren Strukturen wird die Kapazität der magnetischen Speichermedien stetig erhöht. Aber weitaus größere Speicherkapazitäten sind prinzipiell mit DNA-Molekülen möglich. Die dazu nötige Codierung digitaler Daten mit den vier Nukleinbasen Adenin (A), Guanin (G), Cytosin (C) und Thymin (T) demonstrierten nun amerikanische Forscher mit einem etwa zwei Megabyte großen Datenpaket. In der Fachzeitschrift „Science“ berichten sie, dass nur ein Gramm DNA-Moleküle ausreichen, um die enorme Datenmenge von 215.000 Terabyte dauerhaft zu speichern.

„Wir glauben, mit unserem Versuch die höchste Speicherdichte für Daten überhaupt erreicht zu haben“, sagt Yaniv Erlich von der Columbia University in New York. Diese Aussage gründet auf einem Experiment, das Erlich gemeinsam mit seiner Kollegin Dina Zielinski vom New York Genome Center durchgeführt hat. Sie schnürten aus einem kurzen Video, einem schlanken Betriebssystem und weiteren Bild- und Textdateien ein komprimiertes Datenpaket von insgesamt 2.146.816 Byte. Dieses Paket zerlegten sie darauf in 67.088 Segmente zu je 32 Byte. Jedes Paket ergänzten sie um sechs Byte, die der Fehlerkorrektur dienten und die Position der aneinander gereihten Segmente codierten.

Jedes Segment bestand aus einer Folge von insgesamt 304 Nullen und Einsen. Diese ordneten Erlich und Zielinski mit ihrem Algorithmus einer Folge aus den vier Buchstaben A, G, C und T zu, entsprechend der vier verfügbaren Nukleinbasen. Nicht eindeutig zuzuordnende Buchstabenfolgen wurden dabei vermieden. Es entstand eine einfache Textdatei mit dem Bauplan für 72.000 DNA-Stränge aus jeweils 200 Nukleinbasen.

Diese Datei sandten sie an ein Unternehmen in Kalifornien, das mit mittlerweile etablierten biochemischen Verfahren synthetische DNA-Stränge entsprechend der Bauplanliste herstellen konnte. Nach zwei Wochen erhielten Erlich und Zielinski einen kleinen Flakon mit den synthetisierten DNA-Schnipseln. Mit ebenfalls bereits kommerziell verfügbaren Sequenzierautomaten lasen sie diese DNA-Stränge wieder aus und rekonstruierten mit dem ursprünglich verwendeten Algorithmus die Zahlenfolge aus Nullen und Einsen. Alle anfangs genutzten Dateien konnten so wiederhergestellt und fehlerfrei ausgelesen werden. Selbst über das PCR-Verfahren, die Polymerase-Kettenreaktion, duplizierte DNA-Stränge enthielten die exakt identischen Informationen. Zur Demonstration betrachteten die Forscher die Video-, Bild- und Textdateien und konnten auch das Betriebssystem erfolgreich auf einem Rechner installieren.

Dieser Grundlagenversuch belegt, dass DNA-Stränge für eine Speicherung digitaler Daten prinzipiell geeignet sind. Kann eine Nukleinbase theoretisch exakt zwei Byte speichern, erreichten die Forscher wegen der zu ergänzenden Byte für eine Fehlerkorrektur und Positionsangabe immerhin einen Wert von 1,6 Byte pro Nukleinbase. Daraus ergab sich rechnerisch eine Speicherdichte von 215 Petabyte pro Gramm. Der Aufwand dieser Technologie ist derzeit allerdings noch ausgesprochen groß. Allein die Herstellung der künstlichen DNA-Stränge und das Sequenzieren kosteten etwa 9.000 US-Dollar. Doch Erlich und Zielinski erwarten, dass diese Kosten in Zukunft noch drastisch sinken könnten.

Als Alternative zur täglich genutzten Festplatte taugt diese DNA-Datenspeicherung aber nicht. Vielmehr könnten in Zukunft solche Speicher aus Erbgut-Molekülen für möglichst langlebige Datenarchive genutzt werden. Von Vorteil wäre nicht nur die extrem hohe Datendichte, sondern auch die Stabilität von DNA-Molekülen. In kühler und trockener Umgebung erwarten die Forscher eine Haltbarkeit von Hunderttausenden von Jahren. Diese Annahme begründen sie mit einem Fund intakter DNA in Knochen von Frühmenschen, die vor etwa 430.000 Jahren im heutigen Spanien gelebt hatten.


Scientists create artificial mouse 'embryo' from stem cells for first time

Humanity may soon generate more data than hard drives or magnetic tape can handle, a problem that has scientists turning to nature's age-old solution for information-storage -- DNA.

In a new study in Science, a pair of researchers at Columbia University and the New York Genome Center (NYGC) show that an algorithm designed for streaming video on a cellphone can unlock DNA's nearly full storage potential by squeezing more information into its four base nucleotides. They demonstrate that this technology is also extremely reliable.

DNA is an ideal storage medium because it's ultra-compact and can last hundreds of thousands of years if kept in a cool, dry place, as demonstrated by the recent recovery of DNA from the bones of a 430,000-year-old human ancestor found in a cave in Spain.

"DNA won't degrade over time like cassette tapes and CDs, and it won't become obsolete -- if it does, we have bigger problems," said study coauthor Yaniv Erlich, a computer science professor at Columbia Engineering, a member of Columbia's Data Science Institute, and a core member of the NYGC.

Erlich and his colleague Dina Zielinski, an associate scientist at NYGC, chose six files to encode, or write, into DNA: a full computer operating system, an 1895 French film, "Arrival of a train at La Ciotat," a $50 Amazon gift card, a computer virus, a Pioneer plaque and a 1948 study by information theorist Claude Shannon.

They compressed the files into a master file, and then split the data into short strings of binary code made up of ones and zeros. Using an erasure-correcting algorithm called fountain codes, they randomly packaged the strings into so-called droplets, and mapped the ones and zeros in each droplet to the four nucleotide bases in DNA: A, G, C and T. The algorithm deleted letter combinations known to create errors, and added a barcode to each droplet to help reassemble the files later.

In all, they generated a digital list of 72,000 DNA strands, each 200 bases long, and sent it in a text file to a San Francisco DNA-synthesis startup, Twist Bioscience, that specializes in turning digital data into biological data. Two weeks later, they received a vial holding a speck of DNA molecules.

To retrieve their files, they used modern sequencing technology to read the DNA strands, followed by software to translate the genetic code back into binary. They recovered their files with zero errors, the study reports. (In this short demo, Erlich opens his archived operating system on a virtual machine and plays a game of Minesweeper to celebrate.)

They also demonstrated that a virtually unlimited number of copies of the files could be created with their coding technique by multiplying their DNA sample through polymerase chain reaction (PCR), and that those copies, and even copies of their copies, and so on, could be recovered error-free.

Finally, the researchers show that their coding strategy packs 215 petabytes of data on a single gram of DNA -- 100 times more than methods published by pioneering researchers George Church at Harvard, and Nick Goldman and Ewan Birney at the European Bioinformatics Institute. "We believe this is the highest-density data-storage device ever created," said Erlich.

The capacity of DNA data-storage is theoretically limited to two binary digits for each nucleotide, but the biological constraints of DNA itself and the need to include redundant information to reassemble and read the fragments later reduces its capacity to 1.8 binary digits per nucleotide base.

The team's insight was to apply fountain codes, a technique Erlich remembered from graduate school, to make the reading and writing process more efficient. With their DNA Fountain technique, Erlich and Zielinski pack an average of 1.6 bits into each base nucleotide. That's at least 60 percent more data than previously published methods, and close to the 1.8-bit limit.

Cost still remains a barrier. The researchers spent $7,000 to synthesize the DNA they used to archive their 2 megabytes of data, and another $2,000 to read it. Though the price of DNA sequencing has fallen exponentially, there may not be the same demand for DNA synthesis, says Sri Kosuri, a biochemistry professor at UCLA who was not involved in the study. "Investors may not be willing to risk tons of money to bring costs down," he said.

But the price of DNA synthesis can be vastly reduced if lower-quality molecules are produced, and coding strategies like DNA Fountain are used to fix molecular errors, says Erlich. "We can do more of the heavy lifting on the computer to take the burden off time-intensive molecular coding," he said.

Story Source:
Materials provided by Columbia University School of Engineering and Applied Science. Note: Content may be edited for style and length.

Journal Reference:
Yaniv Erlich, Dina Zielinski. DNA Fountain enables a robust and efficient storage architecture. Science, 2017; 355 (6328): 950 DOI: 10.1126/science.aaj2038

Kommentar veröffentlichen