Bildbasierte Biodiversitätsforschung mit BIIGLE
Zuwachs für die Research Data Commons: Als einer der ersten Dienste wurde BIIGLE an die in NFDI4Biodiversity entstehende Dateninfrastruktur angebunden. Die webbasierte Software erleichtert es Forschenden unter anderem, Lebewesen auf Bild- und Videoaufnahmen zu zählen und zu annotieren, die ferngesteuerte Roboter in der Tiefsee generieren.
Die Erforschung der Artenvielfalt basiert oft darauf, Lebewesen zu zählen. Meeresbiolog:innen zum Beispiel zählen manchmal alles, was sie auf Bildern oder Videos aus der Tiefsee sehen. Durch wiederholtes Zählen über viele Jahre hinweg können sie so abschätzen, ob die Artenvielfalt eines Lebensraums stabil ist oder abnimmt. Leider nimmt sie heutzutage immer häufiger ab – aber das ist eine andere Geschichte.
Dinge in Bildern oder Videos zu zählen klingt einfach, oder? Ist es aber nicht. Die interessantesten Lebensräume sind oft die am schwersten zu erreichenden. Die Tiefsee ist dunkel und kalt; der Wasserdruck ist immens. An Land kann eine Küstenlinie von spitzen Felsen übersät sein oder eine Ebene ist zu weitläufig, als dass man in sie vordringen könnte.
Zum Glück gibt es Technologien, die uns Forschenden den Rücken freihalten. Es gibt ferngesteuerte Roboter, die die Tiefsee viele Kilometer unter der Meeresoberfläche erkunden können. An Land ist es mit günstigen Drohnen, die hochauflösende Bilder und Videos aufnehmen können, noch einfacher. Aber es gibt noch ein weiteres Problem: Zu viele Daten. Es ist heute einfach zu leicht, Bilddaten zu erfassen und zu speichern, und das ist grundsätzlich gut, denn mehr Daten sind immer besser. Aber es ist schwierig, die vielen Dinge auf den so entstandenen Bildern zu zählen. Wie also lösen wir das Problem der zu vielen Daten, die mit moderner Technologie erzeugt werden? Die Antwort lautet: Mit noch mehr moderner Technologie!
Wie BIIGLE hilft
BIIGLE ist eine webbasierte Software, die Biolog:innen (und anderen Menschen) dabei hilft, Dinge in Bildern und Videos so schnell wie möglich zu zählen. Diese Aufgabe – nach Dingen zu suchen, sie zu markieren und zu beschreiben – wird als Bild- (und Video-)Annotation bezeichnet. Eine einzelne Annotation besteht aus zwei Teilen, einer Markierung, z. B. einem Punkt oder einem Kreis, der die Position des Objekts im Bild oder Video angibt, und einem Label, das das Objekt beschreibt.
In BIIGLE können Bilder und Videos hochgeladen, in Projekte und sogenannte Volumes unterteilt und so organisiert werden. Diese verhalten sich wie Ordner auf dem Computer. Man kann auch sogenannte Label Trees erstellen, d.h. Sammlungen von Labels, die für neue Annotationen zur Verfügung stehen. Da BIIGLE eine Webanwendung ist, können auch andere Personen zu eigenen Projekten eingeladen werden, sodass gemeinsam annotiert werden kann.
BIIGLE kann sehr große Bildsammlungen mit Zehntausenden Bildern verarbeiten. Es kann auch mit sehr großen Bildern mit Zehntausenden Pixeln an jeder Seite umgehen. Diese werden als Mosaike bezeichnet, weil sie aus vielen normalen Bildern zusammengesetzt sind. Während einige Meeresbiolog:innen auch Mosaike annotieren, betrachten andere Mosaike, die aus Luftbildern oder durch digitale Mikroskopie erstellt wurden.
BIIGLE ist zwar hochspezialisiert auf die Unterstützung der manuellen Bild- und Videoannotation, bietet aber auch mehrere Funktionen für eine automatisierte Unterstützung bei der Annotation. Ein Beispiel ist die sogenannte Machine learning Assisted Image Annotation-Methode (MAIA), die Benutzer:innen durch einen mehrstufigen Annotations-Workflow führt, der die automatische Objekterkennung durch ein künstliches neuronales Netzwerk beinhaltet. Seit Kurzem bietet BIIGLE auch das Tool "Magic SAM" an, das auf dem Segment Anything Model (SAM) basiert. Mit Magic SAM muss man nur auf ein Objekt zeigen, und das Tool erstellt automatisch eine detaillierte Annotation. Nach wie vor können viele Annotationsaufgaben nur manuell erledigt werden, und das wird sich in naher Zukunft wohl auch nicht ändern. Aber mit BIIGLE als spezialisiertem Werkzeug haben Biolog:innen jetzt die Möglichkeit, die riesigen Datenmengen zu bewältigen, die heute für die Erforschung der Artenvielfalt anfallen.
BIIGLE als Teil der in NFDI4Biodiversity entwickelten Research Data Commons
BIIGLE wird von der Arbeitsgruppe Biodata Mining der Universität Bielefeld unter der Leitung von Prof. Tim W. Nattkemper entwickelt. Über das Bielefelder Institut für Bioinformatik-Infrastruktur (BIBI), das eine Partnereinrichtung von NFDI4Biodiversity ist, wurde BIIGLE als einer der ersten Dienste für die Anbindung an die Research Data Commons (RDC) ausgewählt – dem in NFDI4Biodiversity entwickelten, ambitionierten Konzept für eine Forschungsdateninfrastruktur, die Nutzende dazu befähigen soll, eigene Daten einzureichen, die Daten anderer zu suchen und datenbasierte Projekte umzusetzen.
Um BIIGLE mit der gemeinsamen Infrastruktur zu verbinden, wird nun Life Science Login unterstützt, um sich bei BIIGLE zu registrieren oder einzuloggen. Darüber hinaus können Nutzende nun Bilder und Videos aus dem Aruna Object Storage annotieren, der ebenfalls als Teil der RDC entwickelt wird. Das BIIGLE-Team hat sich außerdem verpflichtet, regelmäßig Schulungen durchzuführen, von denen die erste bereits im April 2023 stattfand. (Informationen zu kommenden Schulungen sind in unserem Veranstaltungskalender zu finden, sobald sie in Planung sind.)
Ursprünglich wurde BIIGLE mit einem Schwerpunkt auf die Meeresforschung entwickelt. Inzwischen wird es aber auch in vielen anderen Bereichen eingesetzt. Da der Quellcode offen und frei verfügbar ist (unter github.com/biigle), unterhalten bereits mehrere Forschungsinstitute ihre eigenen Anwendungsinstanzen. Die größte öffentliche Instanz unter biigle.de wird von der AG Biodata Mining der Universität Bielefeld betreut und in der de.NBI-Cloud betrieben. Zum Zeitpunkt der Veröffentlichung dieses Blogbeitrags beherbergt diese Instanz über 2.400 Nutzende aus mehr als 40 Ländern, die 16 Millionen Bild- und Videoannotationen auf drei Millionen Bildern und Videos erstellt haben.
Über unseren Gastautor Martin Zurowietz
Martin ist Teil des Teams, das seit der Veröffentlichung der Version BIIGLE 2.0 im Jahr 2017 die Software entwickelt und betreut. Darüber hinaus verwaltet er die Anwendungsinstanz auf biigle.de. Während seiner Promotion hat er sich auch mit der Entwicklung von Methoden zur automatisierten Bildannotation beschäftigt. Dabei mussten immer wieder per Hand große Mengen an Trainingsdaten für die Algorithmen gesammelt werden, sodass er die Unterstützung durch eine Software wie BIIGLE sehr zu schätzen weiß. Seit 2022 arbeitet Martin mit in NFDI4Biodiversity und freut sich, BIIGLE als RDC-Dienst für neue Nutzer:innen bekannt zu machen. Auch in seiner Freizeit arbeitet er gerne an Open-Source-Projekten oder bewundert die Artenvielfalt in der Natur. Bei Fragen ist er unter martin@cebitec.uni-bielefeld.de zu erreichen.
Bitte geben Sie Ihre Mastodon-instanz an