Skip to content

Apple nimmt an großer Konferenz zum Thema Maschinenlernen teil

Apple hat sich in den vergangenen Monaten auch verstärkt im Bereich des Maschinenlernens engagiert. Insofern verwundert es nur bedingt, dass das Unternehmen auch in diesem Jahr wieder an der 33rd Conference and Workshop on Neural Information Processing Systems (NeurIPS) im kanadischen Vancouver teilnehmen wird. Die Konferenz findet in der Zeit vom 08. Dezember bis zum 14. Dezember statt. In einem neuen Beitrag in seinem öffentlich zugänglichen Machine Learning Journal gibt Apple einen kleinen Einblick in die eigenen Ambitionen im Bereich Maschinenlernen, die unter anderem "Machine Hearing", Spracherkennung, Verarbeitung natürlicher Sprache oder Text-zu-Sprache Übersetzungen umfassen. Zu diesen Themenbereichen werden die Apple-Ingenieure vor Ort auch verschiedene Vorträge halten. Eine entsprechende Liste ist ebenfalls dem oben verlinkten Eintrag im Machine Learning Journal zu entnehmen.

Maschinenlernen hat inzwischen Einzug in die verschiedensten Apple-Produkte, vor allem natürlich in Siri, aber auch in Algorithmen für die Kamera und weitere Bereiche gehalten. Man darf davon ausgehen, dass dies künftig noch deutlich weiter ausgebaut wird.

Apple hat offenbar das Bilderkennungs-Startup Fashwell übernommen

Als ich vor einigen Jahren auf einer Multimedia-Konferenz in den USA war, stellte dort ein junger Mann von einer US-amerikanischen Universität eine Technologie vor, mit der sich über die Smartphone-Kamera die Kleidung anderer Leute abfotografieren lässt und einem die zugehörige App anschließend anzeigte, um was für ein Kleidungsstück von welchem Hersteller es sich handelt. Selbstverständlich gab es im Anschluss dann auch direkt die Möglichkeit, das entsprechende Produkt bei Gefallen zu kaufen. Schon in der anschließenden Fragerunde zeigte Google Interesse an dem zugrundeliegenden Algorithmus.

Diese Anekdote fiel mir sofort ein, als am gestrigen späten Abend berichtet wurde, dass Apple angeblich das Bilderkennungs-Startup Fashwell übernommen hat. Fashwells Dienst macht nämlich exakt das, was ich eingangs beschrieben habe. Inzwischen geben Fashwell CEO Matthias Dantone, CSO Lukas Bossard und CTO Michael Emmersberger auf ihren LinkedIn-Accounts allesamt Apple als Arbeitgeber an, was auf die Übernahme hindeutet. Alle drei arbeiten bei Apple passenderweise im Bereich des Maschinenlernens, einem Bereich, in dem Apple in den vergangenen Monaten verstärkt aktiv war.

Apple veröffentlicht technische Details zu Siris schwieriger Arbeit auf dem HomePod

Von Zeit zu Zeit veröffentlicht Apple neue Artikel in seinem öffentlicht einsehbaren Machine Learning Journal, aus denen durchaus interessante Details und Hintergrundinformationen zu in verschiedenen Produkten verwendeten Technologien hervorgehen. In der aktuellsten Veröffentlichung geht es dabei um den HomePod und darum, wie es ihm gelingt, Siri-Befehle auch in schwierigen und lauten akustischen Umgebungen zuverlässig zu erkennen und auszuwerten. In einem typischen Haushalt gibt es normalerweise jede Menge Hintergrundgeräiusche, wie einen laufenden Fernseher, Unterhaltungen, spielende Musik, Staubsauger, Küchengeräte oder Lärm, der von außen hineindringt. All dies stellt Siri auf dem HomePod vor enorme Herausforderungen, die beispielsweise auf einem iPhone nicht bestehen, da sich das Mikrofon hier in der Regel in der Nähe des Mundes befindet:

The typical audio environment for HomePod has many challenges — echo, reverberation, and noise. Unlike Siri on iPhone, which operates close to the user’s mouth, Siri on HomePod must work well in a far-field setting. Users want to invoke Siri from many locations, like the couch or the kitchen, without regard to where HomePod sits. A complete online system, which addresses all of the environmental issues that HomePod can experience, requires a tight integration of various multichannel signal processing technologies.

Damit Siri trotz dieser Herausforderungen zuverlässig auf dem HomePod arbeitet, setzt Apple neben einer speziellen Mikrofontechnologie und dem dauerhaft laufenden A8-Chip auch Maschinenlernen ein, welches nach und nach in der Lage ist, typische Nebengeräusche herauszufiltern und nur die Siri-Befehle durchzulassen und auszuwerten. Die technischen Details würden hier wohl ein wenig zu weit gehen, wer sich dafür interessiert, dem sei aber ein Abstecher in Apples Machine Learning Journal wärmstens ans Herz gelegt.

Apple beschreibt die technischen Hintergründe und Herausforderungen der Umsetzung von Face ID

Wer sich für die technischen Hintergründe dazu interessiert, wie Apple auf seinem iPhone X die 3D-Gesichtserkennung realisiert, dem sein ein Abstecher auf das Machine Learning Journal des Unternehmens empfohlen, wo ein aktueller Eintrag genau diese Funktion detailliert behandelt. Vor allem das Thema Privatsphäre hat die Apple-Ingenieure dabei vor verschiedene Herausforderungen gestellt. Letztendlich ist es gelungen, eine Kombination aus Framework und Hardware zu entwickeln, die eine Erkennung gestattet, die ausschließlich lokal auf dem Gerät durchgeführt wird und auf keinerlei Informationen von außerhalb angewiesen ist.

Unter anderem deswegen konnte man auch nicht auf die iCloud Photo Library als Basis für das Maschinenlernen der Gesichtserkennung zurückgreifen. Zudem wird jedes Foto, welches vom Gerät in die iCloud Photo Library hochgeladen wird, auf dem Gerät verschlüsselt und kann ausschließlich wieder auf den Geräten entschlüsselt werden, die mit dem jweiligen iCloud-Account verbunden sind.

Das ständige Lernen des Systems erfordert dem Paper zufolge einen sensiblen Umgang mit den Systemressourcen, da es als Teil des Betriebssystems ausgeliefert werden muss und hierdurch wertvollen Speicher belegt. Von dort aus muss das Framework zudem ständig in den Arbeitsspeicher geladen werden, um von dort aus genutzt werden zu können. Dort wiederum verbraucht das System aufgrund seiner Rechenintensität einiges an Prozessorzeit. Es musste also eine ausgewogene Fairness mit den restlichen Hardware-Operationen erzeugt werden, was sich auch auf die Hitzeentwicklung innerhalb des Geräts auswirkt.

Für technisch interessierte Leser ist eine Lektüre des Artikels absolut empfohlen.