Jump to content

Sony „Intelligent Vision Sensors“ mit KI-Verarbeitung


Empfohlene Beiträge

Werbung (verschwindet nach Registrierung)

Hallo, lieber Besucher! Als Forumsmitglied (kostet nix) würdest du hier ein Bild sehen…

Einfach hier registrieren – Wir freuen uns immer über neue Mitglieder!

Sony kündigt heute „Intelligent Vision Sensors“ an, die es erlauben, die Bildsignale direkt auf dem Sensor mittels künstlicher Intelligenz zu verarbeiten. Diese Funktionalität zielt vor allem auf Anwendungen in der Industrie und im Einzelhandel ab, zeigt aber eine Entwicklungsrichtung, die auch für die Fotografie interessante Anwendungen denkbar macht.

Bislang mussten für Anwendungen der KI-gestützten Bildauswertung große Bilddatenmengen zu anderen Systemen übertragen werden, bevor sie verarbeitet werden konnten. Mit dem neuen Chip ist es möglich, die Verarbeitung direkt im Chip vorzunehmen und auf diese Weise nur die bereits verarbeiteten Daten zu übertragen, um Bandbreite zu sparen und die Geschwindigkeit zu erhöhen.

Sony bringt die weltweit ersten „Intelligent Vision Sensors“ mit KI-Verarbeitung auf den Markt

Die neuen Sensoren ermöglichen Edge AI-Verarbeitung in Hochgeschwindigkeit und erleichtern den Aufbau optimaler cloudvernetzter Systeme.

Berlin, 14. Mai 2020 Die Sony Corporation gab heute die Einführung zweier „Intelligent Vision Sensors“ bekannt – der weltweit ersten Bildsensoren mit KI-Verarbeitungsfunktion.1 Die Integration der KI-Verarbeitungsfunktion direkt in den Bildsensor bedeutet, dass die Daten über Edge-AI in Hochgeschwindigkeit verarbeitet werden können und nur die erforderlichen Daten extrahiert werden. Dies ermöglicht es, bei der Nutzung von Cloud-Diensten die Latenzen bei der Datenübertragung zu verkürzen, Datenschutzvorgaben Rechnung zu tragen und den Energieverbrauch sowie die Kommunikationskosten zu senken.

Die „Intelligent Vision Sensors“ eröffnen neue Möglichkeiten zur Entwicklung KI-fähiger Kameras. Sie können eine Vielzahl von Anwendungen im Einzelhandel und Industrieausrüstungssektor unterstützen und den Aufbau optimaler, mit der Cloud verbundener Systeme erleichtern.

Modellname Musterauslieferung ab Musterpreis (ohne Steuer)
IMX500, Intelligent Vision Sensors, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Megapixel (bare chip product) April 2020 10.000 JPY
IMX501, Intelligent Vision Sensors, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Megapixel (package product) Juni 2020 (geplant) 20.000 JPY

Mit dem Aufstieg des IoT werden Geräte aller Art mit der Cloud verbunden. So ist heute der Einsatz von Informationsverarbeitungssystemen gang und gäbe, bei denen die Daten, die diese Geräte liefern, mit künstlicher Intelligenz in der Cloud verarbeitet werden. Die zunehmende Datenverarbeitung in der Cloud wirft allerdings auch eine Reihe von Herausforderungen auf: höhere Latenzen bei der Datenübertragung, die die Informationsverarbeitung in Echtzeit behindern, Sicherheitsbedenken seitens der Nutzer, wenn personenbezogene Daten in der Cloud gespeichert werden und weitere Probleme, wie etwa der erhöhte Energieverbrauch und die Kommunikationskosten, die Cloud-Dienste mit sich bringen.

Die neuen Sensoren sind gestapelt („stacked“) aufgebaut und bestehen aus einem Pixelchip und einem Logikchip. Es sind die weltweit ersten Bildsensoren, bei denen die künstliche Intelligenz zur Bildanalyse und Bildverarbeitung in den Logikchip integriert ist. Das Signal, das der Pixelchip erfasst, wird durch die KI auf dem Sensor verarbeitet, sodass keine Hochleistungsprozessoren oder externen Speicher benötigt werden. Dies ermöglicht die Entwicklung von Edge-AI-Systemen. Der Sensor gibt anstelle von Bildinformationen Metadaten aus (d.h. semantische Informationen zu den Bilddaten), was die Datenmengen reduziert und Datenschutzbedenken Rechnung trägt. Darüber hinaus ermöglicht die KI-Fähigkeit, vielfältige Funktionen für ein breites Spektrum von Anwendungen bereitzustellen, wie etwa Echtzeit-Objektverfolgung mit KI-Verarbeitung in Hochgeschwindigkeit. Die Benutzer können auch andere KI-Modelle wählen: Dazu wird der interne Speicher entsprechend den jeweiligen Anforderungen oder den Bedingungen am Einsatzort des Systems neu beschrieben.

Die wichtigsten Merkmale:

Der weltweit erste Bildsensor mit KI-Verarbeitungsfunktion

Der Pixelchip ist hintergrundbeleuchtet und verfügt über ca. 12,3 effektive Megapixel zur Erfassung von Informationen über einen weiten Betrachtungswinkel. Neben der herkömmlichen Bildsensor-Betriebsschaltung ist der Logikchip mit dem DSP (Digitaler Signalprozessor) von Sony ausgestattet, der die KI-Signale verbreitet, sowie einem Speicher für das KI-Modell. Diese Bauweise macht den Einsatz von Hochleistungsprozessoren oder externen Speichern überflüssig und eignet sich daher ideal für Edge-AI-Systeme.

Metadatenausgabe

Die Signale, die der Pixelchip erfasst, werden durch einen ISP (Bildsignalprozessor) geleitet. Die KI-Verarbeitung erfolgt in der Prozessstufe auf dem Logikchip, und die extrahierten Informationen werden als Metadaten ausgegeben, was das Datenvolumen reduziert. Da keine Bildinformationen ausgegeben werden, werden die Sicherheitsrisiken verringert, und der Datenschutz ist gewährleistet. Zusätzlich zu dem Bild, das der konventionelle Bildsensor aufzeichnet, können die Benutzer je nach den individuellen Anforderungen und Einsatzzwecken auch andere Datenausgabeformate wählen. Dazu zählen die Ausgabe von Bildern im ISP-Format (YUV/RGB) und die Ausgabe bestimmter ROI (Region of Interest)-Bildbereiche.

KI-Verarbeitung in Hochgeschwindigkeit

Wenn ein Video mit einem herkömmlichen Bildsensor aufgezeichnet wird, müssen die Daten für jedes einzelne Ausgabebild an die KI-Verarbeitung gesendet werden. So müssen große Datenmengen übertragen werden, und es wird schwer, Echtzeitleistung zu erreichen. Die neuen Sensoren von Sony führen die ISP-Verarbeitung und die Highspeed-KI-Verarbeitung (3,1 Millisekunden Verarbeitungszeit für MobileNet V12) auf dem Logikchip aus und schließen den gesamten Prozess in einem einzigen Videobild ab. Dieses Design ermöglicht eine hochpräzise Echtzeitverfolgung von Objekten bei Videoaufnahmen.

Wählbares KI-Modell

Die Benutzer können die KI-Modelle ihrer Wahl in den eingebetteten Speicher schreiben und sie je nach ihren Anforderungen oder den Bedingungen am Einsatzort des Systems auch neu schreiben und aktualisieren. Wenn beispielsweise mehrere Kameras, die diesen Sensor nutzen, in einem Ladengeschäft installiert sind, lassen sich mit einem einzigen Kameratyp verschiedene Standorte, Bedingungen, Zeiten oder Zwecke abdecken. Wird die Kamera im Eingangsbereich installiert, können damit die Kunden gezählt werden, die das Geschäft betreten. Wird sie an einem Regal angebracht, kann damit erkannt werden, wo Waren fehlen. Wenn die Kamera an der Decke installiert ist, kann sie zur Erstellung von Wärmebildern genutzt werden (um Bereiche zu erkennen, in denen viele Ladenbesucher zusammentreffen) und dergleichen mehr. Darüber hinaus kann das KI-Modell in einer Kamera neu geschrieben werden, sodass beispielsweise aus einem Modell zur Erkennung von Heatmaps ein Modell zur Ermittlung des Kundenverhaltens wird.

Technische Angaben

img

1 Bei Bildsensoren. Laut Untersuchungen von Sony (Stand: 14. Mai 2020).

2 MobileNet V1: Ein KI-Modell zur Bildanalyse für die Objekterkennung auf mobilen Geräten.

Link zum Beitrag
Auf anderen Seiten teilen

vor 1 Stunde schrieb joachimeh:

Auf einmal heißt alles, was per Computer bearbeitet wird KI. Wieviel hinter diesem Marketing Hype wirklich steckt, muss sich erst noch zeigen.

Der Begriff KI ist hier schon passend. Das System wird mit Daten gefüttert, jedoch nicht mit den Algorithmen wie diese verarbeitet werden sollen.

Für den Consumer sind diese Sensoren weniger interessant, da Sony als Hersteller die Rechenpower ins gleiche Gehäuse packen kann. Im kostenoptimierten OEM-Sektor scheint da wohl Interesse vorhanden zu sein.

Link zum Beitrag
Auf anderen Seiten teilen

vor 29 Minuten schrieb Atur:

kann mir jemand an einem Beispiel erklären, was da passiert in dem Sensor?

was macht die KI hier praktisch? 

Am besten kann man das mit autonomen Fahrsystemen erklären. Die Sensorik soll Objekte unterscheiden können (PKW, LKW, Motorrad, Mensch, Tier, Straßenschild etc.), da die Reaktion des Algorithmus auf jedes Objekt unterschiedlich ausfällt.

Leider gibt es unzählige Variationen von all diesen Objekten und es ist unmöglich sie scharf abgegrenzt zu unterscheiden.

Daher wird eine KI (am Ende eine lange Aneinanderreihung von Statistikberechnungen) mit Bildern gefüttert und sie soll „erraten“ um was es sich handelt. Die Rateversuche werden dann mit richtig oder falsch bewertet. Nach Millionen von Bildern existiert ein Modell, das zuverlässig ein Stopschild erkennt. 

Dieses Modell wird abschließend auf die Elektronik übertragen, die die Erkennung durchführen soll. Eine Überwachungskamera wäre z.B. in der Lage eine klauende Person zu erkennen.
 

Das ist ein Beispiel für Supervised Learning. Nicht die Einzige, aber im technischen Bereich die verbreiteste Methode.

Link zum Beitrag
Auf anderen Seiten teilen

Werbung (verschwindet nach Registrierung)

vor 51 Minuten schrieb Atur:

kann mir jemand an einem Beispiel erklären, was da passiert in dem Sensor?

was macht die KI hier praktisch? 

Dafür gibt es im letzten Absatz einige Beispiele:

vor 3 Stunden schrieb SKF Admin:

Wird die Kamera im Eingangsbereich installiert, können damit die Kunden gezählt werden, die das Geschäft betreten. Wird sie an einem Regal angebracht, kann damit erkannt werden, wo Waren fehlen. Wenn die Kamera an der Decke installiert ist, kann sie zur Erstellung von Wärmebildern genutzt werden (um Bereiche zu erkennen, in denen viele Ladenbesucher zusammentreffen)

Wenn ich das richtig verstehe, wird die KI so trainiert, dass der Chip eben nicht riesige Datenmengen als Videostream liefert, die erst Bandbreite fressen und dann ausgewertet werden soll, sondern die sehr reduzierte Info:

  • Kunde bewegt sich um xx Uhr von A nach B oder
  • Produkt X in Regal Y ist leer oder
  • Gegen 13 Uhr ist es vor Regal X am vollsten

 

Link zum Beitrag
Auf anderen Seiten teilen

  • 3 weeks later...
vor 3 Stunden schrieb wolfgang_r:

[...] das, was der Programmierer mitgegeben hat [...]

Eben nicht, sondern das, was die Entscheidungsmodule "gelernt" haben, worauf sie trainiert wurden.

Eine häufige Anwendung ist z.B. in der Medizin. Angeblich sollen KI-gestützte Systeme mittlerweile entartete Zellen sicherer erkennen als menschliche Pathologen.

Link zum Beitrag
Auf anderen Seiten teilen

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden
×
×
  • Neu erstellen...