PS2000

Der Mehrprozessor- Computer

PS-2000

Von Jurij Satuliweter und Jelena Fischcenko

 

Ìíîãîïðîöåññîðíûé êîìïüþòåð ÏÑ-2000 

Þðèé Çàòóëèâåòåð, Åëåíà Ôèùåíêî

Übersetzung : Dr. G. Jungnickel

Zur Übersetzung

-Die Übersetzung stellt eine, soweit bekannt, in der deutschen/englischen Fassung nicht verfügbare Übersicht einer   SIMD - (Parallel)-Architektur  dar, die in der UdSSR vorrangig für  die typischen Parallelalgorithmen zur Bearbeitung geologischer Erkundungsdaten eingesetzt wurde;

-Im Artikel werden  russische  Abkürzungen durch lateinische Buchstaben ersetzt. In (.. ) erfolgt die kyrillische Abkürzung.

-In [  ] werden Bemerkungen /Erläuterungen des Übersetzers angegeben

-Die Autoren Juri Satuliweter und Jelena Fischcenko  (zvt\fish@ipu.rssi.ru)sind  Mitarbeiter des IPU der RAdW (Moskau

Vorwort der Autoren

 

Die Postulate von John v. Neumann verbinden auch heute noch den Massencomputer und die Technologie einer industriellen Programmierung zu einem Ganzen, aber unter dieser Herrschaft der Klassik kann man künftig nur existieren, wenn man sich der Logik der seriellen Abfolge von Befehlen unterwirft, was die Vielfalt verschiedener Architektur- Lösungen und die Perspektiven des Leistungswachstums stark einschränkt

Die Periode der „Eiszeit“ in der Architektur

 

1958 schlugen Jack Kilby und Robert Noyce unabhängig voneinander erstmals in der Welt  integrierte Schaltungen vor. Kilby erhielt im Jahre 2000 den Physik- Nobelpreis und Noyce wurde einer der Mitbegründer der Firma Intel im Jahre 1968. Beide stehen heute in der Liste der Menschen, die die Welt veränderten, auf dem 5. Rang. www.liverating.ru/n_id/1861. )

Dieses Ereignis löste neben anderen Ereignissen den Start in das Zeitalter des massenhaften Computerbaus aus. Die Senkung der Kosten wurde eine Grundbedingung nicht nur für Computer mit Massenanwendung, auch die Entwickler von Supercomputern gingen im Interesse der Ökonomie von Kosten und Zeit auf die „Großblock- Bauweise“ von Mehrprozessor-Computern über. Die typisierte Bauelemente- Basis spielte allerdings mit den Entwicklern von unikalen [einzigartigen] Architekturen, die entsprechend arbeitsaufwendiger sind, ein böses Spiel: die Leistungsparameter von Supercomputern wurden nicht etwa durch Verbesserung der Qualität ihrer Architektur und ihrer Schaltkreislösungen,  verbessert, sondern durch einfachen Tausch der Generation ihrer Mikroprozessoren [und sicher auch ihrer Anzahl in den Clustern]. Jede neue Generation engte aber die Möglichkeit der Architekten ein, auf Qualitätsparameter Einfluss zu nehmen.

  Zunächst verhinderte die Moder der „Großblock- Bauweise“, dass die Entwickler [von unikalen Architekturen] Zugang zu Arithmetik-Operationen auf Registerniveau für den programmierten Zugriff auf Zwischenergebnisse haben. Aber genau da wird bekanntlich die massive Parallelität bei der Ausführung von arithmetisch- logischen Befehlen ermöglicht. Möglichkeiten für das Schöpfertum der Architekten blieben im Bereich der Kommunikation zwischen den Prozessoren auf den Niveau des Hauptspeichers , was langsamer, als auf Registerniveau ist, und im Konstruktionsbereich: Schrank, Logik- Platinen, Kühlung. Langsam engten sich die Vollmachten der Architekten noch stärker ein: beeinflussbar blieben hauptsächlich verhältnismäßig langsam zusammenwirkende Prozesse. Das Potential für Parallelität auf diesem Niveau ist nicht hoch und lässt sich schlecht nutzen wegen der Besonderheit der Logik asynchroner Wechselwirkungen. Mit der Zeit wurden auch die Verbindungsblöcke [Kommunikations- Blöcke] , die zuvor noch aus Einzelelementen gebaut wurden , durch Serienkomponenten zur Unterstützung von Netzprotokollen ersetzt.

Im Ergebnis „evolutionierten“ Mehrprozessor- Architekturen zu Clustersystemen. Der Kampf um die Kostensenkung und um die Termine des Baus von [eigenen] Großplatinen führte schließlich zum Kauf von fertigen Computerblöcken mit großen Steckverbindern und von Netzkomponenten. Die Notwendigkeit tiefgehender Architektur- Entwicklungen auf dem Niveau kleiner Bausteine entfiel. 

Das Moor’sche Gesetz  [siehe http://de.wikipedia.org/wiki/Moorsches_Gesetz] eröffnete die Epoche der Mikroprozessoren. Dieses  Gesetz beendet sie auch , indem es für Milliarden von Transistoren eine vollständige Freiheit der Architektur- Formen mit unbegrenzter Parallelität erfordert. Das klassische Modell der seriellen Berechnung verliert seinen Status als systembildender Standard, mit dessen Hilfe bislang die Massenfertigung von Computern und die industrielle Softwareentwicklung verknüpft waren. Heute existiert nicht einmal eine allgemein anerkanntes Verständnis darüber, wie man die industrielle Technologie der Programmierung der Vielfalt der Parallel-Computer- Architekturen aufbauen sollte. Hochparallele Mehrprozessor- Architekturen mit einem für den Programmierer zugängigen Parallelitäts- Niveau kommen jetzt wieder. Die Eiszeit des Vergessens solcher Architekten, die gleichzeitig auf allen Niveaus der gerätetechnischen Parallelität arbeiteten – von der Architektur bis zum Transistor- ist beendet. Allerdings stehen zwei prinzipielle Hürden auf dem Wege zu grenzenlos effektiven  Architektur- Lösungen , die um Größenordnungen sowohl die Performance, als auch die Performance- Effektivität pro eingesetztem Gatter übersteigen, die man wie folgt formulieren kann:

  • viele Mehrprozessor- Lösungen werden in einer „ein- Chip“ Umsetzung uneffektiv, weil diese andere Prinzipien der Balance [der Struktur- und Architekturmerkmale] erfordern;

  • der Arbeitsaufwand für die Programmierung von hochparallelen Architekturen ist um eine Größenordnung höher, als für serielle Architekturen.

Innovativer Durchbruch

 

In der UdSSR wurde in den 70ger Jahren die Schaffung von hochproduktiven Rechnersystemen für die Bearbeitung großer Datenmengen eine erstrangig wichtige staatliche Aufgabe. Nur für die industrielle Bearbeitung der im Lande gesammelten seismologischen Daten von Lagerstätten von Öl und Gas war eine Gesamt-Rechenleistung von ca. 100 Mrd. Additionsbefehlen / sec. erforderlich, was ca. 1000 mal die Rechenkapazität aller im Lande verfügbaren EDVA übertraf. Noch leistungsfähigere Systeme waren erforderlich, um in Echtzeit die akustischen, Radar- und Grafik- Informationen zu verarbeiten, die mittels Erd-Satelliten erhalten wurden. Es war absolut klar, dass es unmöglich war, die Rechen-Leistung nur durch die Erhöhung der Zahl der Rechner aus Serien- Produktion zu erhalten.

In den Jahren 1972–1975 wurde im Moskauer Institut für Steuerungs- Probleme( IPU)  die Struktur und Architektur des Hochleistungs- Mehrprozessor- Rechners PS-2000 (ÏÑ-2000) vorgeschlagen, deren Autoren es gelang, eine originelle Lösung zu finden , die hohe Rechen-Performance vereinte mit der damals verfügbaren preisgünstigen und zuverlässigen , aber langsamen Bauelementebasis. Auf Anordnung des Ministeriums für Gerätebau wurde dem IPU als Projektverantwortlichem das NII UWM (ÍÈÈ ÓÂÌ) [Forschungsinstitut für Steuerrechner] zugeordnet, welches zur NPO „Impuls“ («Èìïóëüñ») (Severodonezk) gehörte und wo die in Serie produzierten Kleinrechner des SKR  „ÑÌ-1“ und  „ÑÌ-2“ entwickelt und produziert wurden. 1975 wurde ein gemeinsames Forschungs- und Produktionsprojekt gestartet und finanziert. 1978 wurde der Führung des Landes ein vollfunktionsfähiges Muster des PS-2000 vorgestellt, und im Dezember 1980 wurden einer staatlichen Prüfungskommission die Serienmaschinen des Rechnerkomplexes PS-2000 vorgestellt. Im Folgejahr begann die Serienproduktion. Von 1981 bis 1988 wurden vom Severodonezker Werk 180  Rechnerkomplexe PS-2000 gefertigt, darunter 242 Mehrprozessor- Computer PS-2000. 

Die effektive Leistung der Serienanlagen PS-2000 erreichte 200 Mio. Additionen/ sec. bei sehr günstigen Kostenparametern für Anschaffung und Betrieb. Unter Feldbedingungen von geologischen Expeditionen bearbeitete PS-2000 die Ergebnisse von seismologischen Untersuchungen mindesten 20 Stunden h/Tag. Die einheimische Industrie produzierte weltweit erstmals  in großen Stückzahlen einen Hochleistungs- Mehrprozessor- Rechner.  

Die Architektur des PS -2000

Der Mehrprozessor- Rechner ( Multiprozessor) PS-2000 ist für Aufgaben vorgesehen, die über Massiv- Parallelität auf dem Niveau der Elementar- Befehle verfügen und  auf eine Hochleistungs- Verarbeitung von Daten mit gut parallelisierbaren Algorithmen orientiert sind. Die synchrone hochparallele Verarbeitung vieler Datenströme im Computer erfolgt unter Steuerung eines gemeinsamen Operationen [ Instruktions-] -Stromes, wie das für SIMD- Architekturen ( ein Instruktions- Strom, viele Daten- Ströme) typisch ist.

Der Multiprozessor besteht aus einer Menge von gleichartigen Prozessor- Elementen PE1,..  PEn (ÏÝ1, ÏÝ2, …, ÏÝN), die untereinander durch einen regulären und Magistralen- Kanal [Bus] verbunden sind und aus einer gemeinsamen Steuereinheit (OUU;ÎÓÓ) ( Bild 1; ðèñ. 1).

 

 

Abkürzungen und Beschriftungen

îáùèé ïîòîê êîìàíä 

gemeinsamer Instruktions- Strom

ìàãñòðàëüíûé êàíàë äàííûõ

Daten- Bus

weitere Abkürzungen

siehe Tabellen unten

 

Jedes PE, wie auch die OUU, besteht aus mehreren Funktionsblöcken ( siehe PE1/ Bild 1), die auch die schnellsten im Rechner genutzten Registerspeicher enthalten, die auf Instruktions- Niveau zugängig sind. Die Gesamtheit dieser Einheiten ( sowohl der OUU , als auch sämtlicher PE ) bildet ein verzweigtes Pipeline- Aggregat mit programmtechnisch konfigurierbaren [steuerbaren ] Verbindungen. Jeder Funktionsblock stellt eine Pipeline- Stufe dar. Der Datenaustausch zwischen diesen Blöcken erfolgt über ein gemeinsam für die benachbarten Blöcke vorhandenes Register. Die Tabelle 1 [òàáë. 1.] zeigt Umfang und Funktionalität jeder PE  .

 

Tabelle1 Funktionsblöcke PE

Name

Inhalt

Zweck

T

Logikeinheit mit Registern spezieller Funktion

Parallel- Rechnungen in der Menge aller PE mit gleicher programmierter logischer Bedingungen für die Aktivierung der PE

S

Arithmetisch- logische Einheit (ALE)  für Festkomma- und Gleitkomma -Zahlen mit Registern mit spezieller und allgemeiner Funktion

Parallel Ausführung durch die Gesamtmenge aller aktivierten Arithmetisch- logischen Einheiten (ALE) mit Zwischen-Operanden in gleichnamigen Registern

M

Operativspeicher Modul für Daten mit freiem Zugriff auf das Word.

Speicherung einzelner Daten und Datenblöcke im Satz der Speichermoduln aller PE ( gewöhnlich ist die Geschwindigkeit des Hauptspeichers 3x kleiner, als der Register)

L

Ganzzahlige ALE mit Registern zur Adressspeicherung

Programmierte Parallelrechnung in jedem aktivierten PE mit eigener Zugriffsadresse zu den Moduln des Operativspeichers M seines PE

B

Register des regulären Kanals

Pipeline- Datenaustausch zwischen benachbarten PE im Ring- Schiebe- Betrieb ( die Zahl der gleichzeitig "zirkulierenden Ringe" wird programmiert mit Hilfe der der Segmentierung des Kanals mit je 8,16,32,oder 64 PE )

 

Die OUU gewährleistet die Eingabe und Speicherung des Multiprozessor- Programms , die Generierung und Übertragung aller gemeinsamen Steuersignale für alle PE, die Synchronisierung der Verarbeitungsprozesse und der Ausgabe/ Eingabe , den Testbetrieb der PE , sowie die Verbindung mit dem externen Monitoring- Subsystem (MPS) (ÌÏÑ)- gem. Bild 2 (ðèñ. 2). Die Tabelle 2 [òàáë. 2.] zeigt Umfang und Funktionalität der OUU 

 

 

Abkürzungen und Beschriftungen

ÑÂÏ

System externer Speicher (SESp) : Plattenspeicher 29 MByte, Magnetbandspeicher

Ïåðèôåðèÿ

Plattenspeicher , Magnetbandspeicher , Farbdisplays , Breitbandplotter und Matrix- Plotter , Videokamera, E/A- Audiogeräte

ÌÏÑ

Monitoring- Subsystem

 
     

Tabelle 2 Funktionsblöcke OUU

Name

Inhalt

Zweck

W

Arithmetisch- logische Einheit (ALE)  für Festkomma- und Gleitkomma -Zahlen mit Registern mit spezieller und allgemeiner Funktion

Ausführung skalarer arithmetisch- logischer Instruktionen mit Zwischen- Operanden  in den OUU- Registern

H

Operativspeichermodul  für Daten mit freiem wort- orientiertem Zugriff

Speicherung einzelner Daten und Datenblöcke , (gewöhnlich ist die Geschwindigkeit des Hauptspeichers  kleiner, als der Register- hier 3x) 

HL

Ganzzahlige ALE mit Registern zur Adressspeicherung

programmierte Berechnung der Zugriffsadresse zum Modul des Operativspeichers H

KU

Register für Bus- Kanal

realisiert die "öffentliche" Übertragung (einer an alle) des gemeinsamen Operanden an alle aktivierten PE. 

G

Programmspeicher

Programm- Speicher , ist die Quelle des allgemeinen Instructions- Stromes für alle PE , wird gesteuert vom Befehlszähler und dem Register-Stack [Stapelspeicher] , die Programme werden zur Ausführung aus dem MPS geladen.

 

Die originelle Architektur des PS-2000 vereinte die verhältnismäßig einfache gerätetechnische Lösung der Steuersysteme für einen Instruktions- Strom mit einer beispiellos  flexiblen Programmierung der hochparallelen Verarbeitung von Daten. Die unikale Flexibilität der Steuerungssystems des PS-2000 bricht mit der allgemein verbreiteten Vorstellung über die funktionellen Möglichkeiten von SIMD- Computern. Es ist zwar unglaublich, aber trotzdem wurde in den Serienmaschinen PS-2000 etwas Undenkbares für diese Klasse von Rechnern realisiert. Mit den Ressourcen des PS-2000 wurde auf Programmniveau eine Multiprozessor- Architektur MIMD ( viele Instruktions- Ströme, viele Daten- Ströme) emuliert. Dabei konnten alle PE , unter paralleler Steuerung der Aktivierungseinheit , gleichzeitig ihr eigenes Programm ausführen, welches in ihrem eigenen Operativspeichermodul geladen war. So konnte z.B. der 64- Prozessor- PS-2000 parallel 64 verschiedene Programmströme abarbeiten. Andere existente SIMD- Computer konnten das damals nicht.

Es sollen daher die Architektur- Besonderheiten  des PS-2000 aufgeführt werden, die ihm diese hohe Flexibilität und Effektivität der Berechnung ermöglichten:

  • Die Instruktionen zeichneten sich durch erhöhte funktionelle Flexibilität bei der Steuerung verschiedenartiger Geräteeinheiten für die Parallelarbeit aus. Diese Qualität wird durch eine vielschichtige hierarchische Strukturierung  einer großen Menge gleichzeitig ausführbarer Instruktionen erreicht.  

  • Es existieren folgende Arten von programmgesteuerter Parallelität:

    gleichzeitige Ausführung eine Menge verschiedenartiger Aktionen in allen PE ( Aktivierung, Rechenoperationen, Adressrechnungen , Zugriff auf Moduln des Operativspeichers, Übergabe von Daten zwischen benachbarten Prozessoren über den regulären Kanal);
    gleichzeitige Ausführung einer beliebigen , programmtechnisch vorgegebenen Untermenge verschiedenartiger Aktionen (Aktionen in PE's , ÎUU; paralleler Austausch von Daten zwischen den Moduln Operativspeichers des des PE und einer Gruppe von Plattenspeichern über die autonomen Kanäle des Extern-Speichersystems SESp , Aktionen im Monitoring-Subsystem) , Steuerung der Prozesse im externen Betriebssystem;

  • Die Verfügbarkeit einer beachtlichen Menge von Speicherregistern in den PE , in denen parallel in allen  aktivierten PE massiv große Berechnungen und Zwischenspeicher- Austausche bei der Ausführung von zyklischen Teilen der Programme erfolgen. Für Zyklen mit großer Zahl von Wiederholungen kann der Anteil der Zugriffe zu den langsamen Hauptspeichermoduln klein sein.  In diesem Falle spielen die Register  einen positiven Cache-Effekt ( und noch dazu mit paralleler Ausführung in allen PE ).

  • die zwischen den PE erfolgende Pipeline- Kopplung der Registerberechnungen mittels der Register B des regulären Kanals gewährleisten eine Betriebsart von programmierbaren systolischen Strukturen, was einen maximal möglichen Parallelitätsgrad sichert.

  • Ein Satz gleicher Einheiten für Adressarithmetik  ALE gewährleistet einen Parallelzugriff zum Speicher M mit einer Menge von Adressen, die die Möglichkeit ihrer inkrementalen Modifizierung haben.  

  • Ein Satz gleicher Einheiten zur Aktivierung der PE gewährleistet ein hohes Niveau der Parallelität bei assoziativer Bearbeitung von großen Datenmassiven ( Suchen und Sortieren nach programmtechnisch vorgegebenen Prädikat- Funktionen , mengentheoretische Operationen , Bearbeitung von Rastergrafik , ereignisabhängige Steuerung der Rechenabläufe. u. a. ) .

 

Das Befehls- (Instruktions-) System

Die Programmierung des Multiprozessors erfolgt mittels hochparalleler hierarchisch strukturierter Instruktionen , die dem Programmierer eine anschauliche Darstellung der Parallelität der funktionellen Einheiten und eine hocheffektive Steuerung aller Aktionen erlauben, die synchron im verzweigten Pipeline- Aggregat ausgeführt werden und die Funktions- Einheiten PE und OUU verbinden.

Bild 3 :

ñòðóêòóðèðîâàííûé ïîòîê êîìàíä: strukturierter Befehlsstrom

ëåâàÿ/ ïðàâàÿ  ÷àñòü : linker / rechter Teil

 

Die zwei oberen Ebenen der Befehlsstruktur sind in Bild 3 dargestellt. Alle Befehle haben ein einheitliches Format von 64 Bit und sind auf zwei zwei gleiche Teile- links und rechts aufgeteilt. Jeder Teil enthält mehrere Felder. In jedem Feld wird für die entsprechende Funktionseinheit eine Menge von drei- Adress- Befehlen für Operationen mit den Registern angegeben. In den linken Feldern wird die Steuerung von T und entweder S oder T vorgenommen . Im rechten Teil erfolgt die Steuerung entweder von M und L oder von W, H und HL oder von G.   

Nach einer einfachen Dekodierung des Befehls werden alle in den Feldern angewiesenen Aktionen parallel und synchron in den entsprechenden Funktionseinheiten durchgeführt.

Je mehr Aktionen in den Feldern jedes Befehles angegeben sind, um so höher ist die Parallelität des Programms, die Effektivität der Nutzung der Rechenressourcen und natürlich der Ausführungsgeschwindigkeit.  Die Kunst des Programmierens des Multiprozessors besteht darin, Programme zu schreiben, die ein Maximum an ausgeführten Aktionen in den Befehlsfeldern haben.

Die Effektivität der ParallelisieErung wird erhöht mittels der zeitlichen Zusammenfassung von verschiedenartigen Funktionsblöcken. Zum Beispiel, die Ausführung von massiv großen Rechnungen in den Funktionsblöcken S PE  wird zusammengelegt mit begleitenden Operationen ( Vorbereitung der Einstellungen, Modifikation der Adress-Operanden, Auslesen der Operanden, Speichern der Ergebnisse, Steuerung der Konfiguration des Lösungsfeldes u.s.w. ) Auf diese Weise nutzt der Multiprozessor PS-2000 mit gemeinsamen Befehlsstrom maximal die Parallelität der verschiedenartigen und gleichartigen Funktionsblöcke.

 

Konfigurationsvarianten ( Erweiterbarkeit, Kaskadierung)  

Der Multiprozessor PS-2000 wird aus Moduln drei verschiedener Typen konfiguriert, wovon  jeder jeweils in einem Schrank [Schrankgehäuse] untergebracht ist. Die Erweiterungs- Moduln [d.h. Erweiterung durch Aneinanderreihung, Kaskadierung ]- werden bestückt mit Verarbeitungs- Einheiten (UO), die jeweils aus 8 PE und einer OUU bestehen. Die Moduln haben folgende Inhalte:

  • Basis- Modul  

    8 PE + 1x OUU

    Erweiterungsmodul 1

    1x  UO (8 PE)

    Erweiterungsmodul 2

    2x  UO (16 PE)

  • Die Minimalkonfiguration (8 PE )besteht aus einem Schrank , die maximale (64 PE) besteht aus 5 Schränken, aufgestellt  in Form eines Sternes .

    Technische Eigenschaften der Geräte des PS-2000

    Die Geschwindigkeit, die Verarbeitungsbreite und die Größe der Registerspeicher und Operativspeicher wurden von der verfügbaren Bauelementebasis bestimmt, allerdings hängen Struktur und Architektur nicht wesentlich von der Bauelemente- Basis ab. 

    Das Gerät S arbeitet mit 24-bit Register- Operanden. Eintakt- Arithmetik- Befehle mit Festkomma werden mit den Worten innerhalb von  0,32 µs ausgeführt, das entspricht einer Arbeitsfrequenz von 3 MHz. Addition/ Subtraktion im Gleitkommaformat werden innerhalb von 3 Takten ausgeführt (0,96 µs), die Multiplikation in 5 Takten ( 1,6 µs).

    Das Volumen eines Datenspeichermoduls M oder H betrug  16384  [15 Bit ="100000000000000" ]  24- Bit Worte , die Lese - oder Schreibbefehle wurden wordweise innerhalb von 0,96 µs ausgeführt. Das Volumen des  Programmspeichermoduls G betrug 16384 64-Bit Worte.  Die Auslesezeit jedes Befehls betrug  0,32 µs, die Zeit für Verzweigungsbefehle betrug von 1,28 bis 1,92 µs. 

    Der reguläre Kanal gewährleistete einen Datenaustausch im Modus des segmentierten zyklischen Verschiebens zwischen benachbarten PE. In 0,32 µs erfolgten Übergabe und Empfang von N 24- Bit Worten, wobei N die Zahl der PE im Multiprozessor PS-2000 ist.

    Der Magistralen- Kanal ggewährleistet eine "öffentliche" Übertragung von einem 24 Bit Wort an alle aktiven PE  entweder aus dem Register KU OUU in einem Takt in 0,32 µs , oder aus einem beliebigen PE in zwei Takten (0,64 µs).   

    Der reguläre und der Magistralen- Kanal können programmtechnisch segmentiert werden in mehrere untereinander nicht verknüpfte gleich große Fragmente von 8, 16, 32 oder 64 PE.

    Bei einer Taktfrequenz von 3 MHz war die mittlere Produktivität eines 64 Prozessor- Computers PS 2000 bei Aufgaben zur industriellen Bearbeitung von Daten nahe an der Spitzenleistung von 200 MFLOPS.

    Rechnerkomplexe auf Basis von PS-2000

    Zum Rechnerkomplex (RK) PS-2000 (s.oben  Bild 2 ; ðèñ. 2) gehören der Multiprozessor, das Monitor- Untersystem und zwischen 1 bis 4  Untersysteme für Externspeicher SEPs , die eine parallel-asynchrone Arbeit mehrerer E/A-Kanäle im Modus der gleichzeitigen Arbeit vieler Informations- Magnetdatenspeicher ( auf Platte oder Magnetband) unterstützen. Bei Arbeit mit physischen Objekten im Echtzeitbetrieb kann man an den Multiprozessor mehrkanalige asynchrone Informationsströme ankoppeln , sowohl über das SEPs, als auch über spezielle Hochgeschwindigkeits- Kanäle.

    Das Monitoring- Subsystem auf Basis des Minirechners ÑÌ-2Ì realisiert die Funktionen des Betriebssystems, realisiert die asynchrone Arbeit mehrerer SESp , die Übertragung , die Bearbeitung von Texten, die Ausführung von Hilfsprogrammen , die Steuerung der eigenen Peripherie , incl. des externen Speichers, sowie verschiedener E/A- Geräte. 

     

    Besonderheiten der Programmierung

    Die Haupt- Programmiersprache des Multiprozessors war der Microcode PS-2000. Die Möglichkeiten der Programmierung der Konfiguration ermöglichten die Schaffung von industriellen Anwendungen, die invariant waren gegenüber unterschiedlichen Konfigurationen des Multiprozessors PS-2000.  Diese Eigenschaften sicherten seine Popularität , obwohl die Schaffung von parallelen Programmen für den PS-2000 eine besondere Kunstfertigkeit erforderte. Oft beeindruckte die erreichte Effektivität des Ressourceneinsatzes die Entwickler selbst- die Rechenzeit verkürzte sich um das viele hundert- fache.  Die erhöhte Mobilisierung der schöpferischen Kräfte des Programmierers, die die hochparallele Maschinenstruktur erforderte, wurde in der Regel durch die professionelle Genugtuung über das Erreichte kompensiert.

    Anwendungsbereich des PS -2000

    Die breiteste Anwendung erfuhr der Rechnerkomplex PS-2000 in der Geophysik- die schnell wachsenden Regale mit Magnetbändern mit Daten aus der Geophysik, die über Jahre stumm die  Geheimnisse über Gas- und Öllagerstätten bewahrten, bestimmten den Erfolg voraus. Schon in den 70er Jahren konnte die seismologische Erkundung so erfolgreich  kilometergroße Tiefen der Erde "durchleuchten" und die Daten dazu speichern, dass die Magnetbandarchive der Rechenzentren buchstäblich den Leuten auf den Kopf fielen. Allerdings konnte man pro Jahr nur wenige Prozente dessen entschlüsseln, was von einer Erkundungssaison eintraf. 

    Für  die Verarbeitung seismologischer Erkundungs- Daten von Öl und Gas wurde im VNII Geophysik (ÂÍÈÈ Ãåîôèçèêè) unter Mitwirkung des IPU RAdW  (ÈÏÓ ÐÀÍ) das System zur industriellen Bearbeitung von geophysikalischer Information - SOS-PS (ÑÎÑ-ÏÑ) geschaffen. Im Industriebereich wurden fast 90  geophysikalische [mobile] Expeditions- Rechnerkomplexe PS- 2000 ( EGWK PS-2000;ÝÃÂÊ ÏÑ-2000 ) betrieben, die eine vertiefte Bearbeitung der Seismo- Daten für Öl- und Gaserkundung ermöglichten.

    Der EGWK PS-2000 wurde gemäß den Anforderungen [Aufgabenstellung] des Ministeriums für Geologie geschaffen und war der einzige im Lande existierende problemorientierte Rechnerkomplex, der  mit allen Geräten ausgerüstet war, die zur Bearbeitung von Erkundungsdaten benötigt wurden. Der EGWK PS-2000 benötigte keine große Aufstellfläche, hatte für damalige Zeiten relativ wenig Energiebedarf , geringe Betriebskosten und gewährleistete eine hohe Zuverlässigkeit unter Expeditionsbedingungen. Der Einsatz des EGWK PS-2000 erlaubte es , auf den Import teurer ausländischer Rechnerkomplexe zu verzichten. Der bestätigte ökonomische Effekt des Einsatzes des EGWK PS-2000 nur in der Geophysik betrug ca. 200 Mio Rubel , für seine Entwicklung wurden ca. 10 Mio. Rubel eingesetzt.[ zum Vergleich: 1975 betrug das Durchschnittseinkommen eines Industrie- Ingenieurs in der UdSSR  ca. 150-180 Rubel/Monat].

    Auf der Basis mehrerer Komplexe PS-2000 wurden Hochleistungssysteme ( bis zu 1 Mrd. OP/s.) für die Bearbeitung von hydroakustischen und telemetrischen Informationen im Echtzeitbetrieb eingesetzt. Mehrere Multiprozessoren PS-2000 wurden zu einer Pipeline verbunden. Um eine schnelle Ein- und Ausgabe der  hydroakustischen und Satelliten-  Informationen zu ermöglichen, wurden für solche Systeme Hochgeschwindigkeits- Kanäle realisiert.

    Der RK PS-2000 wurde lange Zeit im Leitzentrum für kosmische Flüge  (ZUP; ÖÓÏ) eingesetzt. Die ersten Rechner- Komplexe (RK)  PS-2000 kamen 1982 ins ZUP, die letzten 1988. Insgesamt waren acht 32-Prozessor-Komplexe im Einsatz. Die RK PS- 2000 zur Satelliten- Informationsauswertung wurden von 1986 bis 1997 genutzt, als SYstem zur Vorverarbeitung der telemetrischen Daten. Die RK wurden auch für die Betriebsführung der Orbitalstationen "MIR" «Ìèð» eingesetzt. 

    Die hohe Parallelität des PS-2000 ermöglichte neuartige Verarbeitungsalgorithmen für Satelliten-Daten zu nutzen. An ein zentrales System "Elbrus 2" («Ýëüáðóñ-2») waren einige 32- Prozessor-RK PS-2000 angeschlossen , um acht vollständige Telemetrie- Datenströme zu bearbeiten. Um die Zuverlässigkeit zu erhöhen, arbeiteten zwei Telemetrie- Komplexe parallel und auf den dynamischen Teilen der Flugbahn der kosmischen Objekte - drei.

    Resümee

    Mit Erscheinen von Multi- Core Chips wird die Nachfrage nach modernsten Mikroprozessor- Architekturen verstärkt, welche  balanciert sind hinsichtlich einer Einchip- Realisierung. Daher ist die Aufgabe der Umsetzung der PS-2000-Architektur auf einem Chip höchst aktuell.  Die bezgl. der Anzahl der Prozessorelemente erweiterbare Architektur des PS-2000 ermöglicht es, die Zahl der Elemente proportional zur Zahl der auf einem Chip platzierbaren Gates [Transistoren] zu erhöhen.   Eine Rechenleistung nahe an 1 TFLOPS kann mit 512 Elementen auf einem Chip erreicht werden (zvt.hotbox.ru/PS-2000M.htm). Siehe auch  Abschnitt  Mikroarchitektur PS-2000M

    Der Abbruch der Finanzierung der wissenschaftlichen Entwicklungen Mitte der 90er stoppte die Entwicklung der Architektur- Linie PS-2000. Es besteht jedoch eine Hoffnung, dass im Verlaufe der letzten 15 Jahre kein [unaufholbarer] Rückstand eingetreten ist, dass im Ausland die Entwicklung der Architektur von Hochleistungssystemen genau in diese [µProzessor beeinflusste ] "Eiszeit" fiel. Unser Zusammenbruch und deren Stagnation fielen diesmal zusammen.  Jetzt, im Umfeld der Krise des klassischen Modells der seriellen Rechnung [nach von Neumann] und des empfindlichen Hungers nach Mehrprozessor- Einchip - Architekturen gibt das System PS-2000 seine gewichtige Antwort auf die Frage « Was ist wichtiger- die Bauelemente- Basis [Technologie- Basis] oder die Architektur?» Ein Computer mit besserer Architektur kann seine Vorzüge auch mit einer schlechten Technologie- Basis beweisen, aber mit einer hochmodernen Technologie- Basis wird er seines Gleichen suche.

    30.11.2007ã 

    Die Multicore- Zukunft der Multiprozessorarchitektur PS-2000-

    die Mikroarchitektur PS-2000M

    Nachfolgend soll eine Ergänzung dieses Themas durch einen Auszug aus einem Artikel der gleichen Autoren

    -Þ.Ñ. Çàòóëèâåòåð; Èíñòèòóò ïðîáëåì óïðàâëåíèÿ èì. Â.À. Òðàïåçíèêîâà ÐÀÍÐîññèÿ, 117997, Ìîñêâà, Ïðîôñîþçíàÿ óë. 65 ;Å-mail: zvt@ipu.rssi.ru

    -Å.À. Ôèùåíêî; Èíñòèòóò ïðîáëåì óïðàâëåíèÿ èì. Â.À. Òðàïåçíèêîâà ÐÀÍÐîññèÿ, 117997, Ìîñêâà, Ïðîôñîþçíàÿ óë.,Å-mail: fish@ipu.rssi.ru

    aus den "Proceedings of the third international conference "Parallel computations and control problems"; Moscow, 02.-04.10.2004" erfolgen.

     

    Die ihrer Bedeutung nach fundamentalen Architektur- Lösungen des Multiprozessor Rechnersystems PS 2000 sind nicht an eine Bauelementebasis gebunden. Sie eröffnen qualitativ neue Möglichkeiten für eine effektive Umsetzung einer hochparallelen SIMD- Architektur universeller Zweckbestimmung in VLSI- Elemente, wobei sie eine Parallelisierung sowohl auf dem Niveau von Massen- Befehlen, als auch auf der Ebene paralleler, gegenseitig zusammenwirkender Prozesse bieten.

    Wie bekannt sind Multiprozessorsysteme mit SIMD- Architekturaußerordentlich effektiv für die Verarbeitung von Multimedia- Daten [23, 24] als auch zur digitalen Signalverarbeitung  [25], zur Bearbeitung wissenschaftlicher Aufgaben , welche sich gut mittels paralleler Algorithmen beschreiben lassen, zur Bearbeitung akustischer, Radar- und  Telemetrie- Daten. In diesem Zusammenhang stellt sich die Schaffung eines universellen programmierbaren Multiprozessors mit SIMD - Architektur auf einem Chip als höchst aktuelle Aufgabe, der auf vielen Gebieten die verschiedensten spezialisierten Beschleuniger ersetzen könnte. 

    Die Mikroarchitektur PS-2000M , d.h. die Architektur des Multiprozessors PS-2000, die für die Realisierung auf einem Chip vorgesehen ist, ist äußerst effektiv für die Lösung von Aufgaben, bei denen mit einem Eingabe-Datensatz viele Zwischenaktionen durchzuführen sind.

    Die Forderungen an die Balance [Gleichgewicht] der Mikroarchitektur sind [2]:

    • Parallelität auf dem Niveau von Massen- Operationen erfordert ein flexibles System des Datenaustausches zwischen den Prozessoren auf Registerniveau ;

    • Balance bei der  Aufteilung der Gesamtzahl der Transistor( gates) auf einem Chip zwischen den Ressourcen für Verarbeitung, Speicherung und Kommunikation

    • Balance des Zeitbedarfs für Eingaben /Ausgaben von Daten mit der Rechenzeit;

    • Balance der Parallelität auf dem Niveau der Massen- Operationen mit den Niveau der Systemprozesse.

    • Möglichkeit der Vervielfachung der Mikroarchitektur im Chip; 

    • Vervielfachung der Architektur auf den Niveau der Chip- Kopplung ( Leistungssteigerung  durch direkte Verbindung von Multiprozessor- Chips untereinander auf dem Niveau von Leiterplatten, Paketen von Leiterplatten oder  Gefäßen). l

    Auf Bild 4 ( ðèñ. 4 ) ist die Mikroarchitektur des Multiprozessors PS-2000M dargestellt.

    Sie enthält eine gemeinsame Steuereinheit (OUU; ÎÓÓ) , m Verarbeitungseinheiten( UO; ÓÎ) und eine Kommunikationseinheit  (UK; (ÓÊ). Jede UO.j , mit  j {1,2,...,ò}, enthält n Prozessoreinheiten (PE;ÏÝ) , die Bank der dynamischen Speicher Ì.j - mit Zugriffe zu Zeilen mit n 32 Bit Worden, den Direktzugriffs- Kanal DMA.j zur Speicherbank M.j ,  den Eingangspuffer MW.j der Speicherzeile M.j, der n 32-Bit Register MW.1, MW.2, ..., MW.n hat, MR.j , den Ausgangspuffer der Speicherzeile  M.j, der  n 32-Bit Register ÌR..1, ÌR.2, ..., ÌR.n hat,  die lokale Adressiereinheit L.j zur Speicherzeile M.j . Jedes Prozessorelement PEi ( ÏÝi) , mit i {1,2,...,n}, enthält eine Arithmetik- Logikeinheit Bl; (Bë) mit Registern universeller Bestimmung und eine Aktivierungseinheit Ti

    Die Steuereinheit OUU enthält : H - Speicherbank mit freiem Zugriff, HW - Eingangspuffer der Speicherbank H ,  HR - der Ausgangspuffer der Speicherbank H,  HL — die Adresseinrichtung zur Speicherbank,  HW HW - eine Arithmetik/ Logikeinheit mit universellen Registern, und O- der Befehlsspeicher. -

    Die Kommunikationseinheit UK (ÓÊ) enthält den "öffentlichen " Kanal und den Ringkanal . Der öffentliche Kanal enthält m Register K.j und das Register KU. K.j ist mit UO,j verbunden und KU mit der OUU . Der öffentliche Kanal ist für die Übertragung gemeinsamer Dateien an alle PE zuständig, entweder aus dem OUU, oder aus einer . beliebigen aktivierten PE. Der Ringkanal besteht aus m Ringen BO.j . Jeder Ring BO.j besteht aus n- Registern B.1, B.2 ,... B,n . 

    Der Eingang jeder Einheit Bl ist mit den Registern  ÌR.i, Ò.i, L.j und  Ê.j. verbunden , sein Ausgang mit MW.i, Â.i,L.j und K.j. Die Auswahl der PE,i  die sich mit dem für alle gleichen PE verbindet , die zum UO führen, zu den Registern   L.j und K.j erfolgt mittels der  Aktivierungs- Einheit T.i..

    In Bild 5 ist die  Befehlsstruktur bezeigt, die aus Feldern besteht , die die gleichzeitige Arbeit der Vektor-bearbeitenden  Funktionselemente  Ò, S, Ì oder L, DÌÀ, des Ringes oder der Magistralen- Kanäle Ê der Skalare- bearbeitenden Funktionseinheiten  Í oder HL, W,G.

    Gegenwärtig begrenzt die Durchsatzleistung der Speicher wesentlich die Effektivität von Multicore Rechnersystemen. In der Mikroarchitektur PS-2000M erhöht sich die Durchsatzleistung des Speichers V wesentlich, da sie proportional zu allen Hauptparametern ist , die die Parallelität und die Geschwindigkeit der Architektur bestimmen :

    V = p*t*r*f,

    wobei  t - die Zahl der lokalen Banken des dynamischen Speichers  Ì.j in t Verarbeitungseinheiten ist, p-  die Zahl der Worte in der Zeile  der Speicherbank  M.j, r - die Bitlänge des Wortes, f- die interne Taktfrequenz des Speichers im Chip .

    Die Durchsatzleistung des Speichers wächst wesentlich, sowohl dank der deutlichen Erhöhung der Zahl der gleichzeitig gelesenen Informations- Bit, als auch dank der Erhöhung der Taktfrequenz des Speichers. So beträgt für t=64, p=8, r=32, f=1000 Mhz die Durchsatzleistung  160 ÒBit/s. Die Zugriffszeit zum dynamischen Speicher wird konstant dank der Adressierung nur der Zeilen der Speicherbank und ermöglicht eine synchrone Arbeitsweise.

    Es ist leicht zu sehen, dass die funktionellen Möglichkeiten des programmtechnisch gesteuerten Speichers in der PS-2K - Architektur, das auf einem Chip sitzt, um ein Vielfaches die Möglichkeiten eines Buffer- Cache- Speichers übersteigen, welcher auf dem Chip des Mikroprozessors, auch bei Multicore - Prozessoren, sitzt.

    Die Erweiterung durch Aneinanderreihung [Kaskadierung] des Multiprozessors PS-2000M wird gewährleistet durch die Möglichkeit der programmierten Konfigurierung der Ring- und der "öffentlichen" Kanäle, was übrigens auch die Möglichkeit bietet, auch einzelne Verarbeitungseinheiten abzuschalten  und dadurch den Grad der Ausbeute der Chips zu erhöhen. 

    Die der Multiprozessor- Architektur PS-2000 zugrunde gelegten Architektur- Prinzipien sind heute besonders aktuell. Damals erlaubten sie bei einer für heutige Verhältnisse sehr geringen Taktfrequenz  von  3 ÌHz von einer Struktur mit 64 parallel arbeitenden PE des PS-2000 eine Spitzenleistung von 200 ÌIPS (oder 50 ÌFLOPS ), was sich durch Multiplikation der Taktfrequenz mit der Zahl der parallelen PE ergibt. Dabei arbeitete der Verbund aus 64 langsamen (3 MHz) PE wie ein kompakter "superschneller" Prozessor mit einer Frequenz von 200 MHz. Es wäre hinzuzufügen, dass die nahe 100% betragende mittlere Auslastung aller PE unter realen Anwendungen eine mittlere Leistung ermöglichte, die nahe an der Spitzenleistung lag, was bei den wichtigsten Industrie-Aufgaben der Datenverarbeitung der Fall war.

    Gegenwärtig könnte die Realisierung der Mikroarchitektur des PS-2000M in einem Chip mit einer Taktfrequenz von 2 GHz eine Leistung von mehr als  120 GIPS bringen, oder umgerechnet einen Prozessor mit einer Frequenz von 120 GHz.

    Die Existenz einer großen Reserve an Gates  die heute auf Mikroelektronik-Chips möglich ist, gibt die Möglichkeit, die Produktivität der Arithmetik- Befehle mit Gleitkommaformat deutlich zu erhöhen, was es erlaubt, die Produktivität eines einzelnen Chips mit 64 PE mit ca.  120 GFLOPS abzuschätzen.

    Die Erweiterbarkeit [Kaskadierung] der Architektur hinsichtlich der Zahl der PE in der PS-2000 Architektur ist proportional dem Zuwachs von Gates auf dem Chip. Mit den angegebenen Annahmen kann die Leistung die Größe von ca. 1 TFLOPS bei 512 PE auf einem Chip erreichen.

    Eine Bauelementebasis aus Multicor- Chips mit PS-2000 Architektur eröffnet die Möglichkeit der Schaffung von programmtechnisch rekonfigurierbaren Parallel- Pipeline- Systemen mit superhoher Leistung sowohl für speziellen Bedarf, als auch für allgemeine Anwendung.    Mit derartigen Chips kann man eine Leistung von 1 PFLOPS in wenigen Schränken erreichen.

    Der Einsatz von dynamischen Speichern ermöglicht den Energieverbrauch auf einem PS-2000M -Chip zu senken. Der Einsatz einer massiv- parallelen kaskadierbaren SIMD- Architektur für die Organisation der Rechenoperationen und eines verteilten Speichers ermöglicht es , durch Änderung der internen Taktfrequenz den Quotienten aus Rechnen- Leistung und Energieverbrauch zu regulieren, aber auch mittels eines Gleichgewichtes [ Balance] zwischen der Apparatur für Rechenoperationen und Speicher. Das macht die PS-2000M-Architektur leicht anpassbar bzgl. des Energieverbrauch und ermöglicht deren Einsatz in mobilen Geräten.