|

Greenplum Databaseはオープンソーステクノロジを基盤としたDWH用データベースエンジンです。PostgreSQLにシェアード・ナッシング・アーキテクチャを拡張することで、複数のPostgreSQLデータベースインスタンス間の通信を可能にし、システムを1つの論理データベースとして動作させます。そのデータベースに対する並行クエリ実行、並列データロードで、大規模データウェアハウスを構築できる様々な機能をサポートしています。
またGreenplum Databaseは巨大ポータルサイトで分散処理アーキテクチャとして証明されているMap Reduceを実装し、クエリだけではなくプログラムの並列処理も可能にすることで開発リードタイムを短縮します。
これによりキーワード分析やコンテンツ索引化などさまざまなアプリケーションで膨大な非構造化データの分析も投資を抑えて高速化させることができます。
Greenplum Databaseアーキテクチャ
複数の"セグメントホスト"を組み合わせ、単一データベースとして稼動

→拡大図はこちら
Shared Nothing Architecture
- 単一のデータレコードを複数サーバに分散配置
- 各サーバが並行してDB処理を行うことで、ディスクI/OやCPUに対するワークロードを分散し、スケーラビリティを確保
- 分散されたセグメントに対し並列にデータロード
MapReduce機能
- クエリだけではなく、上位のアプリケーションの並列処理を実現
- 大量な非構造化データの処理、分析
Greenplum Database Data Distribution
- ハッシュアルゴリズムを用い、レコードをセグメントインスタンスへ分散配置することで最も均一にデータを分散
Greenplum Database Execute Queries
- マスタインスタンスがクエリ処理に対して実行プランを作成
- 送られたプランに従って、各セグメントが各々管理するデータを処理し、結果を返す
業界標準インターフェスを幅広くサポート
オープン・ハードウェアの利用
- X86+RHEL、Open Solaris上で稼動
 |