unit 2 Data warehousing and on-line analytical processing notes, polytechnic 5th sem cs notes

 Hello Everyone, 

Here is just revision notes for CS 50031(Same as CI/IT 50031) Course Title Data Sciences: Data Warehousing and Data Mining.
Hope this will help you.
BEst of luck for your Exams

2.1 Data Warehouse Basic Concepts (डेटा वेयरहाउस बुनियादी अवधारणाएँ)

English:

A Data Warehouse (DW) is a large, centralized repository that stores integrated data from multiple sources, designed specifically for reporting and analysis purposes. It is structured for query processing and provides an environment for decision support systems.

Key characteristics of a Data Warehouse:

  1. Subject-Oriented: The data is organized around key business subjects, such as customers, sales, or products.
  2. Integrated: Data from different sources is consolidated and cleaned to make it consistent.
  3. Time-Variant: Data is stored over time, allowing for historical analysis.
  4. Non-Volatile: Once entered, the data is not changed or deleted, ensuring that historical data is maintained.

Components of a Data Warehouse:

  1. Data Source Layer: Where data is extracted from operational databases.
  2. ETL Layer (Extract, Transform, Load): The process of extracting, transforming, and loading data into the data warehouse.
  3. Data Storage Layer: The data warehouse itself, where all integrated data is stored.
  4. Data Presentation Layer: The interface where users can interact with the data (e.g., reporting tools, OLAP systems).

Hindi:

डेटा वेयरहाउस एक बड़ा, केंद्रीकृत भंडारण है जो विभिन्न स्रोतों से एकत्रित डेटा को संग्रहीत करता है, जो विशेष रूप से रिपोर्टिंग और विश्लेषण उद्देश्यों के लिए डिज़ाइन किया गया है। यह क्वेरी प्रोसेसिंग के लिए संरचित है और निर्णय समर्थन प्रणालियों (Decision Support Systems) के लिए एक वातावरण प्रदान करता है।

डेटा वेयरहाउस की मुख्य विशेषताएँ:

  1. विषय-आधारित: डेटा प्रमुख व्यापारिक विषयों जैसे ग्राहक, बिक्री या उत्पादों के चारों ओर व्यवस्थित होता है।
  2. एकीकृत: विभिन्न स्रोतों से डेटा को एकत्रित और साफ किया जाता है ताकि यह संगत हो सके।
  3. समय-आधारित: डेटा को समय के साथ संग्रहीत किया जाता है, जिससे ऐतिहासिक विश्लेषण संभव होता है।
  4. गैर-परिवर्तनीय: एक बार डेटा भंडारित होने के बाद उसे बदला या हटाया नहीं जाता, जिससे ऐतिहासिक डेटा संरक्षित रहता है।

डेटा वेयरहाउस के घटक:

  1. डेटा स्रोत परत: जहां से डेटा ऑपरेशनल डेटाबेस से निकाला जाता है।
  2. ETL परत (Extract, Transform, Load): डेटा को निकालने, रूपांतरित करने, और डेटा वेयरहाउस में लोड करने की प्रक्रिया।
  3. डेटा भंडारण परत: स्वयं डेटा वेयरहाउस, जहां सभी एकीकृत डेटा संग्रहीत होता है।
  4. डेटा प्रस्तुति परत: वह इंटरफेस जहां उपयोगकर्ता डेटा के साथ इंटरैक्ट कर सकते हैं (जैसे रिपोर्टिंग उपकरण, OLAP सिस्टम)।

2.2 Data Warehouse Modeling - Data Cube and OLAP (डेटा वेयरहाउस मॉडलिंग - डेटा क्यूब और OLAP)

English:

Data Warehouse Modeling refers to the design and structure of the data warehouse. Two important techniques used in data warehouse modeling are Data Cube and OLAP (Online Analytical Processing).

  1. Data Cube:

    • The data cube is a multidimensional representation of data, which enables the analysis of data across multiple dimensions (such as time, product, geography).
    • It allows for slicing, dicing, rolling up, and drilling down data.
    • Example: A sales data cube could have dimensions such as Time (Year, Month, Day), Product (Category, Brand), and Location (Region, Store).

    Operations on Data Cube:

    • Slicing: Looking at a specific slice of data (e.g., sales for a specific month).
    • Dicing: Analyzing data from multiple dimensions (e.g., sales in a specific region for a particular product).
    • Rolling Up: Summarizing data along a dimension (e.g., monthly sales to yearly sales).
    • Drilling Down: Moving from summarized data to more detailed data (e.g., from annual sales to daily sales).
  2. OLAP (Online Analytical Processing):

    • OLAP is a category of systems that enable users to analyze data from multiple perspectives using the data cube.
    • OLAP systems support operations such as slice, dice, drill down, and roll up to perform complex analysis.
    • MOLAP (Multidimensional OLAP): Data is pre-aggregated in cubes for fast query response.
    • ROLAP (Relational OLAP): Data is stored in relational databases and transformed into multidimensional form during query processing.

Hindi:

डेटा वेयरहाउस मॉडलिंग डेटा वेयरहाउस के डिज़ाइन और संरचना को संदर्भित करती है। डेटा वेयरहाउस मॉडलिंग में उपयोग की जाने वाली दो महत्वपूर्ण तकनीकें हैं डेटा क्यूब और OLAP (ऑनलाइन विश्लेषणात्मक प्रसंस्करण)।

  1. डेटा क्यूब:

    • डेटा क्यूब डेटा का एक बहु-आयामी प्रतिनिधित्व है, जो विभिन्न आयामों (जैसे समय, उत्पाद, भौगोलिक क्षेत्र) के पार डेटा का विश्लेषण करने की सुविधा प्रदान करता है।
    • यह डेटा को स्लाइस, डाइस, रोल अप, और ड्रिल डाउन करने की अनुमति देता है।
    • उदाहरण: एक बिक्री डेटा क्यूब में आयाम हो सकते हैं जैसे समय (वर्ष, माह, दिन), उत्पाद (श्रेणी, ब्रांड), और स्थान (क्षेत्र, स्टोर)।

    डेटा क्यूब पर क्रियाएँ:

    • स्लाइसिंग: डेटा के एक विशिष्ट टुकड़े को देखना (जैसे, एक विशिष्ट माह के लिए बिक्री)।
    • डाइसिंग: विभिन्न आयामों से डेटा का विश्लेषण करना (जैसे, एक विशिष्ट क्षेत्र में एक विशेष उत्पाद की बिक्री)।
    • रोलिंग अप: एक आयाम के साथ डेटा को संक्षेपित करना (जैसे, मासिक बिक्री से वार्षिक बिक्री तक)।
    • ड्रिलिंग डाउन: संक्षेपित डेटा से अधिक विस्तृत डेटा की ओर बढ़ना (जैसे, वार्षिक बिक्री से दैनिक बिक्री तक)।
  2. OLAP (ऑनलाइन विश्लेषणात्मक प्रसंस्करण):

    • OLAP वह प्रणाली है जो उपयोगकर्ताओं को डेटा को विभिन्न दृष्टिकोणों से विश्लेषण करने की सुविधा देती है, डेटा क्यूब का उपयोग करके।
    • OLAP प्रणाली क्रियाएँ जैसे स्लाइस, डाइस, ड्रिल डाउन, और रोल अप का समर्थन करती हैं ताकि जटिल विश्लेषण किया जा सके।
    • MOLAP (मल्टीडायमेंशनल OLAP): डेटा को पहले से क्यूब्स में संक्षेपित किया जाता है ताकि त्वरित क्वेरी प्रतिक्रिया प्राप्त हो सके।
    • ROLAP (रिलेशनल OLAP): डेटा को रिलेशनल डेटाबेस में संग्रहित किया जाता है और क्वेरी प्रसंस्करण के दौरान बहु-आयामी रूप में परिवर्तित किया जाता है।

2.3 Data Warehouse Design and Usage (डेटा वेयरहाउस डिज़ाइन और उपयोग)

English:

Data Warehouse Design refers to the structure and organization of the data warehouse to ensure that it meets the needs of users and facilitates easy querying and analysis.

  1. Design Approaches:

    • Top-Down Approach: Data warehouse design starts with creating an enterprise-wide data warehouse, followed by building data marts for specific business areas.
    • Bottom-Up Approach: Data marts are created first, and later integrated into a larger data warehouse.
    • Hybrid Approach: Combines both top-down and bottom-up approaches.
  2. Star Schema:

    • It is a common data modeling technique used in data warehouses, consisting of a central fact table connected to multiple dimension tables.
    • Example: A sales fact table might be connected to dimension tables like Time, Product, and Customer.
  3. Usage:

    • Data warehouses are used for generating business intelligence reports, supporting decision-making processes, performing trend analysis, and making forecasts.

Hindi:

डेटा वेयरहाउस डिज़ाइन का मतलब है डेटा वेयरहाउस की संरचना और संगठन, ताकि यह उपयोगकर्ताओं की आवश्यकताओं को पूरा कर सके और आसान क्वेरी और विश्लेषण को सुनिश्चित कर सके।

  1. डिज़ाइन दृष्टिकोण:

    • टॉप-डाउन दृष्टिकोण: डेटा वेयरहाउस डिज़ाइन में पहले एक एंटरप्राइज़-व्यापी डेटा वेयरहाउस बनाया जाता है, फिर विशिष्ट व्यापार क्षेत्रों के लिए डेटा मार्ट्स बनाए जाते हैं।
    • बॉटम-अप दृष्टिकोण: पहले डेटा मार्ट्स बनाए जाते हैं, और बाद में उन्हें बड़े डेटा वेयरहाउस में एकीकृत किया जाता है।
    • हाइब्रिड दृष्टिकोण: टॉप-डाउन और बॉटम-अप दृष्टिकोणों को मिलाकर।
  2. स्टार स्कीमा:

    • यह डेटा वेयरहाउस में उपयोग की जाने वाली एक सामान्य डेटा मॉडलिंग तकनीक है, जिसमें एक केंद्रीय फैक्ट टेबल को कई डायमेंशन टेबल्स से जोड़ा जाता है।
    • उदाहरण: एक बिक्री फैक्ट टेबल को टाइम, प्रोडक्ट और कस्टमर जैसे डायमेंशन टेबल्स से जोड़ा जा सकता है।
  3. उपयोग:

    • डेटा वेयरहाउस का उपयोग व्यापार बुद्धिमत्ता रिपोर्ट बनाने, निर्णय समर्थन प्रक्रियाओं में, रुझान विश्लेषण करने और भविष्यवाणियाँ करने में किया जाता है।

2.4 Data Warehouse Implementation (डेटा वेयरहाउस कार्यान्वयन)

English:

Data Warehouse Implementation involves the practical steps taken to build and deploy the data warehouse. The implementation process involves:

  1. ETL Process: Extracting data from various sources, transforming it into a format suitable for analysis, and loading it into the warehouse.
  2. Data Modeling: Designing the data schema (star schema, snowflake schema).
  3. Database Design: Defining tables, relationships, and keys in the database to store data efficiently.
  4. Indexing and Aggregation: Optimizing query performance by creating indexes and pre-aggregated data.
  5. User Interface: Creating dashboards, reports, and OLAP interfaces for users to interact with the data.

Hindi:

डेटा वेयरहाउस कार्यान्वयन में डेटा वेयरहाउस को बनाने और तैनात करने के लिए उठाए गए व्यावहारिक कदम शामिल हैं। कार्यान्वयन प्रक्रिया में निम्नलिखित शामिल हैं:

  1. ETL प्रक्रिया: विभिन्न स्रोतों से डेटा निकालना, इसे विश्लेषण के लिए उपयुक्त प्रारूप में रूपांतरित करना, और इसे वेयरहाउस में लोड करना।
  2. डेटा मॉडलिंग: डेटा स्कीमा डिज़ाइन करना (स्टार स्कीमा, स्नोफ्लेक स्कीमा)।
  3. डेटाबेस डिज़ाइन: डेटा को प्रभावी ढंग से संग्रहित करने के लिए टेबल्स, संबंधों, और कुंजियों को परिभाषित करना।
  4. सूचकांक और संक्षेपण: क्वेरी प्रदर्शन को अनुकूलित करने के लिए सूचकांक और पहले से संक्षेपित डेटा बनाना।
  5. उपयोगकर्ता इंटरफ़ेस: उपयोगकर्ताओं को डेटा के साथ इंटरैक्ट करने के लिए डैशबोर्ड, रिपोर्ट, और OLAP इंटरफ़ेस बनाना।

2.5 Data Generalization by Attribute-Oriented Induction (एट्रिब्यूट-उन्मुख प्रेरणा द्वारा डेटा सामान्यीकरण)

English:

Data generalization involves summarizing detailed data into higher levels of abstraction. Attribute-Oriented Induction (AOI) is a technique used to generalize data by analyzing the attributes and deriving generalized patterns.

Steps in Attribute-Oriented Induction:

  1. Attribute Selection: Identify relevant attributes to generalize.
  2. Generalization: Replace specific attribute values with more general categories (e.g., replacing "New York" with "Northeast Region").
  3. Pattern Extraction: Derive patterns or rules from the generalized data.

Hindi:

डेटा सामान्यीकरण में विस्तृत डेटा को उच्च स्तर की अमूर्तता में संक्षेपित करना शामिल होता है। एट्रिब्यूट-उन्मुख प्रेरणा (AOI) एक तकनीक है जो डेटा को सामान्य बनाने के लिए एट्रिब्यूट्स का विश्लेषण करती है और सामान्यीकृत पैटर्न्स निकालती है।

एट्रिब्यूट-उन्मुख प्रेरणा में कदम:

  1. एट्रिब्यूट चयन: सामान्यीकरण करने के लिए प्रासंगिक एट्रिब्यूट्स की पहचान करना।
  2. सामान्यीकरण: विशिष्ट एट्रिब्यूट मानों को अधिक सामान्य श्रेणियों से बदलना (जैसे, "न्यू यॉर्क" को "नॉर्थईस्ट क्षेत्र" से बदलना)।
  3. पैटर्न निष्कर्षण: सामान्यीकृत डेटा से पैटर्न या नियम निकालना।

2.6 Data Cube Computation (डेटा क्यूब गणना)

English:

Data Cube Computation is the process of creating a multidimensional cube by aggregating data from different dimensions. It involves computing measures (e.g., sum, average, count) over various combinations of dimensions.

Steps in Data Cube Computation:

  1. Cube Construction: Define the dimensions and measures for the cube.
  2. Data Aggregation: Aggregate data by performing operations like summing, averaging, or counting over dimensions.
  3. Querying the Cube: Perform OLAP operations (slice, dice, roll-up, drill-down) on the cube.

Hindi:

डेटा क्यूब गणना वह प्रक्रिया है जिसमें विभिन्न आयामों से डेटा को संकलित करके एक बहु-आयामी क्यूब तैयार किया जाता है। इसमें विभिन्न आयामों के संयोजनों पर माप (जैसे, योग, औसत, गिनती) की गणना करना शामिल होता है।

डेटा क्यूब गणना के कदम:

  1. क्यूब निर्माण: क्यूब के लिए आयाम और माप परिभाषित करना।
  2. डेटा संकलन: आयामों पर योग, औसत या गिनती जैसी क्रियाएँ करके डेटा को संकलित करना।
  3. क्यूब पर क्वेरी करना: क्यूब पर OLAP क्रियाएँ (स्लाइस, डाइस, रोल-अप, ड्रिल-डाउन) करना।

Post a Comment

1 Comments