Hello Everyone,
Here is just revision notes for CS 50031(Same as CI/IT 50031)
Course Title Data Sciences: Data Warehousing and Data Mining.
Hope this will help you.
BEst of luck for your Exams.
1.1 Motivation (प्रेरणा)
English:
Data mining is driven by the need to extract valuable information from large datasets. With the explosion of data in fields like business, healthcare, and science, organizations are motivated to discover patterns, trends, and correlations that can help make informed decisions. This helps in predicting future trends and making data-driven strategies.
Hindi:
डाटा माइनिंग का मुख्य उद्देश्य बड़े डेटासेट से मूल्यवान जानकारी निकालना है। व्यापार, स्वास्थ्य, और विज्ञान जैसे क्षेत्रों में डाटा के विस्फोट के साथ, संगठनों को पैटर्न, रुझान और सहसंबंधों को खोजने की प्रेरणा मिलती है, जो सूचित निर्णय लेने में मदद कर सकते हैं। इससे भविष्यवाणी करने और डेटा-आधारित रणनीतियाँ बनाने में मदद मिलती है।
1.2 Importance (महत्व)
English:
Data mining helps in identifying hidden patterns that traditional methods may not detect. It supports decision-making, predictive analytics, and can increase profitability in industries like finance, retail, healthcare, etc. It is important for improving operational efficiency, providing competitive advantages, and making informed predictions.
Hindi:
डाटा माइनिंग छुपे हुए पैटर्नों की पहचान करने में मदद करता है, जिन्हें पारंपरिक तरीके नहीं पहचान सकते। यह निर्णय लेने, भविष्यवाणी विश्लेषण, और वित्त, खुदरा, स्वास्थ्य देखभाल जैसी उद्योगों में लाभप्रदता बढ़ाने में मदद करता है। यह कार्यात्मक दक्षता सुधारने, प्रतिस्पर्धात्मक लाभ प्रदान करने और सूचित भविष्यवाणियाँ करने के लिए महत्वपूर्ण है।
1.3 Definitions (परिभाषाएँ)
English:
Data Mining is the process of discovering patterns, trends, and useful information from large datasets using algorithms, statistical models, and machine learning techniques.
Hindi:
डाटा माइनिंग एक प्रक्रिया है जिसमें बड़ी डेटासेट्स से पैटर्न, रुझान और उपयोगी जानकारी को एल्गोरिदम, सांख्यिकीय मॉडलों और मशीन लर्निंग तकनीकों का उपयोग करके खोजा जाता है।
1.4 Kind of Data (डाटा के प्रकार)
English:
Data can be of different types such as:
- Structured Data: Data that is organized into rows and columns, like databases.
- Unstructured Data: Data that is not organized, like text documents, emails, videos, etc.
- Semi-structured Data: Data that has some organization but not as strict as structured data, e.g., XML or JSON files.
Hindi:
डाटा के विभिन्न प्रकार हो सकते हैं जैसे:
- संरचित डाटा: डाटा जिसे पंक्तियों और स्तंभों में व्यवस्थित किया जाता है, जैसे डेटाबेस।
- असंरचित डाटा: डाटा जिसे व्यवस्थित नहीं किया जाता, जैसे टेक्स्ट दस्तावेज़, ईमेल, वीडियो आदि।
- अर्ध-संरचित डाटा: डाटा जिसमें कुछ संगठन होता है, लेकिन संरचित डाटा जितना सख्त नहीं होता, जैसे XML या JSON फ़ाइलें।
1.5 Data Mining Functionalities (डाटा माइनिंग कार्यक्षमताएँ)
English:
The main functionalities of data mining are:
- Classification: Assigning items to predefined categories.
- Clustering: Grouping similar items together.
- Regression: Predicting continuous values.
- Association: Finding relationships between variables.
Hindi:
डाटा माइनिंग की मुख्य कार्यक्षमताएँ हैं:
- वर्गीकरण: आइटम्स को पहले से निर्धारित श्रेणियों में वर्गीकृत करना।
- क्लस्टरिंग: समान आइटम्स को एक साथ समूहित करना।
- रिग्रेशन: निरंतर मानों की भविष्यवाणी करना।
- एसोसिएशन: परिवर्तनीयों के बीच संबंधों की पहचान करना।
1.6 Kinds of Patterns (पैटर्न के प्रकार)
English:
Patterns in data mining can be of several types:
- Frequent Patterns: Repeated patterns in the dataset.
- Sequential Patterns: Patterns in a sequence over time.
- Association Rules: If-then relationships between variables.
- Outliers: Data points that do not follow the expected pattern.
Hindi:
डाटा माइनिंग में पैटर्न के विभिन्न प्रकार हो सकते हैं:
- आवश्यक पैटर्न: डाटा सेट में बार-बार होने वाले पैटर्न।
- क्रमिक पैटर्न: समय के साथ एक अनुक्रम में पैटर्न।
- एसोसिएशन रूल्स: परिवर्तनीयों के बीच "यदि-तो" संबंध।
- आउटलायर्स: डेटा बिंदु जो अपेक्षित पैटर्न का पालन नहीं करते।
1.7 Classification of Data Mining Systems (डाटा माइनिंग सिस्टम्स का वर्गीकरण)
English:
Data mining systems can be classified based on:
- Data Type: Text, time series, spatial, multimedia, etc.
- Data Mining Techniques: Classification, clustering, regression, etc.
- Application Areas: E-commerce, healthcare, finance, etc.
Hindi:
डाटा माइनिंग सिस्टम्स को निम्नलिखित आधार पर वर्गीकृत किया जा सकता है:
- डाटा प्रकार: टेक्स्ट, समय श्रृंखला, स्थानिक, मल्टीमीडिया आदि।
- डाटा माइनिंग तकनीक: वर्गीकरण, क्लस्टरिंग, रिग्रेशन आदि।
- आवेदन क्षेत्र: ई-कॉमर्स, स्वास्थ्य देखभाल, वित्त आदि।
1.8 Data Mining Task Primitives (डाटा माइनिंग कार्य प्राइमिटिव्स)
English:
Data mining tasks are divided into two main categories:
- Descriptive Tasks: Describe the data and extract patterns.
- Predictive Tasks: Predict future trends or behaviors.
Hindi:
डाटा माइनिंग कार्यों को दो मुख्य श्रेणियों में विभाजित किया जाता है:
- वर्णनात्मक कार्य: डाटा का वर्णन करना और पैटर्न निकालना।
- भविष्यवाणी कार्य: भविष्य के रुझानों या व्यवहारों की भविष्यवाणी करना।
1.9 Integration of Data Mining System with a Database or Data Warehouse System (डेटा माइनिंग सिस्टम का डेटाबेस या डेटा वेयरहाउस सिस्टम से एकीकरण)
English:
Data mining systems often integrate with databases or data warehouses to extract, store, and analyze large datasets. This integration allows for the efficient retrieval of data and enhances the ability to perform complex queries and analysis.
Hindi:
डाटा माइनिंग सिस्टम अक्सर डेटाबेस या डेटा वेयरहाउस से एकीकृत होते हैं ताकि बड़े डेटासेट्स को निकालने, संग्रहित करने और विश्लेषण करने में मदद मिल सके। यह एकीकरण डेटा की प्रभावी पुनः प्राप्ति की अनुमति देता है और जटिल क्वेरी और विश्लेषण करने की क्षमता बढ़ाता है।
1.10 Major Issues in Data Mining (डाटा माइनिंग में प्रमुख समस्याएँ)
English:
Some of the major issues in data mining include:
- Data Quality: Inaccurate, incomplete, or inconsistent data can affect results.
- Scalability: Handling large datasets efficiently.
- Privacy: Protecting sensitive information during analysis.
- Interpretability: Making the output of data mining understandable.
Hindi:
डाटा माइनिंग में कुछ प्रमुख समस्याएँ हैं:
- डाटा गुणवत्ता: गलत, अधूरी, या असंगत डाटा परिणामों को प्रभावित कर सकती है।
- स्केलेबिलिटी: बड़े डेटासेट्स को प्रभावी ढंग से संभालना।
- गोपनीयता: विश्लेषण के दौरान संवेदनशील जानकारी की सुरक्षा।
- व्याख्यायिता: डाटा माइनिंग के परिणामों को समझने योग्य बनाना।
1.11 Types of Data Sets and Attribute Values (डेटा सेट्स और एट्रिब्यूट वैल्यूज के प्रकार)
English:
Data sets consist of rows (records) and columns (attributes). These attributes can have different types of values, such as:
- Nominal: Categories with no inherent order (e.g., color, gender).
- Ordinal: Categories with a clear order (e.g., ranks, education levels).
- Interval: Numerical data with meaningful intervals but no true zero (e.g., temperature in Celsius).
- Ratio: Numerical data with a true zero (e.g., height, weight).
Hindi:
डेटा सेट्स पंक्तियों (रिकॉर्ड्स) और कॉलम्स (एट्रिब्यूट्स) से बने होते हैं। इन एट्रिब्यूट्स में विभिन्न प्रकार के मान हो सकते हैं, जैसे:
- नाममात्र: श्रेणियाँ जिनमें कोई अंतर्निहित क्रम नहीं होता (जैसे, रंग, लिंग)।
- क्रमबद्ध: श्रेणियाँ जिनमें स्पष्ट क्रम होता है (जैसे, रैंक, शिक्षा स्तर)।
- इंटरवल: संख्यात्मक डेटा जिसमें अर्थपूर्ण अंतराल होते हैं, लेकिन कोई वास्तविक शून्य नहीं होता (जैसे, सेल्सियस में तापमान)।
- अनुपात: संख्यात्मक डेटा जिसमें वास्तविक शून्य होता है (जैसे, ऊंचाई, वजन)।
1.12 Basic Statistical Descriptions of Data (डेटा के मौलिक सांख्यिकीय विवरण)
1.12.1 Data (डाटा)
English:
Basic statistics describe the central tendency, dispersion, and shape of the data distribution. Common measures include:
- Mean: The average value of the dataset.
- Median: The middle value when the data is sorted.
- Mode: The most frequent value in the dataset.
- Variance: Measures how far the data points are from the mean.
- Standard Deviation: The square root of variance, showing the spread of the data.
Hindi:
मौलिक सांख्यिकी डेटा के केंद्रीय प्रवृत्ति, प्रसार और वितरण के रूप को वर्णित करती है। सामान्य मापों में शामिल हैं:
- माध्य: डेटा सेट का औसत मान।
- माध्यिका: जब डेटा को क्रमबद्ध किया जाता है तो मध्य मान।
- मोड: डेटा सेट में सबसे बार आने वाला मान।
- विकरण: यह मापता है कि डेटा बिंदु माध्य से कितनी दूर हैं।
- मानक विचलन: विकरण का वर्गमूल, जो डेटा के फैलाव को दिखाता है।
1.12.2 Data Visualization (डेटा विज़ुअलाइजेशन)
English:
Data visualization refers to representing data in graphical formats such as charts, graphs, and plots. This helps in understanding trends, outliers, and patterns in data more easily. Common tools for data visualization include:
- Bar charts
- Pie charts
- Line graphs
- Scatter plots
Hindi:
डेटा विज़ुअलाइजेशन का मतलब डेटा को ग्राफिकल प्रारूपों जैसे चार्ट, ग्राफ़ और प्लॉट्स में प्रस्तुत करना है। यह रुझानों, आउट्लायर्स और पैटर्न को समझने में मदद करता है। डेटा विज़ुअलाइजेशन के लिए सामान्य उपकरण हैं:
- बार चार्ट्स
- पाई चार्ट्स
- रेखीय ग्राफ़
- स्कैटर प्लॉट्स
1.12.3 Measuring Data Similarity (डेटा समानता मापना)
English:
Measuring similarity between data points is important in clustering, classification, and association tasks. Common similarity measures include:
- Euclidean Distance: Measures the straight-line distance between two points in space.
- Cosine Similarity: Measures the cosine of the angle between two vectors, often used in text mining.
- Jaccard Similarity: Measures the similarity between two sets by comparing the intersection over the union.
Hindi:
डेटा बिंदुओं के बीच समानता मापना क्लस्टरिंग, वर्गीकरण और एसोसिएशन कार्यों में महत्वपूर्ण है। सामान्य समानता मापों में शामिल हैं:
- यूक्लिडियन दूरी: दो बिंदुओं के बीच सीधी रेखा की दूरी मापता है।
- कोसाइन समानता: दो वेक्टरों के बीच कोण का कोसाइन मापता है, जो अक्सर टेक्स्ट माइनिंग में उपयोग होता है।
- जैकरड समानता: दो सेटों के बीच समानता मापता है, जिसमें उनके इंटरसेक्शन और यूनियन की तुलना की जाती है।
1.13 PREPROCESSING (प्रीप्रोसेसिंग)
1.13.1 Data Quality (डेटा गुणवत्ता)
English:
Data quality refers to the accuracy, completeness, consistency, and reliability of data. Poor data quality can lead to incorrect analysis and decisions. Ensuring high data quality is essential in data mining processes.
Hindi:
डेटा गुणवत्ता का मतलब है डेटा की सटीकता, पूर्णता, स्थिरता और विश्वसनीयता। खराब डेटा गुणवत्ता गलत विश्लेषण और निर्णयों का कारण बन सकती है। डेटा माइनिंग प्रक्रियाओं में उच्च डेटा गुणवत्ता सुनिश्चित करना आवश्यक है।
1.13.2 Major Tasks in Data Preprocessing (डेटा प्रीप्रोसेसिंग में प्रमुख कार्य)
English:
Preprocessing tasks aim to clean and prepare data for analysis. These tasks include:
- Data Cleaning: Removing inconsistencies, missing values, and noise.
- Data Integration: Combining data from multiple sources.
- Data Transformation: Normalizing or scaling data.
- Data Reduction: Reducing the volume of data while preserving essential information.
Hindi:
प्रीप्रोसेसिंग कार्यों का उद्देश्य डेटा को साफ करना और विश्लेषण के लिए तैयार करना है। इन कार्यों में शामिल हैं:
- डेटा सफाई: असंगतियों, गायब मानों और शोर को हटाना।
- डेटा एकीकरण: विभिन्न स्रोतों से डेटा को जोड़ना।
- डेटा रूपांतरण: डेटा का सामान्यीकरण या स्केलिंग।
- डेटा संकुचन: डेटा के आयतन को घटाना जबकि आवश्यक जानकारी को बनाए रखना।
1.13.3 Data Reduction (डेटा संकुचन)
English:
Data reduction techniques aim to reduce the size of datasets while maintaining the integrity of the information. Techniques include:
- Dimensionality Reduction: Reducing the number of attributes.
- Numerosity Reduction: Reducing the volume of data through techniques like aggregation or sampling.
Hindi:
डेटा संकुचन तकनीकें डेटासेट्स के आकार को घटाने का उद्देश्य रखती हैं, जबकि जानकारी की अखंडता बनाए रखती हैं। तकनीकों में शामिल हैं:
- आयामीकरण संकुचन: एट्रिब्यूट्स की संख्या को घटाना।
- संख्यात्मक संकुचन: संकलन या सैम्पलिंग जैसी तकनीकों के माध्यम से डेटा का आयतन घटाना।
1.13.4 Data Transformation and Data Discretization (डेटा रूपांतरण और डेटा विवेकशीलता)
English:
- Data Transformation: It involves converting data into a different format or scale (e.g., normalization, aggregation).
- Data Discretization: Converting continuous data into discrete categories or bins (e.g., age groups).
Hindi:
- डेटा रूपांतरण: इसमें डेटा को एक अलग प्रारूप या पैमाने में परिवर्तित करना शामिल है (जैसे, सामान्यीकरण, संकलन)।
- डेटा विवेकशीलता: निरंतर डेटा को विवेकशील श्रेणियों या बिन्स में बदलना (जैसे, आयु समूह)।
1.13.5 Data Cleaning and Data Integration (डेटा सफाई और डेटा एकीकरण)
English:
- Data Cleaning: Involves removing duplicates, correcting errors, and handling missing data.
- Data Integration: Combining data from multiple sources into a unified dataset.
Hindi:
- डेटा सफाई: इसमें डुप्लिकेट्स को हटाना, त्रुटियों को सही करना, और गायब डेटा को संभालना शामिल है।
- डेटा एकीकरण: विभिन्न स्रोतों से डेटा को एकीकृत डेटासेट में जोड़ना।
1 Comments
Very useful
ReplyDelete