Hello Everyone,
Here is just revision notes for CS 50031(Same as CI/IT 50031) Course Title Data Sciences: Data Warehousing and Data Mining.Hope this will help you.
BEst of luck for your Exams
3.1 Mining Frequent Patterns (सामान्य पैटर्न्स का खनन)
English:
Mining frequent patterns involves discovering patterns in a dataset that occur frequently, which helps in understanding relationships between different items. It is primarily used in market basket analysis to identify items that often appear together in transactions.
Frequent Itemsets: A frequent itemset is a set of items that appears together in a transaction more than a user-defined threshold.
- Example: In a grocery store, items like "bread" and "butter" might frequently be bought together.
Support: The support of an itemset is the proportion of transactions in the database that contain the itemset.
- Formula: Support(A) = (Number of transactions containing A) / (Total number of transactions)
Apriori Algorithm: One of the most commonly used algorithms for mining frequent itemsets.
- The algorithm generates frequent itemsets by using a bottom-up approach. It starts by finding frequent individual items and extends them by adding more items to form larger itemsets.
Applications of Frequent Pattern Mining: Frequent pattern mining is used for:
- Market Basket Analysis
- Website Usage Mining
- Stock Market Analysis
- Bioinformatics for gene pattern discovery
Hindi:
सामान्य पैटर्न्स का खनन एक डेटासेट में उन पैटर्न्स की खोज करना है जो बार-बार होते हैं, जिससे विभिन्न आइटमों के बीच रिश्तों को समझने में मदद मिलती है। यह मुख्य रूप से बाजार बास्केट विश्लेषण में उपयोग किया जाता है, ताकि उन आइटमों की पहचान की जा सके जो अक्सर लेन-देन में एक साथ आते हैं।
सामान्य आइटम सेट्स: एक सामान्य आइटम सेट वह सेट है जिसमें आइटम एक साथ लेन-देन में एक निश्चित सीमा से अधिक बार आते हैं।
- उदाहरण: एक किराने की दुकान में "ब्रेड" और "बटर" जैसे आइटम अक्सर एक साथ खरीदे जाते हैं।
समर्थन (Support): किसी आइटम सेट का समर्थन उस डेटाबेस के लेन-देन का अनुपात है जिसमें वह आइटम सेट शामिल होता है।
- सूत्र: Support(A) = (लेन-देन की संख्या जिसमें A शामिल है) / (कुल लेन-देन की संख्या)
Apriori एल्गोरिदम: यह सामान्य आइटम सेट्स का खनन करने के लिए सबसे सामान्य एल्गोरिदम है।
- यह एल्गोरिदम एक बॉटम-अप दृष्टिकोण का उपयोग करता है। यह पहले सामान्य व्यक्तिगत आइटम खोजता है और फिर उन्हें बढ़ाकर बड़े आइटम सेट्स बनाता है।
सामान्य पैटर्न खनन के अनुप्रयोग: सामान्य पैटर्न खनन का उपयोग निम्नलिखित के लिए किया जाता है:
- बाजार बास्केट विश्लेषण
- वेबसाइट उपयोग खनन
- स्टॉक मार्केट विश्लेषण
- जैव सूचना विज्ञान में जीन पैटर्न की खोज
3.2 Associations and Correlations (संबंध और सहसंबंध)
3.2.1 Basic Concepts (मूलभूत अवधारणाएँ)
English:
Association Rule: An association rule is an implication of the form A → B, meaning if item A is bought, then item B is also likely to be bought.
- Example: {bread} → {butter} means if a customer buys bread, they are likely to buy butter as well.
Confidence: The confidence of a rule is the probability that item B is bought when item A is bought.
- Formula: Confidence(A → B) = Support(A ∩ B) / Support(A)
Lift: The lift of a rule measures how much more likely item B is bought when item A is bought, compared to when A is not bought.
- Formula: Lift(A → B) = Confidence(A → B) / Support(B)
Support: As defined earlier, the support of a rule is the proportion of transactions that contain both A and B.
Correlation: Correlation measures the strength and direction of the relationship between two variables.
- Positive Correlation: Both variables increase together.
- Negative Correlation: One variable increases while the other decreases.
Hindi:
संबंध नियम: एक संबंध नियम उस रूप में होता है A → B, जिसका मतलब है कि यदि आइटम A खरीदी जाती है, तो आइटम B भी खरीदी जाने की संभावना है।
- उदाहरण: {ब्रेड} → {बटर} का मतलब है कि अगर ग्राहक ब्रेड खरीदते हैं, तो वे बटर भी खरीदने की संभावना रखते हैं।
विश्वसनीयता (Confidence): किसी नियम की विश्वसनीयता यह है कि जब आइटम A खरीदी जाती है, तो आइटम B खरीदने की संभावना कितनी है।
- सूत्र: Confidence(A → B) = Support(A ∩ B) / Support(A)
लिफ्ट (Lift): किसी नियम का लिफ्ट यह मापता है कि जब आइटम A खरीदी जाती है, तो आइटम B खरीदी जाने की संभावना कितनी अधिक है, जबकि अगर A न खरीदी जाए तो क्या संभावना होती।
- सूत्र: Lift(A → B) = Confidence(A → B) / Support(B)
समर्थन (Support): जैसा कि पहले परिभाषित किया गया है, किसी नियम का समर्थन वह अनुपात है जिसमें दोनों A और B शामिल होते हैं।
सहसंबंध (Correlation): सहसंबंध दो चर के बीच रिश्ते की ताकत और दिशा को मापता है।
- सकारात्मक सहसंबंध: दोनों चर एक साथ बढ़ते हैं।
- नकारात्मक सहसंबंध: एक चर बढ़ता है जबकि दूसरा घटता है।
3.2.2 Efficient and Scalable Frequent Itemset Mining Methods (कुशल और स्केलेबल सामान्य आइटम सेट खनन विधियाँ)
English:
Efficient and scalable mining methods are necessary to handle large datasets and ensure that frequent patterns are discovered in a reasonable time.
Apriori Algorithm: This algorithm generates candidate itemsets and prunes non-frequent itemsets. It is widely used but can be inefficient on large datasets.
FP-Growth (Frequent Pattern Growth): This is a more efficient algorithm compared to Apriori. It does not generate candidate itemsets and instead constructs a compact structure called an FP-tree. It is faster and uses less memory than Apriori.
Eclat Algorithm: Eclat (Equivalence Class Clustering and bottom-up Lattice Traversal) is another approach for mining frequent itemsets. It uses vertical data representation, which is more efficient in certain cases.
Hindi:
कुशल और स्केलेबल खनन विधियाँ बड़ी डेटासेट्स को संभालने के लिए आवश्यक होती हैं और यह सुनिश्चित करती हैं कि सामान्य पैटर्न्स को उचित समय में खोजा जाए।
Apriori एल्गोरिदम: यह एल्गोरिदम उम्मीदवार आइटम सेट्स उत्पन्न करता है और गैर-सामान्य आइटम सेट्स को हटा देता है। यह व्यापक रूप से उपयोग किया जाता है, लेकिन बड़े डेटासेट्स पर यह अप्रभावी हो सकता है।
FP-Growth (फ्रीक्वेंट पैटर्न ग्रोथ): यह एल्गोरिदम Apriori की तुलना में अधिक कुशल है। यह उम्मीदवार आइटम सेट्स उत्पन्न नहीं करता है और इसके बजाय एक संकुचित संरचना FP-ट्री का निर्माण करता है। यह Apriori से तेज़ और कम मेमोरी का उपयोग करता है।
Eclat एल्गोरिदम: Eclat (इक्विवलेंस क्लास क्लस्टरिंग और बॉटम-अप लैटिस ट्रैवर्सल) सामान्य आइटम सेट्स खनन के लिए एक और दृष्टिकोण है। यह वर्टिकल डेटा प्रतिनिधित्व का उपयोग करता है, जो कुछ मामलों में अधिक कुशल होता है।
3.2.3 Pattern Evaluation Methods (पैटर्न मूल्यांकन विधियाँ)
English:
After frequent patterns are discovered, they need to be evaluated to determine their usefulness.
Interestingness: Patterns should be interesting to the user. The measure of interestingness can be based on factors like novelty, usefulness, and unexpectedness.
Support and Confidence: These are the primary measures for evaluating the usefulness of patterns, as defined earlier.
Lift: The lift is used to evaluate the strength of the association. A higher lift value indicates a stronger relationship.
Statistical Significance: This is used to determine if a pattern is statistically significant or just a result of random chance.
Hindi:
सामान्य पैटर्न्स की खोज के बाद, उनका मूल्यांकन करना आवश्यक होता है ताकि उनकी उपयोगिता निर्धारित की जा सके।
दिलचस्पी (Interestingness): पैटर्न्स उपयोगकर्ता के लिए दिलचस्प होने चाहिए। दिलचस्पी का माप नवीनता, उपयोगिता और अप्रत्याशितता जैसे तत्वों पर आधारित हो सकता है।
समर्थन और विश्वसनीयता (Support and Confidence): ये पैटर्न्स की उपयोगिता का मूल्यांकन करने के लिए प्रमुख माप हैं, जैसा कि पहले परिभाषित किया गया है।
लिफ्ट (Lift): लिफ्ट का उपयोग संबंध की ताकत का मूल्यांकन करने के लिए किया जाता है। अधिक लिफ्ट मान एक मजबूत संबंध को सूचित करता है।
सांख्यिकीय महत्व (Statistical Significance): यह निर्धारित करने के लिए उपयोग किया जाता है कि कोई पैटर्न सांख्यिकीय रूप से महत्वपूर्ण है या केवल यादृच्छिक संयोग का परिणाम है।
3.2.4 Applications of Frequent Pattern and Associations (सामान्य पैटर्न और संबंधों के अनुप्रयोग)
English:
Frequent pattern mining and association analysis have several real-world applications:
Market Basket Analysis: It helps in discovering associations between products that are frequently bought together, which can be used for product placement and cross-selling.
Recommendation Systems: Frequent patterns are used in recommendation algorithms to suggest products or services to users based on their past behavior.
Healthcare: Mining frequent patterns in medical data can help in predicting disease trends, patient diagnoses, or treatment plans.
Web Mining: Frequent pattern mining can be applied to discover patterns in web pages accessed by users, helping in personalized content delivery.
Hindi:
सामान्य पैटर्न खनन और संबंध विश्लेषण के कई वास्तविक दुनिया के अनुप्रयोग हैं:
बाजार बास्केट विश्लेषण: यह उन उत्पादों के बीच संबंधों की खोज करने में मदद करता है जो अक्सर एक साथ खरीदे जाते हैं, जिसे उत्पाद प्लेसमेंट और क्रॉस-सेलिंग के लिए उपयोग किया जा सकता है।
सिफारिश प्रणाली: सामान्य पैटर्न्स का उपयोग सिफारिश एल्गोरिदम में किया जाता है ताकि उपयोगकर्ताओं को उनके पिछले व्यवहार के आधार पर उत्पाद या सेवाएं सुझाई जा सकें।
स्वास्थ्य देखभाल: चिकित्सा डेटा में सामान्य पैटर्न्स का खनन करने से बीमारी के रुझानों, रोगी निदान, या उपचार योजनाओं की भविष्यवाणी में मदद मिल सकती है।
वेब खनन: सामान्य पैटर्न खनन का उपयोग उपयोगकर्ताओं द्वारा एक्सेस किए गए वेब पृष्ठों में पैटर्न्स की खोज करने के लिए किया जा सकता है, जिससे व्यक्तिगत सामग्री वितरण में मदद मिलती है।
3.3 Frequent Patterns and Association Mining (सामान्य पैटर्न और संबंध खनन)
3.3.1 A Road Map (एक रोड मैप)
English:
Frequent patterns and association rule mining typically follow the following road map:
- Data Collection: Gather transactional data, logs, or any other data source.
- Preprocessing: Clean the data and prepare it for mining.
- Mining: Apply algorithms like Apriori or FP-Growth to mine frequent itemsets.
- Evaluation: Evaluate the interestingness and usefulness of discovered patterns.
- Application: Apply the discovered patterns in real-world applications such as recommendation systems or market analysis.
Hindi:
सामान्य पैटर्न और संबंध खनन सामान्यतः निम्नलिखित रोड मैप का पालन करते हैं:
- डेटा संग्रहण: लेन-देन डेटा, लॉग या कोई अन्य डेटा स्रोत एकत्र करना।
- प्रीप्रोसेसिंग: डेटा को साफ करें और खनन के लिए तैयार करें।
- खनन: सामान्य आइटम सेट्स को खनन करने के लिए Apriori या FP-Growth जैसे एल्गोरिदम लागू करें।
- मूल्यांकन: खोजे गए पैटर्न्स की दिलचस्पी और उपयोगिता का मूल्यांकन करें।
- अनुप्रयोग: खोजे गए पैटर्न्स का वास्तविक दुनिया के अनुप्रयोगों में उपयोग करें जैसे सिफारिश प्रणाली या बाजार विश्लेषण।
3.3.2 Mining Various Kinds of Association Rules (विभिन्न प्रकार के संबंध नियमों का खनन)
English:
Various types of association rules can be mined based on the requirements:
- Basic Association Rules: Simple rules without constraints, e.g., {A} → {B}.
- Constraint-Based Association Rules: Rules that take certain constraints into account, such as min_support or min_confidence.
- Sequential Association Rules: These rules consider the sequential order of transactions.
- Multilevel Association Rules: These rules look at patterns at different levels of abstraction.
Hindi:
संबंध नियमों के विभिन्न प्रकार खनित किए जा सकते हैं, जो आवश्यकताओं के आधार पर होते हैं:
- बुनियादी संबंध नियम: बिना किसी प्रतिबंध के सरल नियम, जैसे {A} → {B}।
- प्रतिबंध-आधारित संबंध नियम: ऐसे नियम जो कुछ प्रतिबंधों को ध्यान में रखते हैं, जैसे min_support या min_confidence।
- क्रमिक संबंध नियम: ये नियम लेन-देन के अनुक्रमिक क्रम को ध्यान में रखते हैं।
- बहु-स्तरीय संबंध नियम: ये नियम विभिन्न अमूर्तता स्तरों पर पैटर्न्स को देखते हैं।
3.3.3 Constraint-Based Frequent Pattern Mining (प्रतिबंध-आधारित सामान्य पैटर्न खनन)
English:
Constraint-based frequent pattern mining involves mining frequent patterns that satisfy certain constraints.
- Support Constraint: Only patterns with a support greater than a threshold are considered frequent.
- Confidence Constraint: Only patterns with a confidence above a threshold are considered strong associations.
- Domain-Specific Constraints: Constraints that are based on the business logic or domain knowledge.
Hindi:
प्रतिबंध-आधारित सामान्य पैटर्न खनन में उन सामान्य पैटर्न्स का खनन करना शामिल होता है जो कुछ प्रतिबंधों को संतुष्ट करते हैं।
- समर्थन प्रतिबंध: केवल वे पैटर्न्स जो एक निश्चित सीमा से अधिक समर्थन रखते हैं, उन्हें सामान्य माना जाता है।
- विश्वसनीयता प्रतिबंध: केवल वे पैटर्न्स जो एक निश्चित सीमा से अधिक विश्वसनीयता रखते हैं, उन्हें मजबूत संबंध माना जाता है।
- डोमेन-विशिष्ट प्रतिबंध: प्रतिबंध जो व्यापारिक तर्क या डोमेन ज्ञान पर आधारित होते हैं।
3.3.4 Extended Applications of Frequent Patterns (सामान्य पैटर्न्स के विस्तारित अनुप्रयोग)
English:
The applications of frequent patterns go beyond traditional market basket analysis. Some extended applications include:
- Healthcare: Mining patterns in medical records to identify common symptoms, diagnoses, or treatments.
- Finance: Using frequent patterns to identify fraudulent transactions or risky investment behaviors.
- Social Networks: Analyzing user interactions to discover common behaviors or trends.
Hindi:
सामान्य पैटर्न्स के अनुप्रयोग पारंपरिक बाजार बास्केट विश्लेषण से आगे बढ़ते हैं। कुछ विस्तारित अनुप्रयोगों में शामिल हैं:
- स्वास्थ्य देखभाल: चिकित्सा रिकॉर्ड्स में पैटर्न्स खनन करके सामान्य लक्षणों, निदानों या उपचारों की पहचान करना।
- वित्त: सामान्य पैटर्न्स का उपयोग करके धोखाधड़ी लेन-देन या जोखिमपूर्ण निवेश व्यवहार की पहचान करना।
- सामाजिक नेटवर्क्स: उपयोगकर्ता इंटरएक्शंस का विश्लेषण करके सामान्य व्यवहारों या रुझानों की खोज करना।
0 Comments