Unit 5 Cluster Analysis notes, polytechnic 5th sem cs notes

 

5.1 Basic Concepts of Cluster Analysis (क्लस्टर विश्लेषण की बुनियादी अवधारणाएँ)

English:

Cluster analysis is a type of unsupervised learning where the goal is to group a set of objects such that objects within the same group (cluster) are more similar to each other than to those in other groups.

  1. Cluster: A group of objects that are similar to each other based on certain attributes or features.
  2. Clustering: The process of partitioning the data into clusters.
  3. Similarity Measure: A metric (e.g., Euclidean distance) used to measure how similar or dissimilar two objects are.

Hindi:

क्लस्टर विश्लेषण एक प्रकार की अव्यक्त (unsupervised) शिक्षा है, जहाँ लक्ष्य एक वस्तु के सेट को इस तरह से समूहित करना है कि एक ही समूह (क्लस्टर) में वस्तुएं एक-दूसरे के अधिक समान हों, और अन्य समूहों की तुलना में कम समान हों।

  1. क्लस्टर (Cluster): एक समूह, जिसमें वस्तुएं एक-दूसरे के समान होती हैं, और ये समानताएँ कुछ विशेषताओं या गुणों पर आधारित होती हैं।
  2. क्लस्टरिंग (Clustering): डेटा को विभिन्न क्लस्टरों में विभाजित करने की प्रक्रिया।
  3. समानता माप (Similarity Measure): एक मीट्रिक (जैसे, यूक्लिडियन दूरी) जो यह मापता है कि दो वस्तुएं एक-दूसरे से कितनी समान हैं।

5.2 Clustering Structures (क्लस्टर संरचनाएँ)

English:

Clustering can take different structural forms based on the type of clustering method used:

  1. Centroid-based Clustering: Clusters are represented by the center point (centroid).
  2. Density-based Clustering: Clusters are formed based on areas of high density.
  3. Connectivity-based Clustering: Clusters are based on the proximity of data points.

Hindi:

क्लस्टरिंग विभिन्न संरचनात्मक रूपों में हो सकती है, जो उपयोग की जाने वाली क्लस्टरिंग विधि पर निर्भर करती है:

  1. केंद्र-बद्ध क्लस्टरिंग (Centroid-based Clustering): क्लस्टर का प्रतिनिधित्व केंद्र बिंदु (centroid) द्वारा किया जाता है।
  2. घनत्व-बद्ध क्लस्टरिंग (Density-based Clustering): क्लस्टर उच्च घनत्व वाले क्षेत्रों के आधार पर बनाए जाते हैं।
  3. संपर्क-बद्ध क्लस्टरिंग (Connectivity-based Clustering): क्लस्टर डेटा बिंदुओं की निकटता के आधार पर बनाए जाते हैं।

5.3 Major Clustering Approaches (प्रमुख क्लस्टरिंग दृष्टिकोण)

5.3.1 Partitioning Methods (विभाजन विधियाँ)

English:

Partitioning methods divide the data into a predefined number of clusters. Each object is assigned to exactly one cluster.

  1. K-Means Clustering: A popular partitioning method where data is divided into 'k' clusters based on the nearest mean of the points.

    • Steps:
      • Initialize k centroids.
      • Assign each data point to the nearest centroid.
      • Recompute the centroids and repeat until convergence.
  2. K-Medoids: Similar to K-means, but instead of using the mean, the "medoid" (most representative object) is used as the center of the cluster.

Hindi:

विभाजन विधियाँ डेटा को पहले से परिभाषित संख्या में क्लस्टरों में विभाजित करती हैं। प्रत्येक वस्तु को ठीक एक क्लस्टर में सौंपा जाता है।

  1. K-मीन्स क्लस्टरिंग (K-Means Clustering): एक लोकप्रिय विभाजन विधि, जिसमें डेटा को 'k' क्लस्टरों में विभाजित किया जाता है, जो बिंदुओं के निकटतम माध्य के आधार पर होते हैं।
    • कदम:
      • k सेंट्रॉयड को प्रारंभ में निर्धारित करें।
      • प्रत्येक डेटा बिंदु को निकटतम सेंट्रॉयड से जोड़ें।
      • सेंट्रॉयड को पुनः गणना करें और पुनरावृत्त करें जब तक यह स्थिर न हो जाए।
  2. K-मेडोइड्स (K-Medoids): K-मीन्स की तरह है, लेकिन यहाँ माध्य के बजाय "मेडोइड" (सबसे प्रतिनिधि वस्तु) का उपयोग केंद्र के रूप में किया जाता है।

5.3.2 Hierarchical Methods (पदानुक्रमिक विधियाँ)

English:

Hierarchical clustering creates a tree-like structure (dendrogram) where clusters are formed by progressively merging or splitting them. It can be:

  1. Agglomerative (Bottom-up): Starts with individual data points and merges them into clusters.
  2. Divisive (Top-down): Starts with all data in one cluster and divides it into smaller clusters.

Hindi:

पदानुक्रमिक क्लस्टरिंग एक वृक्ष जैसी संरचना (dendrogram) बनाती है, जिसमें क्लस्टर धीरे-धीरे एकजुट या विभाजित होते हैं। यह हो सकता है:

  1. एग्लोमेरेटीव (Bottom-up): यह व्यक्तिगत डेटा बिंदुओं से शुरू होता है और उन्हें क्लस्टरों में जोड़ता है।
  2. डिवीसीव (Top-down): यह सभी डेटा को एक क्लस्टर में लेकर शुरू करता है और इसे छोटे क्लस्टरों में विभाजित करता है।

5.3.3 Density-Based Methods (घनत्व-बद्ध विधियाँ)

English:

Density-based clustering forms clusters based on areas of high data point density. It is good for finding clusters of arbitrary shape and handling noise.

  1. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): A widely used method that groups points that are closely packed together while marking isolated points as noise.

Hindi:

घनत्व-बद्ध क्लस्टरिंग क्लस्टरों को उच्च डेटा बिंदु घनत्व वाले क्षेत्रों के आधार पर बनाती है। यह मनमाने आकार के क्लस्टरों को ढूंढने और शोर को संभालने के लिए अच्छा होता है।

  1. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): एक प्रसिद्ध विधि है जो निकटतम बिंदुओं को एक साथ समूहित करती है, जबकि अलग-थलग बिंदुओं को शोर के रूप में चिह्नित करती है।

5.3.4 Model-Based Clustering (मॉडल-बद्ध क्लस्टरिंग)

English:

Model-based clustering assumes that data points are generated by a mixture of probability distributions. It aims to fit a model to the data and assigns data points to clusters based on the likelihood of belonging to a given distribution.

  1. Gaussian Mixture Models (GMM): A method that uses a mixture of Gaussian distributions to model the data.

Hindi:

मॉडल-बद्ध क्लस्टरिंग मानती है कि डेटा बिंदु विभिन्न संभावना वितरणों के मिश्रण से उत्पन्न होते हैं। इसका उद्देश्य डेटा पर एक मॉडल फिट करना है और संभावना के आधार पर डेटा बिंदुओं को क्लस्टरों में सौंपना है।

  1. गॉसियन मिश्रण मॉडल (Gaussian Mixture Models - GMM): एक विधि है जो डेटा को मॉडल करने के लिए गॉसियन वितरणों के मिश्रण का उपयोग करती है।

5.4 Why Outlier Analysis (आउट्लायर विश्लेषण क्यों?)

English:

Outlier analysis identifies data points that significantly differ from the rest of the data. These outliers can provide valuable insights, such as errors or rare events. They may also distort the analysis if not handled properly.

Hindi:

आउट्लायर विश्लेषण उन डेटा बिंदुओं की पहचान करता है जो शेष डेटा से महत्वपूर्ण रूप से भिन्न होते हैं। ये आउट्लायर्स मूल्यवान जानकारी प्रदान कर सकते हैं, जैसे कि त्रुटियाँ या दुर्लभ घटनाएँ। यदि इन्हें सही तरीके से नहीं संभाला जाए, तो ये विश्लेषण को विकृत कर सकते हैं।


5.5 Identifying and Handling of Outliers (आउट्लायर्स की पहचान और उनका प्रबंधन)

English:

To identify outliers, statistical methods like z-scores or IQR (Interquartile Range) can be used. Once identified, outliers can be handled by removing them, adjusting them, or transforming the data.

Hindi:

आउट्लायर्स की पहचान करने के लिए सांख्यिकीय विधियों जैसे z-स्कोर या IQR (इंटरक्वारटाइल रेंज) का उपयोग किया जा सकता है। एक बार आउट्लायर्स की पहचान हो जाने के बाद, उन्हें हटाया, समायोजित किया या डेटा का रूपांतरित किया जा सकता है।


5.6 Outlier Detection Techniques (आउट्लायर पहचान तकनीकें)

English:

  1. Z-Score Method: Any data point with a z-score greater than a certain threshold (e.g., 3) is considered an outlier.
  2. IQR Method: Points outside the range defined by 1.5 times the interquartile range (IQR) are outliers.
  3. DBSCAN: A density-based clustering technique can also be used to identify outliers.

Hindi:

  1. Z-स्कोर विधि (Z-Score Method): कोई भी डेटा बिंदु जिसका z-स्कोर एक निश्चित सीमा (जैसे 3) से अधिक हो, उसे आउट्लायर माना जाता है।
  2. IQR विधि (IQR Method): वे बिंदु जो इंटरक्वारटाइल रेंज (IQR) के 1.5 गुना सीमा से बाहर होते हैं, वे आउट्लायर होते हैं।
  3. DBSCAN: घनत्व-बद्ध क्लस्टरिंग तकनीक का उपयोग आउट्लायर्स की पहचान करने के लिए भी किया जा सकता है।

5.7 WEB MINING (वेब माइनिंग)

5.7.1 Basic Concepts of Web Mining (वेब माइनिंग की बुनियादी अवधारणाएँ)

English:

Web mining refers to the process of discovering useful patterns and knowledge from web data. It involves extracting information from web pages, logs, and other online sources.

Hindi:

वेब माइनिंग का तात्पर्य वेब डेटा से उपयोगी पैटर्न और ज्ञान की खोज करने की प्रक्रिया से है। इसमें वेब पृष्ठों, लॉग्स, और अन्य ऑनलाइन स्रोतों से जानकारी निकालना शामिल होता है।


5.7.2 Different Types of Web Mining (वेब माइनिंग के विभिन्न प्रकार)

English:

  1. Web Content Mining: Extracting useful information from the content of web pages.
  2. Web Structure Mining: Analyzing the structure of the web, such as hyperlinks between web pages.
  3. Web Usage Mining: Analyzing user behavior on the web through logs and tracking user navigation.

Hindi:

  1. वेब सामग्री माइनिंग (Web Content Mining): वेब पृष्ठों की सामग्री से उपयोगी जानकारी निकालना।
  2. वेब संरचना माइनिंग (Web Structure Mining): वेब की संरचना का विश्लेषण करना, जैसे वेब पृष्ठों के बीच हाइपरलिंक्स।
  3. वेब उपयोग माइनिंग (Web Usage Mining): लॉग्स और उपयोगकर्ता नेविगेशन को ट्रैक करके वेब पर उपयोगकर्ता व्यवहार का विश्लेषण करना।

5.7.3 PAGE RANK Algorithm (पृष्ठ रैंक एल्गोरिदम)

English:

PageRank is an algorithm used by Google to rank web pages. It assigns a rank to each web page based on the number and quality of links pointing to it.

Hindi:

पृष्ठ रैंक एक एल्गोरिदम है जिसे गूगल वेब पृष्ठों को रैंक करने के लिए उपयोग करता है। यह प्रत्येक वेब पृष्ठ को उस पर लिंक करने वाले लिंक की संख्या और गुणवत्ता के आधार पर रैंक प्रदान करता है।


5.7.4 HITS Algorithm (HITS एल्गोरिदम)

English:

The HITS (Hyperlink-Induced Topic Search) algorithm classifies web pages into two types: hubs (web pages that link to many other pages) and authorities (pages that are linked to by many hubs).

Hindi:

HITS (हाइपरलिंक-इंड्यूस्ड टॉपिक सर्च) एल्गोरिदम वेब पृष्ठों को दो प्रकारों में वर्गीकृत करता है: हब्स (वे पृष्ठ जो कई अन्य पृष्ठों से लिंक होते हैं) और अधिकार (पृष्ठ जो कई हब्स द्वारा लिंक होते हैं)।

Post a Comment

0 Comments