ویکیپدیا دانشنامهی جالبیه. چند روز پیش یه لیست جالب از کدها و برنامههایی که فایلهای تکراری رو پیدا میکنن پیدا کردم توش. الگوریتم اکثر اینا هش کردن فایلها و مقایسهی هش اونا با همه و در نهایت دستهبندی فایلها بر اساس یکسان بودن هش.
من از کد پایتون اولی استفاده کردم. ینی بعد از اینکه python رو به دستورات cmd اضافه کردم خیلی راحت فایل پایتون رو توی درایوی که میخواستم بررسی بشه کپی کردم و فایل رو اجرا کردم. البته چند ساعتی طول کشید تا یک ترابایت دیتایی که داشتم رو بررسی کنه ولی نتیجش این بود که من ۱۴۶۲۰۵ تا فایل دارم که یکسریشون با یکسری دیگه برابرند.