بایگانی برچسب برای: gdak

مقدمه

فراتفکیک پذیری (Super resolution)- سیستم‌های تصویربرداری دیجیتال به دلیل راحتی کاربرد و هزینه مناسب بطور چشمگیری گسترش یافته‌اند، اما هنوز به دلیل پائین بودن رزولوشن (تفکیک پذیری یا وضوح تصویری) نسبت به سیستم‌های تصویر برداری پیشین (سیستم‌های نوری)، دچار ضعف می‌باشند. تلاش‌های بسیاری جهت افزایش رزولوشن تصاویر دیجیتالی صورت گرفته که به دو بخش کلی نرم‌افزاری و سخت‌افزاری قابل تقسیم بندی می‌باشند.

در بخش سخت‌افزاری با هرچه غنی تر نمودن تعداد پیکسل‌های موجود بر روی حسگرهای دوربین‌های دیجیتالی در واحد سطح، می‌توان درجه تفکیک تصویر را افزایش داد. بعلاوه، با هرچه کوچکتر نمودن سلول‌های حسگرهای دوربین‌های دیجیتالی، مقدار نور مؤثر دریافت شده توسط هر سلول، کاهش می‌یابد؛ البته می‌توان با ایجاد شبکه‌ای از عدسی‌های محدب بر روی لایه فوقانی سلول‌های حسگر، مقدار نور مؤثر دریافتی توسط هر سلول حسگر را افرایش داد. لیکن به دلیل وجود تعداد بسیار زیاد سلول‌های حسگر، نویز ضربه ای ناشی از قطع و وصل جریان در درون این شبکه سلولی، همچنان وجود داشته و عامل مؤثری جهت کاهش کیفیت تصویر نهایی می‌گردد.

بنابراین روش سخت‌افزاری جهت رسیدن به تصاویری با کیفیت و رزولوشن بالاتر، بسیار پرهزینه و عملاً تا حدی غیر ممکن می‌باشد و معمولاً نمی‌توان از حد معینی، بدلیل محدودیت‌های تکنیکی موجود در تکنولوژی ساخت مدارات مجتمع، فراتر رفت.

استفاده از روش نرم‌افزاری، جهت افزایش رزولوشن تصاویر دیجیتالی موضوعی است که به عنوان راه حل جایگزین روش‌های سخت‌افزاری مطرح می‌گردد که از لحاظ اقتصادی مقرون به صرفه می‌باشد. هدف در چنین روش‌های نرم‌افزاری، تولید تصویر با رزولوشن بالاتر توسط همان دوربین‌های تصویر برداری دیجیتالی با رزولوشن پائین می‌باشد به طوریکه تصویر نهایی از لحاظ رزولوشن همانند تصویر برداشت شده توسط دوربینی با رزولوشن بالاتر گردد که اگر در دسترس می‌بود، می‌توان برداشت نمود.

 

فراتفکیک پذیری

این تکنیک از لحاظ نامگذاری بدلیل آنکه قادر خواهیم بود از محدوده توانایی سیستم تصویر برداری فراتر رویم، فرا تفکیک پذیری نامیده می‌شود؛ در این تکنیک تلفیق چندین تصویر با رزولوشن پائین تر باعث تولید تصویر نهایی با رزولوشن بالاتر می‌گردد. نکته کلیدی در این تکنیک، استفاده از در هم آمیختگی می‌باشد زیرا که هر تصویر برداشت شده از صحنه مورد نظر تنها بخشی از اطلاعات فرکانس بالای صحنه را دریافت نموده‌است و این اطلاعات فرکانس بالا در تمام تصاویر پخش شده‌است، بنابراین می‌توان از این اطلاعات توزیع شده استفاده نمود و تصویری با رزولوشن و کیفیت بالاتر ایجاد نمود. مطالعات انجام شده نشان می‌دهد که پدیده در هم آمیختگی به دلیل محدود بودن تعداد پیکسل هایِ حسگر هایِ دوربین هایِ دیجیتالی می‌باشد.
فراتفکیک پذیری، چرا و چه وقت ممکن می‌باشد؟ [ویرایش]

سوال بنیادی این می‌باشد که چه عاملی فراتفکیک پذیری را ممکن می‌سازد. این پرسش را توسط مثالی که در ادامه بدان خواهیم پرداخت، توضیح خواهیم داد؛ چنانچه حسگر دوربینی با ابعاد ۴*۴ از صحنه خاصی تصویر برداری نماید، با افزایش تعداد سلول‌های حسگر دوربین به تعداد ۱۶*۱۶، تصویر برداشت شده دارای رزولوشن بیشتری خواهد بود. حال اگر توسط همان حسگر چهار تصویر از یک صحنه یکسان برداشت نمائیم که اختلاف آنها در حد مقداری صحیح از واحد پیکسل باشد، فراتفکیک پذیری ممکن نخواهد بود، ولی چنانچه چهار تصویر دریافتی اختلافی در حد کسری از واحد پیکسل داشته باشند، فراتفکیک پذیری ممکن می‌گردد؛ زیرا که اختلاف چهار تصویر فوق در حد کسری از واحد پیکسل، اطلاعات اضافه‌ای را از صحنه برداشت شده ایجاب می‌کند که پتانسیل افزایش رزولوشن را تقویت می‌نماید.

 

پیکربندی تکنیک فراتفکیک پذیری

اکثر روش‌های فراتفکیک پذیری را می‌توان به دو بخش تقسیم نمود: بخش ثبت تصویر Image Registration و بخش بازسازی تصویر Image Reconstruction. دقت بسیار بالایی در بخش ثبت تصویر لازم است (در حد کسری از واحد پیکسل) تا بتوان در بخش بازسازی، تصویری با رزولوشن بالا را بطور صحیح ایجاد نمود. اگر پارامترهای ثبت تصویر بطور غلط تخمین زده شده باشند، معمولاً بهتر است که یکی از تصاویر را توسط روش‌های درونیابی به اندازه مطلوب تغییر دهیم، تا اینکه اطلاعات چندین تصویر را بطور غلط، با یکدیگر تلفیق نمائیم.

پس از آنکه تصاویر ثبت شدند، جهت بدست آوردن تصویری با رزولوشن بالا از نمونه‌های نمونه برداری شده بصورت غیریکنواخت، یک روش بازسازی تاثیر ناپذیر از نویز (Robust)، لازم می‌باشد. بخش اصلی تر، بخش ثبت تصویر می‌باشد که در تکنیک فراتفکیک پذیری از اهمیت بالایی برخوردار می‌باشد، زیرا که در این بخش تفاوت اصلی میان درونیابی و تکنیک فراتفکیک پذیری بطور آشکار مشخص می‌شود.

[عکس: Super-resolution_example_closeup.png]ت
تصویر سمت چپ تصویر اصلی و تصویر سمت راست تصویر بعد از فراتفکیک‌پذیری است

 

هوش مصنوعی جدید وحشت آور سامسونگ می تواند Deepfakeهای سخنگو از یک تصویر تولید کند.

مشکل deepfake ما در مورد بدتر شدن است: مهندسان سامسونگ در حال حاضر سرهای سخنگوی واقع گرایانه ای را توسعه داده اند که می تواند از یک تصویر تولید شود، بنابراین AI حتی می تواند کلمات را در دهان مونا لیزا قرار دهد.

الگوریتم های جدید که توسط یک تیم از مرکز AI سامسونگ و موسسه علوم و فناوری Skolkovo توسعه یافته است، هر دو در مسکو به بهترین وجه با انواع تصاویر نمونه گرفته شده در زوایای مختلف کار می کنند، اما آنها می توانند تنها با یک تصویر برای کار کردن، حتی یک نقاشی، کاملا موثر باشند.

 

 

 

مدل جدید نه تنها می تواند از یک پایگاه داده اولیه کوچکتر از تصاویر استفاده کند، هم چنین می تواند طبق نظر محققان پشت آن، فیلم های کامپیوتری را در مدت کوتاه تری تولید کند.

و در حالی که همه انواع برنامه های جالب وجود دارد که از تکنولوژی می توان برای آن استفاده کرد – مانند قرار دادن یک نسخه فوق واقع گرایانه از خودتان در واقعیت مجازی – این نگرانی وجود دارد که فیلم های ویدئویی کاملاً تقلبی را می توان از یک تصویر کوچک تولید کرد.

محققان در مقاله خود نوشتند: “چنین توانایی دارای کاربردهای عملی برای تلوزیون است،، از جمله ویدئو کنفرانس و بازی های چند نفره، و همچنین صنعت جلوه های ویژه.”

deepfake

سیستم با آموزش خود در مجموعه ای از ویژگی های چهره برجسته کار می کند که پس از آن می تواند دستکاری شود. بسیاری از آموزش ها بر روی یک پایگاه داده قابل دسترس عمومی از بیش از 7000 تصویر از افراد مشهور، به نام VoxCeleb، و همچنین تعداد زیادی از فیلم ها از صحبت کردن مردم با دوربین انجام شده است.

از آنجا که این رویکرد جدید کار گذشته را با آموزش دادن به شبکه عصبی در مورد چگونگی تبدیل ویژگی های چهره برجسته به فیلم های متحرک با نگاه واقع گرایانه، بیش از چندین بار، بهبود می دهد. سپس این دانش می تواند بر روی چند عکس (یا فقط یک عکس) از کسی که AI قبل از آن هرگز ندیده است، مستقر شود.

 

deepfake new

 

این سیستم از یک شبکه عصبی کانولوشن، یک نوع شبکه عصبی بر اساس فرآیندهای بیولوژیکی در قشر بینایی حیوان استفاده می کند. این منحصراً در پردازش پشته های تصاویر و شناخت آنچه در آنها متخصص است – “convolution” اساساً بخش هایی از تصاویر را شناسایی و استخراج می کند (آن همچنین برای نمونه، در جستجوهای تصویری در وب و تکنولوژی خودرو خود راننده استفاده می شود).

همانند سایر ابزارهای تولید چهره هوش مصنوعی گرا که ما شاهد آن هستیم، آخرین مرحله در این فرآیند برای “واقع گرایی کامل” مورد بررسی قرار می گیرد – از لحاظ فنی یک مدل مولد رقابتی. هر فریمهایی که بیش از حد عجیب و غریب و غیر طبیعی هستند، دوباره برش داده و ارائه میشوند، ویدئو نهایی با کیفیت بهتر را به نمایش میگذارند.

این تکنیک موفق به غلبه بر دو مشکل بزرگ در سرهای سخنگوی تولید شده مصنوعی شده است: پیچیدگی سرها (با دهان ها، مو، چشم ها و غیره) و توانایی ما در به راحتی کشف کردن یک سر جعلی (به عنوان مثال، چهره های شخصیتی در میان سخت ترین عناصر برای طراحان بازی ویدیویی برای درست کردن هستند).

سیستم و دیگران مانند آن، برای بهتر شدن محدود می شوند به طوریکه الگوریتم ها بهبود یابند و مدل های آموزشی موثرتر شوند – و این بدان معنی است که مجموعه ای کامل از سوالات در مورد اینکه آیا می توانید به آنچه که می بینید یا می شنوید اعتماد کنید، اگر در فرم دیجیتال باشد.

از طرف دیگر، ستاره های تلویزیون و فیلم مورد علاقه شما هرگز نباید رشد کنند و بمیرند – AI شبیه به این است که به زودی به اندازه کافی هوشمند خواهد بود تا نمایش های کاملا واقعی را فقط از چند عکس تولید کند و همچنین در زمان ذخیره.