sql - ডেটাফ্রেম ফাংশন বনাম এসকিউএল কোয়েরিগুলি



performance apache-spark (2)

আদর্শভাবে, স্পার্কের অনুঘটকটির একই প্রয়োগকারী পরিকল্পনায় উভয় কলকেই অনুকূলিত করা উচিত এবং পারফরম্যান্স একই হওয়া উচিত। কীভাবে কল করবেন এটি আপনার স্টাইলের বিষয়। বাস্তবে, হার্টন ওয়ার্কস ( https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html ) এর প্রতিবেদনের অনুসারে সেখানে পার্থক্য রয়েছে, যেখানে এসকিউএল কোনও ক্ষেত্রে ডেটাফ্রেমকে ছাড়িয়ে যায় তাদের মোট কাউন্টারগুলির সাথে গ্রুপেড রেকর্ডগুলির প্রয়োজন যা রেকর্ড নামে সর্বাধিক অবতরণ করা হয়।

https://src-bin.com

স্পার্কের সাথে ভাল পারফরম্যান্স করা। আমি ভাবছি যে এসকিউএল SQLContext মাধ্যমে এসকিউএল কোয়েরিগুলি ব্যবহার করা ভাল বা df.select() মতো df.select() ফ্রেম ফাংশনগুলির মাধ্যমে কোয়েরি করা ভাল কিনা।

কোন ধারণা? :)


Answer #1

ডেটা ফ্রেম ব্যবহার করে, কেউ এসকিউএলকে একাধিক স্টেটমেন্ট / ক্যোয়ারিতে বিভক্ত করতে পারে যা ডিবাগিং, সহজ বর্ধন এবং কোড রক্ষণাবেক্ষণে সহায়তা করে।

জটিল এসকিউএল কোয়েরিগুলিকে সহজ প্রশ্নগুলিতে ভাঙ্গা এবং ডিএফ-এ ফলাফল নির্ধারণ করা আরও ভাল বোঝা নিয়ে আসে।

একাধিক ডিএফ-তে কোয়েরি বিভক্ত করে, বিকাশকারী ক্যাশে, পুনঃস্থাপন (অনন্য / নিকট-অনন্য কী ব্যবহার করে পার্টিশনগুলিতে সমানভাবে ডেটা বিতরণ করতে) ব্যবহার করে সুবিধা অর্জন করতে পারে।





apache-spark-sql