Spark SQL 的join on or

Spark SQL join on or

在处理数据时,遇到join on的条件有多个,然而hive不支持on or,因此问了度娘,找了google才发现这东西还涉及hive优化,吭哧了一下午终于弄出来,心情豁然开朗,希望本文能帮到遇到难题的你们。
我的一个表是有关电话号码的,另一个表是解析这个电话号码的,分析号码的省,市,服务商,手机号就取前7位获得省市服务商,固话就取前3/4位,所以问题就来了,join 后面的条件有多个,要是sql是这样的

select call_bill.bill_id,call_bill.caller,phonearea.province,phonearea.city ,phonearea.isp

from call_bill left outer join phonearea

on (substr(call_bill .caller,1,7) = phonearea_test.prefix

or substr(call_bill .caller,1,3)=phonearea.code);

or substr(call_bill .caller,1,4)=phonearea.code;

hive上你会发现有错误 ,spark里你会发现 产生海量的MAP(变成双表map的笛卡尔积了)
尝试多种方法,应该用union all 这样

select *

from ( select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp

            from  call_bill bi left outer join phonearea ph on substr(bi.caller,1,7) = ph.prefix

        UNION ALL select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp

                from  call_bill bi left outer join phonearea ph on substr(bi.caller,1,3)=ph.code

        UNION ALL select bi.bill_id id,bi.caller caller,ph.province province,ph.city city,ph.isp isp

                from  call_bill bi left outer join phonearea ph on substr(bi.caller,1,4)=ph.code

) tmp_tmp ;